检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Spark小文件合并工具说明 工具介绍 在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因
RUN_TABLE_SERVICE 本章节仅适用于MRS 3.3.1-LTS及之后版本。 命令功能 对Hudi MOR表一键式执行Compaction/Clean/Archive,其中Compaction仅执行已存在的Scheudle。 单表执行表服务命令 命令格式 call r
配置HetuEngine资源组 资源组介绍 资源组机制从资源分配的角度控制实例的整体查询负载,并可以对查询实施排队策略。可以在一个计算实例资源下创建多个资源组,并且每个提交的查询将分配给一个特定的资源组执行。在资源组执行新查询之前,将检查当前资源组的资源负载是否超过实例分配给它的
安装MRS集群滚动补丁 滚动补丁是指在补丁安装/卸载时,采用滚动重启服务(按批次重启服务或实例)的方式,在不中断或尽可能短地中断集群各个服务业务的前提下完成对集群中单个或多个服务的补丁安装/卸载操作。集群中的服务根据对滚动补丁的支持程度,分为三种: 支持滚动安装/卸载补丁的服务:
Hudi Clustering操作说明 什么是Clustering 即数据布局,该服务可重新组织数据以提高查询性能,也不会影响摄取速度。 Clustering架构 Hudi通过其写入客户端API提供了不同的操作,如insert/upsert/bulk_insert来将数据写入Hu
ALM-12016 CPU使用率超过阈值 告警解释 系统每30秒周期性检测CPU使用率,并把实际CPU使用率和阈值相比较。CPU使用率默认提供一个阈值范围。当检测到CPU使用率连续多次(可配置,默认值为10)超出阈值范围时产生该告警。 平滑次数为1,CPU使用率小于或等于阈值时,
ALM-38005 Broker进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测Broker进程的垃圾回收(GC)占用时间,当连续3次检测到Broker进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 平滑次数为1,垃圾回收(GC)时间小于或等于
使用DBeaver访问MRS HetuEngine 应用场景 DBeaver是一个SQL客户端和数据库管理工具。对于关系数据库,使用JDBC API通过JDBC驱动程序与数据库交互。对于其他数据库(NoSQL),使用专有数据库驱动程序。 本章节以DBeaver 7.2.0版本为例,讲解如何使用DBeaver访问MRS
准备Flink安全认证 场景说明 在安全集群环境下,各个组件之间的相互通信不能够简单的互通,而需要在通信之前进行相互认证,以确保通信的安全性。 用户在提交Flink应用程序时,需要与Yarn、HDFS等之间进行通信。那么提交Flink的应用程序中需要设置安全认证,确保Flink程序能够正常运行。
查看弹性伸缩策略 功能介绍 查看指定集群的所有的弹性伸缩策略信息。 接口约束 无 调用方法 请参见如何调用API。 URI GET /v2/{project_id}/autoscaling-policy/{cluster_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id
Doris > 配置 > 全部配置”,搜索并查看“query_port”参数值获取。 执行以下命令创建数据库(例如名称为“example_db”)并切换。 create database if not exists example_db; use example_db; 执行以下命令创建表。
视图联表查询时,需要同时给两者授予select权限。 不支持GaussDB和HetuEngine数据源列脱敏。 HetuEngine服务在切换权限控制类型时,需要重启整个HetuEngine服务,包括HSConsole页面上正在运行的HetuEngine计算实例。 HetuEngine基于Ranger权限管控
化数据进行批量分析汇总完成数据计算。提供类似SQL的Hive Query Language语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下: 海量结构化数据分析汇总。 将
出现只有主键字段有值, 其他业务字段都是null的情况。 场景二: 在数据库单条数据大小超过8k(包括8k)场景下,update事件只包含变更字段,此时Hudi数据中会出现部分字段的值为__debezium_unavailable_value的情况。 相关命令如下,其中: 查询PostgreSQL表复制标识的命令为:
使用bitmap计算预估,耗时在3秒以内。 使用GLOBAL JOIN/IN替换普通的JOIN。 ClickHouse基于分布式表的查询会转换成所有分片的本地表的操作,再汇总结果。实际使用中,join和global join的执行逻辑差别很大,建议使用global join做分布式表查询。
调整Yarn任务抢占机制 操作场景 Capacity调度器抢占原理: 抢占任务可精简队列中的job运行并提高资源利用率,由ResourceManager的capacity scheduler实现,其简易流程如下: 假设存在两个队列A和B。其中队列A的capacity为25%,队列B的capacity为75%。
通过ELB访问ClickHouse 当前ClickHouse不管是多分片还是多副本都是以集群方式部署,如果对外直接提供服务,将暴露多个节点服务,没有统一的访问入口。ClickHouse官方虽然提供了BalancedClickhouseDataSource的驱动方案,可以支持多节点
配置通过ELB访问ClickHouse 当前ClickHouse不管是多分片还是多副本都是以集群方式部署,如果对外直接提供服务,将暴露多个节点服务,没有统一的访问入口。ClickHouse官方虽然提供了BalancedClickhouseDataSource的驱动方案,可以支持多
调整Yarn任务抢占机制 操作场景 抢占任务可精简队列中的job运行并提高资源利用率,由ResourceManager的capacity scheduler实现,其简易流程如下: 假设存在两个队列A和B。其中队列A的capacity为25%,队列B的capacity为75%。 初
BulkLoad工具配置文件说明 配置自定义的组合rowkey 使用BulkLoad工具批量导入HBase数据时,支持用户自定义组合rowkey。BulkLoad组合rowkey即通过一些规则将多个列名经过一些自定义处理,组合生成新的rowkey。 列的名称不能包含特殊字符,只能由字母、数字和下划线组成。