检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
anager界面设置冷热数据迁移的CRON表达式,并启动自动冷热数据迁移特性。 操作方法为: 修改HDFS服务的NameNode的如下参数值。参数修改方法请参考修改集群服务配置参数。 参数 描述 取值示例 dfs.auto.data.mover.enable 表示是否启用自动冷热数据迁移特性。默认值是“false”。
通过Hue管理Oozie作业 操作场景 用户需要使用图形化界面查看集群中所有作业时,可以通过Hue完成任务。 Hue提供了Oozie作业管理器功能,使用户可以通过界面图形化的方式使用Oozie。 Hue界面主要用于文件、表等数据的查看与分析,禁止通过Hue界面对操作对象进行删除等
Hive Group By语句优化 操作场景 优化Group by语句,可提升命令执行速度和查询速度。 Group by的时候, Map端会先进行分组, 分组完后分发到Reduce端, Reduce端再进行分组。可采用Map端聚合的方式来进行Group by优化,开启Map端初步聚合,减少Map的输出数据量。
Hive SQL逻辑优化 操作场景 在Hive上执行SQL语句查询时,如果语句中存在“(a&b) or (a&c)”逻辑时,建议将逻辑改为“a & (b or c)”。 样例 假设条件a为“p_partkey = l_partkey”,优化前样例如下所示: select
sionInsight Manager,选择“集群 > 服务 > CDL > 配置”,在搜索框中搜索“topics.max.partitions”并修改该值为需要修改的分区数,例如,修改值为“10”,保存配置并重启CDL服务。 MRS 3.3.0及之后版本,当源端表为分区表且该参
管理CDL ENV变量 操作场景 如果需要将数据抓取至Hudi或者从Hudi抓取数据时,请执行该章节操作创建Hudi环境变量并进行管理。 前提条件 开启Kerberos认证的集群需已参考CDL用户权限管理创建具有CDL管理操作权限的用户。 操作步骤 使用具有CDL管理操作权限的用
Hudi Schema演进及语法说明 ADD COLUMNS ALTER COLUMN DROP COLUMN RENAME SET RENAME COLUMN 父主题: Hudi Schema演进
创建CDL数据比较任务作业 操作场景 数据比对即是对源端数据库中的数据和目标端Hive中的数据作数据一致性校验,如果数据不一致,CDL可以尝试修复不一致的数据。 当前数据对比任务支持手动全量任务比对。数据比对任务采用On Yarn的运行形态,比对结果会上传到HDFS目录。 数据比对目前仅支持基本数据类型比对,
停止CDL任务时报“403”错误 现象描述 在CDLService WebUI界面停止CDL任务时报错:parameter exception with code: 403 可能原因 当前用户没有停止该任务的权限。 处理步骤 使用创建该任务的用户停止该任务,创建该任务的用户可登录CDLService
查看生产消费详情 进入KafkaUI界面。 使用具有KafkaUI页面访问权限的用户登录FusionInsight Manager,选择“集群 > 服务 > Kafka”。 如需在页面上进行相关操作,例如创建Topic,需同时授予用户相关权限,请参考Kafka用户权限说明。 在“KafkaManager
ClickHouse分区设计 合理设置分区键,控制分区数在一千以内,分区字段使用整型。 分区part数与查询性能关系 图1 分区part数与查询性能关系图 分区建议 建议使用toYYYYMMDD(pt_d)作为分区键,pt_d是date类型。 如果业务场景需要做小时分区,使用pt
ClickHouse索引设计 一级索引设计 在建表设计时指定主键字段的建议:按查询时最常使用且过滤性最高的字段作为主键。依次按照访问频度从高到低、维度基数从小到大来排列。数据是按照主键排序存储的,查询的时候,通过主键可以快速筛选数据,合理的主键设计,能够大大减少读取的数据量,提升
Spark on Hudi表数据维护规范 禁止通过Alter命令修改表关键属性信息:type/primaryKey/preCombineField/hoodie.index.type 错误示例,执行如下语句修改表关键属性: alter table dsrTable set tbl
创建Bucket索引表调优 Bucket索引常用设置参数: Spark: hoodie.index.type=BUCKET hoodie.bucket.index.num.buckets=5 Flink index.type=BUCKET hoodie.bucket.index.num
区间),即包含起始、结束的commit。默认到最新commit。 - changelog.enabled 选填 是否写入changelog消息。默认值为false,CDC场景填写为true。 false 父主题: Flink on Hudi开发规范
DynamoDB的number在Hive表中用什么类型比较好? 问: DynamoDB的number在Hive表中用什么类型比较好? 答: Hive支持smallint,推荐使用smallint类型。 父主题: 组件配置类
HBase同步数据到CSS为什么没有映射字段? 问: HBase同步数据到CSS为什么没有映射字段? 答: 从MRS的HBase同步数据到CSS服务后,整库没有映射字段,要单表才有映射的字段。 父主题: 周边生态对接类
maxAge”为合适的值,单位为秒。 保存配置,不勾选“重新启动受影响的服务或实例”并单击“确定”。 重启meta服务及需要使用Web界面的服务,或者在业务空闲时重启集群。 重启会影响业务,建议在业务空闲时执行重启操作,或使用滚动重启功能,在不影响业务的情况下重启服务,具体请参考支持滚动重启。 不支持修改Flink组件Web页面的超时时间。
MRS集群内节点的sudo log能否清理? 问: MRS集群内节点上的sudo log能否清理? 答: MRS集群内节点上的sudo log文件是omm用户的操作记录,以方便问题的定位,用户可以清理。 因为日志占用了一部分存储空间,建议管理员清除比较久远的操作日志释放资源空间。
MRS节点访问OBS报错408如何处理? 问: MRS节点访问OBS报错408,怎么办? 答: MRS节点访问OBS报错408时,用户需要更换OBS域名。 修改OBS域名为myhuaweicloud.com后缀的域名即可。 父主题: 作业管理类