检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hudi表模型设计规范 规则 Hudi表必须设置合理的主键。 Hudi表提供了数据更新和幂等写入能力,该能力要求Hudi表必须设置主键,主键设置不合理会导致数据重复。主键可以为单一主键也可以为复合主键,两种主键类型均要求主键不能有null值和空值,可以参考以下示例设置主键: SparkSQL:
音时的相似性。规则如下: 表1 字符对应规则 字符 对应数字 a、e、h、i、o、u、w、y 0 b、f、p、v 1 c、g、j、k、q、s、x、z 2 d、t 3 l 4 m、n 5 r 6 提取字符串的首字母作为soundex的第一个值。 按照上面的字母对应规则,将后面的字母
ClickHouse支持原子性写入能力,支持事务能力。实现事务的原子性,在事务的某个操作失败后,支持回滚到事务执行之前的状态。 本章节主要介绍如何开启ClickHouse事务。 使用本地表场景进行数据写入性能更优,故推荐本地表的数据增、删、改、查场景的多副本分布式事务支持。 对于使用
将无法生效,需要通过配置Ranger策略为用户组赋权。 HDFS与Yarn的资源请求在Ranger中的策略条件未能覆盖的情况下,组件ACL规则仍将生效。 设置组件的权限时,每次最大支持1000条权限。 单击“确定”完成。 MRS 2.x及之前版本: 在MRS Manager,选择“系统设置
入过的行中的Value。 MAX:保留最大值。 MIN:保留最小值。 Unique模型 在某些多维分析场景下,用户更关注的是如何保证Key的唯一性,即如何获得Primary Key唯一性约束。因此,引入了Unique数据模型。 读时合并 Unique模型的读时合并实现完全可以用A
请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。 参考信息 DataNode JVM参数配置规则 DataNode JVM参数“GC_OPTS”默认值为: -Xms2G -Xmx4G -XX:NewSize=128M -XX:MaxNewSize=256M
ClickHouse数据查询 数据查询规则 禁止select *查询 只查询需要的字段可以减少磁盘io和网络io,提升查询性能。 使用uniqCombined替代distinct uniqCombined对去重逻辑进行了优化,通过近似去重提升十倍查询性能,如果对查询允许有误差,可
NodeManager实例的节点上,权限为755。 表1 参数说明 参数名称 说明 <filePath> 指本地文件系统中文件路径,每个节点都需要放一份/opt/log1.txt和/opt/log2.txt。可以默认,也可以设置。 <windowTime> 指窗口时间大小,以分钟为单位。可以默认,也可以设置。
Statistics:/var/log/osinfo/statistics(OS参数配置信息日志) 日志归档规则: Manager的日志启动了自动压缩归档功能,缺省情况下,当日志大小超过10MB的时候,会自动压缩,压缩后的日志文件名规则为:“<原有日志名>-<yyyy-mm-dd_hh-mm-ss>.[编号].log
anger权限控制策略后,通过FusionInsight Manager创建的角色中关于该组件的权限将失效(HDFS与Yarn的组件ACL规则仍将生效),用户需通过Ranger管理界面添加策略进行资源的赋权。 Ranger的权限模型由多条权限策略组成,权限策略主要由以下几方面组成:
Master节点数量大于等于9个,小于等于11个。 节点组数量总和小于等于10个,非Master节点组中节点数量总和小于等于10000个。 MRS集群服务角色部署规则说明 MRS系统由多种服务按照一定的逻辑架构组合而成,每个服务包含一个或多个角色,每个角色可以部署一个或多个实例。 服务:服务对外表现为集
设置告警平滑次数 根据实际服务的使用情况在“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机 > 进程 > omm 进程使用率”中修改对应规则的阈值,如图2所示。 图2 设置告警阈值 等待2分钟,查看告警是否自动恢复。 是,处理完毕。 否,执行3。 检查系统omm用户同时打开的进程(包括线程)最大数的配置是否合理。
待操作集群的名称 > DBService > 数据库 > 数据库连接数使用率 (DBServer)”,单击“操作”栏的“修改”按钮,进入修改规则界面,修改后单击“确定”,修改即生效,如图4所示。 图4 设置告警阈值 等待2分钟,查看告警是否自动恢复。 是,处理完毕。 否,执行9。 收集故障信息
NodeManager实例的节点上,权限为755。 表1 参数说明 参数名称 说明 <filePath> 指本地文件系统中文件路径,每个节点都需要放一份/opt/log1.txt和/opt/log2.txt。可以默认,也可以设置。 <windowTime> 指窗口时间大小,以分钟为单位。可以默认,也可以设置。
持HDFS和Hive备份任务,OMS、LdapServer、DBService和NameNode备份任务默认只应用全量备份策略。 任务运行规则: 某个任务已经处于执行状态,则当前任务无法重复执行,其他任务也无法启动。 周期任务自动执行时,距离该任务上次执行的时间间隔需要在120秒
入过的行中的Value。 MAX:保留最大值。 MIN:保留最小值。 Unique模型 在某些多维分析场景下,用户更关注的是如何保证Key的唯一性,即如何获得Primary Key唯一性约束。因此,引入了Unique数据模型。 读时合并 Unique模型的读时合并实现完全可以用A
下图清晰地描述了MapReduce算法的整个流程。 图3 算法流程 概念上shuffle就是一个沟通数据连接的桥梁,实际上shuffle这一部分是如何实现的呢,下面就以Spark为例讲解shuffle在Spark中的实现。 Shuffle操作将一个Spark的Job分成多个Stage,前
使用Kafka客户端创建Topic案例可参考使用Kafka客户端创建Topic,该视频以未开启Kerberos认证的MRS 3.1.0版本集群为例,介绍MRS集群创建成功后,如何在Kafka客户端完成对Topic的创建、查询、删除等操作。 因不同版本操作界面可能存在差异,相关视频供参考,具体以实际环境为准。 步骤一:创建MRS集群
ume时可设置。 HBase的RegionServer滚动重启的并发数不支持手动配置,会根据RegionServer的节点数自行调整,调整规则为:30节点以内,每个批次1个节点;300节点以内,每个批次2个节点;300节点以上(含300节点),每个批次1%(向下取整)个节点。 “批次时间间隔”
置确定是否汇聚到HDFS目录中,详情请参见Yarn常用配置参数。 其他日志:“/var/log/Bigdata/spark2x” 日志归档规则: 使用yarn-client或yarn-cluster模式提交任务时,Executor日志默认50MB滚动存储一次,最多保留10个文件,不压缩。