检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导入Spark样例工程 在本示例工程中,通过使用Streaming调用Kafka接口来获取单词记录,然后把单词记录分类统计,得到每个单词记录数,关键代码片段如下: public class StreamingExampleProducer { public static void
提升HBase Put和Scan数据性能 操作场景 HBase有很多与读写性能相关的配置参数。读写请求负载不同的情况下,配置参数需要进行相应的调整,本章节旨在指导用户通过修改RegionServer配置参数进行读写性能调优。 操作步骤 登录FusionInsight Manager界面,选择“集群
点进行弹性伸缩。如果数据量是按照周期进行有规律的变化,用户可以按照固定时间段来自动调整Task节点数量范围,从而在数据量变化前提前完成集群的扩缩容。 弹性伸缩规则:根据集群实时负载指标对Task节点数量进行调整,数据量变化后触发扩缩容,有一定的延后性。 资源计划:按时间段设置Ta
HBase关键目录数据存在坏块 告警解释 系统每5分钟周期性检测HBase服务的关键目录是否存在坏块,当检测到存在坏块时产生该告警。检查内容包括“hbase.version”文件、hbase:meta和master:store表目录。 当系统检测到HBase服务的关键目录都不存在坏块时,告警清除。
cd /var/log/Bigdata/hdfs/dn/ vim hadoop-omm-datanode-主机名.log 在日志中搜索关键字“slow”,确认发生慢操作的磁盘信息。 根据获取到的磁盘信息,参考“ALM-12033 慢盘故障”告警处理步骤进行处理。 等待5分钟,检查该告警是否恢复。
opic的“Topic的字节流量 > Topic输入的字节流量”,统计出“Topic输入的字节流量”值最大的Topic。查看该Topic有哪些Partition以及这些Partition所在的主机信息。 登录到5查询到的主机,执行iostat -d -x命令查看每个磁盘的最后一个指标“%util”:
Hive SQL与SQL2003标准有哪些兼容性问题 本文列举目前已发现的Hive SQL与SQL2003标准兼容性问题。 不支持在having中写视图。 举例如下: select c_last_name ,c_first_name ,s_store_name
开发者能力要求 您已经对大数据领域各组件具备一定的认识。 您已经对弹性云服务器的使用方式和MRS服务开发组件有一定的了解。 您已经对Maven构建方式具备一定的认识和使用方法有一定了解。 您已经对Java语法具备一定的认识。 MRS组件应用开发流程说明 通常MRS组件应用开发流程如
分区表预留稍宽裕一些的桶数来提升读写性能。 确认表内桶数 Hudi表的桶数设置,关系到表的性能,需要格外引起注意。 以下几点,是设置桶数的关键信息,需要建表前确认。 非分区表 单表数据总条数 = select count(1) from tablename(入湖时需提供); 单条数据大小
在设置组件的权限时,可通过右上角的“搜索”框输入资源名称,然后单击搜索图标显示搜索结果。 搜索范围仅包含当前权限目录,无法搜索子目录。搜索关键字支持模糊搜索,不区分大小写。 对于已启用Ranger授权的组件(HDFS与Yarn除外),Manager上非系统默认角色的权限将无法生效
以提升数据的查询性能。 从纵向来看,每个shard内部有多个副本组成,保证分片数据的高可靠性,以及计算的高可靠性。 数据分布设计 Shard数据分片均匀分布 建议用户的数据均匀分布到集群中的多个shard分片,如图1所示有3个分片。 假如有30 GB数据需要写入到集群中,需要将30
分配无法均匀,进而部分磁盘达到使用率上限)。 如果不清楚哪些Topic业务数据量较大,可以根据2中获取到的主机节点信息,登录到实例节点上,进入对应的数据目录(即6中“log.dirs”修改之前的配置路径),查看该目录下哪些Topic的Patition目录占用的磁盘空间比较大。 是,执行15。
如果是独立CDM服务,参考创建集群创建CDM集群;如果是作为DataArts Studio服务CDM组件使用,参考创建集群创建CDM集群。 关键配置如下: CDM集群的规格,按待迁移的数据量选择,一般选择“cdm.medium”即可,满足大部分迁移场景。 CDM集群所在VPC、子网
ALM-12042 关键文件配置异常(2.x及以前版本) 告警解释 系统每隔一个小时检查一次系统中关键的配置是否正确,如果不正常,则上报故障告警。 当检查到配置正确时,则告警恢复。 告警属性 告警ID 告警级别 可自动清除 12042 严重 是 告警参数 参数名称 参数含义 ServiceName
ALM-12041关键文件权限异常(2.x及以前版本) 告警解释 系统每隔一个小时检查一次系统中关键目录或者文件权限、用户、用户组是否正常,如果不正常,则上报故障告警。 当检查到权限等均正常,则告警恢复。 告警属性 告警ID 告警级别 可自动清除 12041 严重 是 告警参数 参数名称
HDFS文件数过多,磁盘存储不足可能造成数据入库失败。对HDFS系统性能产生影响。 可能原因 HDFS文件数超过阈值。 处理步骤 检查系统中是否有不需要的文件。 在集群节点使用客户端,执行hdfs dfs -ls 文件或目录路径命令,检查该目录下的文件或目录是否是可以删除的无用文件。 是,执行1
本数+1。 MOR表一定要保证Compaction Plan能够被成功执行,Compaction Plan只是记录了Hudi表中哪些Log文件要和哪些Parquet文件合并,所以最重要的地方在于保证Compaction Plan在被执行的时候它需要合并的文件都存在。而Hudi表中
zstd压缩算法有什么优势? 问: zstd压缩算法有什么优势? 答: ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式。 具体详细请参考https://github.com/L-Angel/compress-demo。
数据比对目前仅支持基本数据类型比对, 不支持日期、时间戳、decimal、numeric、json等特殊数据类型的比对。 数据比对任务不支持数据表字段名包含数据库关键字的表进行数据比对。 数据比对任务单表比较仅支持100个以内的字段进行比较, 如果单表的字段超过一百, 可以分两次指定不同的比较字段的白名单进行数据比对。
产生告警的AZ名称。 主机名 产生告警的主机名。 对系统的影响 AZ的健康状态由AZ内的存储资源(HDFS)、计算资源(Yarn)和关键角色的健康度是否超过配置阈值决定。 AZ亚健康有两种: 计算资源(Yarn)不健康,存储资源(HDFS)健康,任务无法提交到本AZ,但是数据可以继续往本AZ内读写。