检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群服务配置参数章节。 表1 影响实时读数据配置项 配置参数 描述 默认值 GC_OPTS HBase利用内存完成读写操作。提高HBase内存可以有效提高HBase性能。 GC_OPTS主要需要调整HeapSize的大小和NewSize的大小。调整HeapSize大小的时候,建议
Spark on Yarn的client模式下spark-submit提交任务出现FileNotFoundException异常 问题 在omm用户(非root用户)下,通过spark-submit提交yarn-client模式的任务,会出现FileNotFoundExcepti
MRS 3.1.2-LTS.2补丁说明 MRS 3.1.2-LTS.2.14补丁基本信息 补丁号 MRS 3.1.2-LTS.2.14 发布时间 2023-10-27 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager
MRS 3.1.2-LTS补丁说明 MRS 3.1.2-LTS.0.3补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.1.2-LTS.0.3 发布时间 2022-12-08 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 MRS
调整Spark日志级别 配置场景 在某些场景下,当任务已经启动后,用户想要修改日志级别以定位问题或者查看想要的信息。 用户可以在进程启动前,在进程的JVM参数中增加参数“-Dlog4j.configuration.watch=true”来打开动态设置日志级别的功能。进程启动后,就
调整Spark日志级别 配置场景 在某些场景下,当任务已经启动后,用户想要修改日志级别以定位问题或者查看想要的信息。 用户可以在进程启动前,在进程的JVM参数中增加参数“-Dlog4j.configuration.watch=true”来打开动态设置日志级别的功能。进程启动后,就
汇总计算的两个文件FileA和FileB,通过指定同一个分布ID,使其所有的Block分布在一起,不再需要跨节点读取数据就能完成计算,极大提高MapReduce Join性能。 图2 无同分布与同分布数据块分布对比 HDFS开源增强特性:硬盘坏卷设置 在开源版本中,如果为Data
一般来说,旧分区数>新分区数,可设置shuffle为false;但如果旧分区远大于新分区数,例如高于100倍以上,可以考虑设置shuffle为true,增加并行度,提高合并的速度。 设置shuffle为true(repartition),会有性能上的提升;但是由于Parquet和Orc存储方式的特殊性,r
GC参数 RegionServer “GC_OPTS”参数设置建议: “-Xms”与“-Xmx”设置相同的值,需要根据实际情况设置,增大内存可以提高读写性能,可以参考参数“hfile.block.cache.size”(见表2)和参数“hbase.regionserver.global
JVM GC参数 RegionServer GC_OPTS参数设置建议: -Xms与-Xmx设置相同的值,需要根据实际情况设置,增大内存可以提高读写性能,可以参考参数“hfile.block.cache.size”(见表2)和参数“hbase.regionserver.global
桶数,严重影响性能。 在小文件场景下,您可以通过如下配置手动指定每个Task的数据量(Split Size),确保不会产生过多的Task,提高性能。 当SQL逻辑中不包含Shuffle操作时,设置此配置项,不会有明显的性能提升。 配置描述 要启动小文件优化,在Spark客户端的“spark-defaults
运行Manager应用报错“WARN No appenders could be found for logger” 问题 运行应用程序时,操作失败,日志显示如图1所示。 图1 操作失败日志 回答 查看工程的“bin”目录下是否有编译过的“log4j.properties”,如果没有,则添加编译路径。
桶数,严重影响性能。 在小文件场景下,您可以通过如下配置手动指定每个Task的数据量(Split Size),确保不会产生过多的Task,提高性能。 当SQL逻辑中不包含Shuffle操作时,设置此配置项,不会有明显的性能提升。 配置描述 要启动小文件优化,在Spark客户端的“spark-defaults
一般来说,旧分区数>新分区数,可设置shuffle为false;但如果旧分区远大于新分区数,例如高于100倍以上,可以考虑设置shuffle为true,增加并行度,提高合并的速度。 设置shuffle为true(repartition),会有性能上的提升;但是由于Parquet和Orc存储方式的特殊性,r
属于同一列的数据会被保存在一起,列与列之间也会由不同的文件分别保存。 在执行数据查询时,列式存储可以减少数据扫描范围和数据传输时的大小,提高了数据查询的效率。 例如在传统的行式数据库系统中,数据按如下表1顺序存储: 表1 行式数据库 row ID Flag Name Event
快速建表,即创建表后整张表只有一个Region,随着数据量的增加会自动分裂成多个Region。 预分Region建表,即创建表时预先分配多个Region,此种方法建表可以提高写入大量数据初期的数据写入速度。 表的列名以及列族名不能包含特殊字符,可以由字母、数字以及下划线组成。 代码样例 以下代码片段在com.huawei
快速建表,即创建表后整张表只有一个Region,随着数据量的增加会自动分裂成多个Region。 预分Region建表,即创建表时预先分配多个Region,此种方法建表可以提高写入大量数据初期的数据写入速度。 表的列名以及列族名不能包含特殊字符,可以由字母、数字以及下划线组成。 代码样例 以下代码片段在com.huawei
nager以及数据库均部署在该节点;该类型节点不可扩容。该类型节点的处理能力决定了整个集群的管理上限,MRS服务支持将Master节点规格提高,以支持更大集群的管理。 Core节点:支持存储和计算两种目标的节点,可扩容、缩容。因承载数据存储功能,因此在缩容时,为保证数据不丢失,有较多限制,无法进行弹性伸缩。
快速建表,即创建表后整张表只有一个Region,随着数据量的增加会自动分裂成多个Region。 预分Region建表,即创建表时预先分配多个Region,此种方法建表可以提高写入大量数据初期的数据写入速度。 表的列名以及列族名不能包含特殊字符,可以由字母、数字以及下划线组成。 代码样例 以下代码片段在com.huawei
快速建表,即创建表后整张表只有一个Region,随着数据量的增加会自动分裂成多个Region。 预分Region建表,即创建表时预先分配多个Region,此种方法建表可以提高写入大量数据初期的数据写入速度。 表的列名以及列族名不能包含特殊字符,可以由字母、数字以及下划线组成。 代码样例 以下代码片段在com.huawei