检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
避免在Shuffle操作时生成过多的hash分桶,如图1所示。 图1 小文件合并 操作步骤 要启动小文件优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。 表1 参数介绍 参数 描述 默认值 spark.sql.files.maxPartitionBytes
性能优化类 Hadoop压力测试工具如何获取? 如何提高集群Core节点的资源使用率? 如何配置MRS集群knox内存? 如何调整MRS集群manager-executor进程内存? 如何设置Spark作业执行时自动获取更多资源? spark.yarn.executor.memo
JVM参数优化说明 操作场景 当集群数据量达到一定规模后,JVM的默认配置将无法满足集群的业务需求,轻则集群变慢,重则集群服务不可用。所以需要根据实际的业务情况进行合理的JVM参数配置,提高集群性能。 操作步骤 参数入口: HBase角色相关的JVM参数需要配置在安装有HBase
避免在Shuffle操作时生成过多的hash分桶,如图1所示。 图1 小文件合并 操作步骤 要启动小文件优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。 表1 参数介绍 参数 描述 默认值 spark.sql.files.maxPartitionBytes
Hive SQL逻辑优化 操作场景 在Hive上执行SQL语句查询时,如果语句中存在“(a&b) or (a&c)”逻辑时,建议将逻辑改为“a & (b or c)”。 样例 假设条件a为“p_partkey = l_partkey”,优化前样例如下所示: select
Datasource表优化 操作场景 将datasource表的分区消息存储到Metastore中,并在Metastore中对分区消息进行处理。 优化datasource表,支持对表中分区执行增加、删除和修改等语法,从而增加与Hive的兼容性。 支持在查询语句中,把分区裁剪并下压
JVM参数优化说明 操作场景 当集群数据量达到一定规模后,JVM的默认配置将无法满足集群的业务需求,轻则集群变慢,重则集群服务不可用。所以需要根据实际的业务情况进行合理的JVM参数配置,提高集群性能。 操作步骤 参数入口: HBase角色相关的JVM参数需要配置在安装有HBase
当进行join操作时,配置广播的最大值;当表的字节数小于该值时便进行广播。当配置为-1时,将不进行广播。 参见https://spark.apache.org/docs/latest/sql-programming-guide.html 配置自动广播阈值的方法: 在Spark的配置文件“spark-defaults
autoBroadcastJoinThreshold 10485760 当进行join操作时,配置广播的最大值。 当SQL语句中涉及的表中相应字段的大小小于该值时,进行广播。 配置为-1时,将不进行广播。 配置自动广播阈值的方法: 在Spark的配置文件“spark-defaults.conf”中,设置“spark
autoBroadcastJoinThreshold 10485760 当进行join操作时,配置广播的最大值。 当SQL语句中涉及的表中相应字段的大小小于该值时,进行广播。 配置为-1时,将不进行广播。 配置自动广播阈值的方法: 在Spark的配置文件“spark-defaults.conf”中,设置“spark
Datasource表优化 操作场景 将datasource表的分区消息存储到Metastore中,并在Metastore中对分区消息进行处理。 优化datasource表,支持对表中分区执行增加、删除和修改等语法,从而增加与Hive的兼容性。 支持在查询语句中,把分区裁剪并下压
如何配置MRS集群knox内存? 以root用户登录集群Master节点。 在Master节点执行如下命令打开gateway.sh文件。 su omm vim /opt/knox/bin/gateway.sh 将“APP_MEM_OPTS=""” 修改为 “APP_MEM_OPTS="-Xms256m
Hive SQL逻辑优化 操作场景 在Hive上执行SQL语句查询时,如果语句中存在“(a&b) or (a&c)”逻辑时,建议将逻辑改为“a & (b or c)”。 样例 假设条件a为“p_partkey = l_partkey”,优化前样例如下所示: select
要启动聚合算法优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。 表1 参数介绍 参数 描述 默认值 spark.sql.codegen.aggregate.map.twolevel.enabled 是否开启聚合算法优化: true:开启 false:不开启
要启动聚合算法优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。 表1 参数介绍 参数 描述 默认值 spark.sql.codegen.aggregate.map.twolevel.enabled 是否开启聚合算法优化: true:开启 false:不开启
合并CBO优化 操作场景 Spark SQL默认支持基于规则的优化,但仅仅基于规则优化不能保证Spark选择合适的查询计划。CBO(Cost-Bsed Optimizer)是一种为SQL智能选择查询计划的技术。通过配置开启CBO后,CBO优化器可以基于表和列的统计信息,进行一系列的估算,最终选择出合适的查询计划。
合并CBO优化 操作场景 Spark SQL默认支持基于规则的优化,但仅仅基于规则优化不能保证Spark选择合适的查询计划。CBO(Cost-Bsed Optimizer)是一种为SQL智能选择查询计划的技术。通过配置开启CBO后,CBO优化器可以基于表和列的统计信息,进行一系列的估算,最终选择出合适的查询计划。
Hive ORC数据存储优化 操作场景 “ORC”是一种高效的列存储格式,在压缩比和读取效率上优于其他文件格式。 建议使用“ORC”作为Hive表默认的存储格式。 前提条件 已登录Hive客户端,具体操作请参见Hive客户端使用实践。 操作步骤 推荐:使用“SNAPPY”压缩,适用于压缩比和读取效率要求均衡场景。
在对FairCallQueue进行配置后,由控制模块决定将收到的调用分配至哪个子队列。当前调度模块为DecayRpcScheduler。该模块仅持续对各类调用的优先级数字进行追踪,并周期性地对这些数字进行减小处理。 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。
Presto如何配置其他数据源? 本指导以连接MySQL数据源为例。 MRS 1.x及MRS 3.x版本。 登录MRS管理控制台。 单击集群名称进入集群详情页面。 选择“组件管理 > Presto”。设置“参数类别”为“全部配置”,进入Presto配置界面修改参数配置。 搜索“co