检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuff
优化Flink Netty网络通信参数 操作场景 Flink通信主要依赖netty网络,所以在Flink应用执行过程中,netty的设置尤为重要,网络通信的好坏直接决定着数据交换的速度以及任务执行的效率。 操作步骤 以下配置均可在客户端的“conf/flink-conf.yaml
MapReduce任务commit阶段优化 操作场景 默认情况下,如果一个MR任务会产生大量的输出结果文件,那么该job在最后的commit阶段,会耗费较长的时间将每个task的临时输出结果commit到最终的结果输出目录。特别是在大集群中,大Job的commit过程会严重影响任务的性能表现。
由于每个集群只有一个NameNode,如果NameNode所在机器发生故障,将导致HDFS集群无法使用,除非NameNode重启或者在另一台机器上启动。这在两个方面影响了HDFS的整体可用性: 当异常情况发生时,如机器崩溃,集群将不可用,除非重新启动NameNode。 计划性的维
使CBO正确的优化。 CBO优化器会基于统计信息和查询条件,尽可能地使Join顺序达到更优。但是也可能存在特殊情况导致Join顺序调整不准确。例如数据存在倾斜,以及查询条件值在表中不存在等场景,可能调整出非优化的Join顺序。 开启列统计信息自动收集时,需要在Reduce侧做聚合
Spark动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证
MapReduce任务commit阶段优化 操作场景 默认情况下,如果一个MR任务会产生大量的输出结果文件,那么该job在最后的commit阶段,会耗费较长的时间将每个task的临时输出结果commit到最终的结果输出目录。特别是在大集群中,大Job的commit过程会严重影响任务的性能表现。
示例:执行下面SQL语句,a表倾斜或b表倾斜都无法触发该优化。 select aid FROM a FULL OUTER JOIN b ON aid=bid; 不支持LEFT OUTER JOIN的右表倾斜处理。 示例:执行下面SQL语句,b表倾斜无法触发该优化。 select aid FROM a
优化HDFS DataNode RPC的服务质量 配置场景 当客户端写入HDFS的速度大于DataNode的硬盘带宽时,硬盘带宽会被占满,导致DataNode失去响应。客户端只能通过取消或恢复通道进行规避,这会导致写入失败及不必要的通道恢复操作。 本章节适用于MRS 3.x及后续版本。
优化HDFS DataNode RPC的服务质量 配置场景 当客户端写入HDFS的速度大于DataNode的硬盘带宽时,硬盘带宽会被占满,导致DataNode失去响应。客户端只能通过取消或恢复通道进行规避,这会导致写入失败及不必要的通道恢复操作。 本章节适用于MRS 3.x及后续版本。
导入并配置IoTDB样例工程 背景信息 获取IoTDB开发样例工程,将工程导入到IntelliJ IDEA开始样例学习。 操作步骤 参考获取MRS应用开发样例工程,获取样例代码解压目录中“src/iotdb-examples”目录下的样例工程,可根据实际业务场景选择对应的样例。
示例:执行下面SQL语句,a表倾斜或b表倾斜都无法触发该优化。 select aid FROM a FULL OUTER JOIN b ON aid=bid; 不支持LEFT OUTER JOIN的右表倾斜处理。 示例:执行下面SQL语句,b表倾斜无法触发该优化。 select aid FROM a
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuff
在其他Master节点上重复执行如上步骤。 执行ps -ef |grep knox命令可查看已设置的内存信息。 图1 knox内存 父主题: 性能优化类
Computation):支持迭代计算,有效应对多步的数据处理逻辑。 数据挖掘(Data Mining):在海量数据基础上进行复杂的挖掘分析,可支持各种数据挖掘和机器学习算法。 流式处理(Streaming Processing):支持秒级延迟的流式处理,可支持多种外部数据源。 查询分析(Query An
操作场景 HDFS针对多个场景提供样例工程,帮助客户快速学习HDFS工程。 以下操作步骤以导入HDFS样例代码为例。 操作步骤 参考获取MRS应用开发样例工程,下载样例工程到本地。 导入样例工程到Eclipse开发环境。 第一种方法:打开Eclipse,选择“File > New >
回答 Tez WebUI跳转Yarn Logs界面时,目前是通过hostname进行访问,需要在Windows机器中配置hostname到IP地址的映射。 修改Windows机器的“C:\Windows\System32\drivers\etc\hosts”文件,增加一行hostna
如何对insert overwrite自读自写场景进行优化 场景说明 对于需要使用动态分区插入(使用历史分区更新)数据到目的表中,且和数据源表是同一张表时,由于直接在原表上执行insert overwrite可能会导致数据丢失或数据不一致的风险,建议先使用一个临时表来处理数据,再执行insert
动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减Executor个数,从而实现动态分配资源,使整个Spark系统更加健康。 可通过如下方法开启动态资源分配功能,其他相关配置可参考Yarn模式下动态资源调度。 登录FusionInsight Manager,选择“集群 > 服务