检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节适用于MRS 3.x及后续版本。 修改服务配置参数,请参考修改集群服务配置参数。 拓扑调优 当需要提升Storm数据量处理性能时,可以通过拓扑调优的操作提高效率。建议在可靠性要求不高的场景下进行优化。 表1 调优参数 配置参数 默认值 调优场景 topology.acker.executors
优化Flink内存GC参数 操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container
如果是非maven工程,则手动收集如上jar包,添加到工程的classpath中。 修改拓扑提交部分代码,下面以WordCount为例: Storm拓扑的构造部分保持不变,无需修改,包括使用Storm API开发的Spout和Bolt都无需修改。 TopologyBuilder builder =
优化Flink内存GC参数 操作场景 Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container
ORC数据存储优化 操作场景 “ORC”是一种高效的列存储格式,在压缩比和读取效率上优于其他文件格式。 建议使用“ORC”作为Hive表默认的存储格式。 前提条件 已登录Hive客户端,具体操作请参见Hive客户端使用实践。 操作步骤 推荐:使用“SNAPPY”压缩,适用于压缩比和读取效率要求均衡场景。
CarbonData首查优化工具 工具介绍 CarbonData 的首次查询较慢,对于实时性要求较高的节点可能会造成一定的时延。 本工具主要提供以下功能: 对查询时延要求较高的表进行首次查询预热。 工具使用 下载安装客户端,例如安装目录为“/opt/client”。进入 目录“/
场景: 场景1 当拓扑运行后,KafkaSpout会将offset存放在ZooKeeper路径:“/{zkRoot}/{id}/{partitionId}”下,其中“zkRoot”和“id”是用户指定的,“partitionId”是自动获取的。默认情况下,拓扑在启动后会先从Zoo
通过典型场景,可以快速学习和掌握Alluxio的开发过程,并对关键的接口函数有所了解。 Alluxio的业务操作对象是文件,代码样例中所涉及的文件操作主要包括创建文件和对文件的读写;Alluxio还有其他的业务处理,例如设置文件权限等,其他操作可以在掌握本代码样例之后,再扩展学习。 本代码样例讲解顺序为:
HDFS样例程序开发思路 场景说明 通过典型场景,可以快速学习和掌握HDFS的开发过程,并对关键的接口函数有所了解。 HDFS的业务操作对象是文件,代码样例中所涉及的文件操作主要包括创建文件夹、写文件、追加文件内容、读文件和删除文件/文件夹;HDFS还有其他的业务处理,例如设置文件
创建Storm Bolt 功能介绍 所有的消息处理逻辑都被封装在各个Bolt中。Bolt包含多种功能:过滤、聚合等。 如果Bolt之后还有其他拓扑算子,可以使用OutputFieldsDeclarer.declareStream定义Stream,使用OutputCollector.emit来选择要发射的Stream。
创建Storm Bolt 功能介绍 所有的消息处理逻辑都被封装在各个Bolt中。Bolt包含多种功能:过滤、聚合等等。 如果Bolt之后还有其他拓扑算子,可以使用OutputFieldsDeclarer.declareStream定义Stream,使用OutputCollector.emit来选择要发射的Stream。
调整HetuEngine INSERT写入优化 HetuEngine向Hive数据源分区表写入数据时,需要根据实际业务的查询结果中分区列数量添加相关自定义配置,以获得最佳的性能效果。 调整HetuEngine INSERT写入步骤 使用HetuEngine管理员用户登录FusionInsight
CarbonData首查优化工具 工具介绍 CarbonData的首次查询较慢,对于实时性要求较高的节点可能会造成一定的时延。 本工具主要提供以下功能: 对查询时延要求较高的表进行首次查询预热。 工具使用 下载安装客户端,例如安装目录为“/opt/client”。进入目录“/op
创建Strom Bolt 功能介绍 所有的消息处理逻辑都被封装在各个Bolt中。Bolt包含多种功能:过滤、聚合等等。 如果Bolt之后还有其他拓扑算子,可以使用OutputFieldsDeclarer.declareStream定义Stream,使用OutputCollector.emit来选择要发射的Stream。
BO正确的优化。 CBO优化器会基于统计信息和查询条件,尽可能地使join顺序达到合适。但是也可能存在特殊情况导致join顺序调整不准确。例如数据存在倾斜,以及查询条件值在表中不存在等场景,可能调整出非优化的join顺序。 开启列统计信息自动收集时,需要在reduce侧做聚合统计
Storm用户 执行以下命令,提交Storm拓扑: storm jar 拓扑包路径 拓扑Main方法的类名称 拓扑名称 界面提示以下信息表示提交成功: Finished submitting topology: topo1 执行以下命令,查看Storm中的拓扑。启用Kerberos认证的集群
cp_[rw]mem) ,一般为4MB,表示netty的发送和接收的缓冲区大小。 “taskmanager.network.netty.transport”:默认为“nio”方式,表示netty的传输方式,有“nio”和“epoll”两种方式。 父主题: Flink性能调优
在其他Master节点上重复执行如上步骤。 执行ps -ef |grep knox命令可查看已设置的内存信息。 图1 knox内存 父主题: 性能优化类
动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证明:102
cp_[rw]mem) ,一般为4MB,表示netty的发送和接收的缓冲区大小。 “taskmanager.network.netty.transport”:默认为“nio”方式,表示netty的传输方式,有“nio”和“epoll”两种方式。 父主题: Flink性能调优