检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-default.conf配置文件中,在spark.driver
业务实际情况调大。单击“保存”,保存配置,重启Presto服务。 Presto重启会导致服务不可用,请在业务空闲期间重启服务。 父主题: 性能优化类
MR任务在运行时依赖的相关job文件在HDFS上的备份。当备份数大于10时,可以降低客户端应用的失败率。 10 父主题: MapReduce性能调优
Yarn节点配置调优 操作场景 合理配置大数据集群的调度器后,还可通过调节每个节点的可用内存、CPU资源及本地磁盘的配置进行性能调优。 具体包括以下配置项: 可用内存 CPU虚拟核数 物理CPU使用百分比 内存和CPU资源的协调 本地磁盘 操作步骤 如果您需要对参数配置进行调整,具体操作请参考修改集群服务配置参数。
INSERT写入优化 HetuEngine向Hive数据源分区表写入数据时,需要根据实际业务的查询结果中分区列数量添加相关自定义配置,以获得最佳的性能效果。 调整HetuEngine INSERT写入步骤 使用HetuEngine管理员用户登录FusionInsight Manager页面,选择“集群
答: Hadoop压力测试工具社区获取地址:https://github.com/Intel-bigdata/HiBench。 父主题: 性能优化类
Kryo序列化KryoSerializer 序列化对于Spark应用的性能来说,具有很大的影响。在特定的数据格式的情况下,KryoSerializer的性能可以达到JavaSerializer的10倍以上,而对于一些Int之类的基本类型数据,性能的提升就几乎可以忽略。 KryoSerializer
ask。在有很多小文件时,Spark会启动很多Task,此时当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响系统性能。 针对小文件很多的场景,DataSource在创建RDD时,先将Table中的split生成PartitionedFile,再将这些Pa
在最后的count distinct结果中加1。如果还有其他计算,可以先将值为空的记录单独处理,再和其他计算结果合并。 父主题: Hive性能调优
Cache中读取小表内容直接与大表join得到结果并输出。 使用Map Join时需要注意小表不能过大,如果小表将内存基本用尽,会使整个系统性能下降甚至出现内存溢出的异常。 Sort Merge Bucket Map Join 使用Sort Merge Bucket Map Join必须满足以下2个条件:
mpaction操作频繁发生,会占用大量的磁盘IO操作,从而影响读取的性能。如果写入导致阻塞较多的Compaction操作,就会出现Region中存在多个HFile的情况,从而影响读取的性能。所以如果读取的性能不理想的时候,也要考虑写入的配置是否合理。 读数据客户端调优 Scan
MapReduce Shuffle调优 操作场景 Shuffle阶段是MapReduce性能的关键部分,包括了从Map task将中间数据写到磁盘一直到Reduce task复制数据并最终放到reduce函数的全部过程。这部分Hadoop提供了大量的调优参数。 图1 Shuffle过程
(简称CCSMap)特性优化了Memstore的数据结构,可以有效减少数据写入场景下的内存占用,降低GC频率,优化数据写入性能。若实际业务场景中对数据写入性能要求较高时,建议开启此特性。 本章节内容仅适用于MRS 3.3.1及之后版本。 操作步骤 登录集群的FusionInsight
nodemanager.resource.memory-mb”的值,请根据集群的节点内存实际情况调大该值。 保存配置并重启受影响的服务或实例。 父主题: 性能优化类
sh /opt/executor/bin/shutdown.sh sh /opt/executor/bin/startup.sh 父主题: 性能优化类
10 修改完成后保存配置。 单击“实例”页签,勾选所有配置过期的实例,选择“更多 > 重启实例”,根据界面提示进行重启。 父主题: HDFS性能调优
得到更好的性能。 org.apache.hadoop.hbase.mapreduce.TsvImporterByteMapper 和 org.apache.hadoop.hbase.mapreduce.TsvImporterTextMapper 父主题: HBase性能调优
Broadcast特性(见“使用广播变量”章节),将被广播的表BroadCast到各个节点上,从而转变成非shuffle操作,提高任务执行性能。 这里join操作,只指inner join。 操作步骤 在Spark SQL中进行Join操作时,可以按照以下步骤进行优化。为了方便说
HetuEngine默认的内存大小参数和硬盘溢出路径参数默认并非最佳,需要根据实际业务和集群的服务器配置情况调整集群节点资源配置,以获得最佳的性能效果。 调整HetuEngine集群节点资源步骤 登录FusionInsight Manager页面。 选择“集群 > 服务 > HetuEngine
是Spark性能的瓶颈,I/O是Shuffle的瓶颈。配置多个磁盘则可以并行的把数据写入磁盘。如果节点中挂载多个磁盘,则在每个磁盘配置一个Spark的localDir,这将有效分散Shuffle文件的存放,提高磁盘I/O的效率。如果只有一个磁盘,配置了多个目录,性能提升效果不明显。