MAPREDUCE服务 MRS-Spark On Hudi性能调优:优化shuffle并行度,提升Spark加工效率

时间:2024-05-15 22:32:40

优化shuffle并行度,提升Spark加工效率

所谓的shuffle并发度如下图所示:

集群默认是200,作业可以单独设置。如果发现瓶颈stage(执行时间长),且分配给当前作业的核数大于当前的并发数,说明并发度不足。通过以下配置优化。

场景

配置项

集群默认值

调整后

Jar作业

spark.default.parallelism

200

按实际作业可用资源2倍设置

SQL作业

spark.sql.shuffle.partitions

200

按实际作业可用资源2倍设置

hudi入库作业

hoodie.upsert.shuffle.parallelism

200

非bucket表使用,按实际作业可用资源2倍设置

动态资源调度情况下(spark.dynamicAllocation.enabled= true)时,资源按照spark.dynamicAllocation.maxExecutors评估

support.huaweicloud.com/devg-rule-mrs/zh-cn_topic_0000001826372990.html