MAPREDUCE服务 MRS-Spark On Hudi性能调优:优化shuffle并行度,提升Spark加工效率
优化shuffle并行度,提升Spark加工效率
所谓的shuffle并发度如下图所示:
集群默认是200,作业可以单独设置。如果发现瓶颈stage(执行时间长),且分配给当前作业的核数大于当前的并发数,说明并发度不足。通过以下配置优化。
场景 |
配置项 |
集群默认值 |
调整后 |
---|---|---|---|
Jar作业 |
spark.default.parallelism |
200 |
按实际作业可用资源2倍设置 |
SQL作业 |
spark.sql.shuffle.partitions |
200 |
按实际作业可用资源2倍设置 |
hudi入库作业 |
hoodie.upsert.shuffle.parallelism |
200 |
非bucket表使用,按实际作业可用资源2倍设置 |
动态资源调度情况下(spark.dynamicAllocation.enabled= true)时,资源按照spark.dynamicAllocation.maxExecutors评估。
- Hudi服务_什么是Hudi_如何使用Hudi
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- 什么是Spark_如何使用Spark_Spark的功能是什么
- MapReduce服务_什么是MapReduce服务_什么是HBase
- 大数据分析是什么_使用MapReduce_创建MRS服务
- ERP系统是什么系统_ODOO ERP_跨境ERP软件
- ERP 软件_零售ERP_ERP订单号
- 大数据应用范围有哪些_大数据技术与应用要学习什么课程