华为云首页用户手册

MAPREDUCE服务 MRS-配置Spark SQL开启Adaptive Execution特性:配置场景

MAPREDUCE服务 MRS-配置Spark SQL开启Adaptive Execution特性:配置场景

时间：2024-08-01 19:24:19

MAPREDUCE服务 MRS Spark SQL企业级能力增强

配置场景

Spark SQL Adaptive Execution特性用于使Spark SQL在运行过程中，根据中间结果优化后续执行流程，提高整体执行效率。当前已实现的特性如下：

自动设置shuffle partition数。
在启用Adaptive Execution特性前，Spark SQL根据spark.sql.shuffle.partitions配置指定shuffle时的partition个数。此种方法在一个应用中执行多种SQL查询时缺乏灵活性，无法保证所有场景下的性能更优。开启Adaptive Execution后，Spark SQL将自动为每个shuffle过程动态设置partition个数，而不是使用通用配置，使每次shuffle过程自动使用最合理的partition数。

动态调整执行计划。
在启用Adaptive Execution特性前，Spark SQL根据RBO和CBO的优化结果创建执行计划，此种方法忽略了数据在运行过程中的结果集变化。比如基于某个大表创建的视图，与其他大表join时，即便视图的结果集很小，也无法将执行计划调整为BroadcastJoin。启用Adaptive Execution特性后，Spark SQL能够在运行过程中根据前面stage的运行结果动态调整后续的执行计划，从而获得更好的执行性能。

自动处理数据倾斜。
在执行SQL语句时，如果存在数据倾斜，可能导致单个executor内存溢出、任务执行缓慢等问题。启动Adaptive Execution特性后，Spark SQL能自动处理数据倾斜场景，对倾斜的分区，启动多个task进行处理，每个task读取部分shuffle输出文件，再对这部分任务的Join结果进行Union操作，以达到消除数据倾斜的效果。

上一篇：MAPREDUCE服务 MRS-使用HetuEngine跨源跨域访问数据源:跨源功能使用指导

下一篇：MAPREDUCE服务 MRS-合并CBO优化:操作步骤

MAPREDUCE服务 MRS-配置Spark SQL开启Adaptive Execution特性:配置场景

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题