华为云首页用户手册

数据湖探索 DLI-Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比:新增支持自适应Skip partial agg功能的配置

数据湖探索 DLI-Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比:新增支持自适应Skip partial agg功能的配置

时间：2025-02-12 15:01:58

数据湖探索 DLI

新增支持自适应Skip partial agg功能的配置

说明：
Spark3.3.x版本中新增支持自适应Skip partial agg功能，即当Partial Agg效果不佳时，可以直接跳过，避免Partial Agg带来的额外性能消耗。相关参数：
- spark.sql.aggregate.adaptivePartialAggregationEnabled：用于控制是否启用自适应Skip partial agg功能。当设置为true时，Spark会根据运行时的统计数据动态决定是否跳过部分聚合。
- spark.sql.aggregate.adaptivePartialAggregationInterval：该参数用于配置分析间隔，即在处理了多少行数据之后，Spark会进行一次分析，用来决定是否需要跳过部分聚合。
- spark.sql.aggregate.adaptivePartialAggregationRatio：该参数是判断是否跳过的阈值，用于判断“已处理的group分组/已处理的行数”的比例。如果这个比例大于配置的阈值，则认为预聚合效果不好，此时Spark可以选择跳过部分聚合，避免进一步的性能损失。
在使用时系统先按照spark.sql.aggregate.adaptivePartialAggregationInterval配置的间隔进行分析，当处理的行数到达间隔之后，再计算”已处理的group分组/已处理的行数”，如果比例大于配置的阈值，则认为预聚合效果不好，此时可以直接选择跳过。
升级引擎版本后是否对作业有影响：
DLI 功能增强。

上一篇：数据湖探索 DLI-Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比:默认配置spark.sql.adaptive.enabled=true

下一篇：数据湖探索 DLI-Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比:空值分区的查询语句不同

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

数据湖探索 DLI-Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比:新增支持自适应Skip partial agg功能的配置

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题