数据湖探索 DLI-Spark2.4.x与Spark3.3.x版本在SQL队列的差异对比:新增支持自适应Skip partial agg功能的配置
新增支持自适应Skip partial agg功能的配置
- 说明:
Spark3.3.x版本中新增支持自适应Skip partial agg功能,即当Partial Agg效果不佳时,可以直接跳过,避免Partial Agg带来的额外性能消耗。相关参数:
- spark.sql.aggregate.adaptivePartialAggregationEnabled:用于控制是否启用自适应Skip partial agg功能。当设置为true时,Spark会根据运行时的统计数据动态决定是否跳过部分聚合。
- spark.sql.aggregate.adaptivePartialAggregationInterval:该参数用于配置分析间隔,即在处理了多少行数据之后,Spark会进行一次分析,用来决定是否需要跳过部分聚合。
- spark.sql.aggregate.adaptivePartialAggregationRatio:该参数是判断是否跳过的阈值,用于判断“已处理的group分组/已处理的行数”的比例。如果这个比例大于配置的阈值,则认为预聚合效果不好,此时Spark可以选择跳过部分聚合,避免进一步的性能损失。
在使用时系统先按照spark.sql.aggregate.adaptivePartialAggregationInterval配置的间隔进行分析,当处理的行数到达间隔之后,再计算”已处理的group分组/已处理的行数”,如果比例大于配置的阈值,则认为预聚合效果不好,此时可以直接选择跳过。
- 升级引擎版本后是否对作业有影响:
DLI 功能增强。
- 分布式消息服务Kafka版与分布式消息服务RocketMQ版的区别_Kafka与RocketMQ对比_Kafka与RocketMQ差异
- 什么是跨源连接-数据湖探索DLI跨源连接
- 对象存储与自建存储服务器对比_OBS对象存储的优势_OBS对象存储好用的功能
- kafka是什么_kafka介绍_分布式消息服务Kafka版
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- 编译构建服务是什么_如何使用鲲鹏环境构建
- 什么是数据湖探索服务_数据湖探索DLI用途与特点
- 云数据库 GaussDB(for MySQL)与RDS for MySQL的区别
- 什么是弹性资源池_数据湖探索DLI弹性资源池
- Kafka与其他消息队列的对比_什么是Kafka_分布式消息系统-华为云