数据湖探索 DLI-Spark 3.3.1版本说明:Spark 3.3.1版本说明

时间:2024-08-07 09:02:48

Spark 3.3.1版本说明

表1列举了Spark 3.3.1 版本主要的功能特性。

更多版本新特性及性能优化请参考Release Notes - Spark 3.3.1

表1 Spark 3.3.1版本优势

特性

说明

Native性能加速

Spark查询语句性能提升。

元数据访问性能提升

提升Spark在处理大数据时的元数据访问性能,提高数据处理流程效率。

提升OBS committer小文件写性能

提升 对象存储服务 (OBS)在处理小文件写入时的性能,提高数据传输效率。

动态Executor shuffle数据优化

提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。

支持配置小文件合并

使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。

参考如何合并小文件完成合并小文件。

支持修改非分区表或分区表的列注释

修改非分区表或分区表的列注释。

支持统计SQL作业的CPU消耗

支持在控制台查看“CPU累计使用量”。

支持容器集群Spark日志跳转查看

需要在容器查看日志。

支持动态加载UDF(公测)

无需重启队列UDF即可生效。

Spark UI支持火焰图

Spark UI支持绘制火焰图。

优化SQL作业NOT IN语句查询性能

NOT IN语句查询性能提升。

优化Multi-INSERT语句查询性能

Multi-INSERT语句查询性能提升。

support.huaweicloud.com/bulletin-dli/dli_bulletin_0012.html