MAPREDUCE服务 MRS-优化小文件场景下的Spark SQL性能:配置场景

时间：2024-11-28 01:44:28

MAPREDUCE服务 MRS

Spark SQL的表中，经常会存在很多小文件（大小远小于HDFS块大小），每个小文件默认对应Spark中的一个Partition，也就是一个Task。在很多小文件场景下，Spark会起很多Task。当SQL逻辑中存在Shuffle操作时，会大大增加hash分桶数，严重影响性能。

在小文件场景下，您可以通过如下配置手动指定每个Task的数据量（Split Size），确保不会产生过多的Task，提高性能。

当SQL逻辑中不包含Shuffle操作时，设置此配置项，不会有明显的性能提升。

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

MAPREDUCE服务 MRS-优化小文件场景下的Spark SQL性能:配置场景

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

7*24