MAPREDUCE服务 MRS-优化小文件场景下的Spark SQL性能:配置场景

时间:2024-11-28 01:44:28

配置场景

Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。

在小文件场景下,您可以通过如下配置手动指定每个Task的数据量(Split Size),确保不会产生过多的Task,提高性能。

当SQL逻辑中不包含Shuffle操作时,设置此配置项,不会有明显的性能提升。

support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_1988.html