MAPREDUCE服务 MRS-使用Spark小文件合并工具说明:配置参数

时间:2024-07-02 16:40:11

配置参数

在Spark客户端的“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”配置文件中进行设置,修改如下参数:

参数

说明

默认值

spark.sql.mergeSmallFiles.enabled

设置为true,Spark写入目标表时会判断是否写入了小文件,如果发现有小文件,则会启动合并小文件的job。

false

spark.sql.mergeSmallFiles.threshold.avgSize

如果某个分区的平均文件大小小于该值,则启动小文件合并。

16MB

spark.sql.mergeSmallFiles.maxSizePerTask

合并后的每个文件大小目标大小。

256MB

spark.sql.mergeSmallFiles.moveParallelism

当不需要合并小文件后时,将临时文件移动到最终目录的并行度。

10000

support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_249263.html