MAPREDUCE服务 MRS-使用Spark小文件合并工具说明:配置参数
配置参数
参数 |
说明 |
默认值 |
---|---|---|
spark.sql.mergeSmallFiles.enabled |
设置为true,Spark写入目标表时会判断是否写入了小文件,如果发现有小文件,则会启动合并小文件的job。 |
false |
spark.sql.mergeSmallFiles.threshold.avgSize |
如果某个分区的平均文件大小小于该值,则启动小文件合并。 |
16MB |
spark.sql.mergeSmallFiles.maxSizePerTask |
合并后的每个文件大小目标大小。 |
256MB |
spark.sql.mergeSmallFiles.moveParallelism |
当不需要合并小文件后时,将临时文件移动到最终目录的并行度。 |
10000 |