MAPREDUCE服务 MRS-Spark常用配置参数:普通Shuffle配置
普通Shuffle配置
参数 |
描述 |
默认值 |
---|---|---|
spark.shuffle.spill |
如果设为“true”,通过将数据溢出至磁盘来限制reduce任务期间内存的使用量。 |
true |
spark.shuffle.spill.compress |
是否压缩shuffle期间溢出的数据。使用spark.io.compression.codec指定的算法进行数据压缩。 |
true |
spark.shuffle.file.buffer |
每个shuffle文件输出流的内存缓冲区大小(单位:KB)。这些缓冲区可以减少创建中间shuffle文件流过程中产生的磁盘寻道和系统调用次数。也可以通过配置项spark.shuffle.file.buffer.kb设置。 |
32KB |
spark.shuffle.compress |
是否压缩map任务输出文件。建议压缩。使用spark.io.compression.codec进行压缩。 |
true |
spark.reducer.maxSizeInFlight |
从每个reduce任务同时fetch的map任务输出最大值(单位:MB)。由于每个输出要求创建一个缓冲区进行接收,这代表了每个reduce任务固定的内存开销,所以除非拥有大量内存,否则保持低值。也可以通过配置项spark.reducer.maxMbInFlight设置。 |
48MB |