MAPREDUCE服务 MRS-优化小文件场景下的Spark SQL性能:配置描述
配置描述
要启动小文件优化,在Spark客户端的“spark-defaults.conf”配置文件中进行设置。
参数 |
描述 |
默认值 |
---|---|---|
spark.sql.files.maxPartitionBytes |
在读取文件时,将单个分区打包的最大字节数。 单位:byte。 |
134217728(即128M) |
spark.files.openCostInBytes |
打开文件的预估成本, 按照同一时间能够扫描的字节数来测量。当一个分区写入多个文件时使用。高估更好,这样小文件分区将比大文件分区更先被调度。 |
4M |
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 大数据分析是什么_使用MapReduce_创建MRS服务
- 什么是Spark_如何使用Spark_Spark的功能是什么
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- Hudi服务_什么是Hudi_如何使用Hudi
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- MapReduce服务_什么是Hue_如何使用Hue
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离
- 数据备份归档在哪里_数据分析存储系统_大数据存储管理