MAPREDUCE服务 MRS-优化小文件场景下的Spark SQL性能:配置场景
配置场景
Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。
在小文件场景下,您可以通过如下配置手动指定每个Task的数据量(Split Size),确保不会产生过多的Task,提高性能。
当SQL逻辑中不包含Shuffle操作时,设置此配置项,不会有明显的性能提升。
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 大数据分析是什么_使用MapReduce_创建MRS服务
- 什么是Spark_如何使用Spark_Spark的功能是什么
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- Hudi服务_什么是Hudi_如何使用Hudi
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- MapReduce服务_什么是Hue_如何使用Hue
- 性能测试产品优势_性能测试应用场景_性能测试CodeArts PerfTest-华为云