MAPREDUCE服务 MRS-Spark动态分区插入场景内存优化:操作场景
操作场景
SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。
经测试证明:10240个Task,2000个分区,在执行HDFS文件从临时目录rename到目标目录动作前,FileStatus元数据大小约29G。为避免以上问题,可修改SQL语句对数据进行重分区,以减少HDFS文件个数。
- Hudi服务_什么是Hudi_如何使用Hudi
- MapReduce服务_什么是ClickHouse_如何使用ClickHouse
- MapReduce服务_什么是Hive_如何使用Hive
- MapReduce服务_什么是Kafka_如何使用Kafka
- GaussDB数据库的使用现状_GaussDB最大的优势_高斯数据库的使用现状
- 什么是CDN_CDN动态_CDN应用场景
- CDN动态加速_动态内容CDN加速_华为云CDN动态加速
- MapReduce服务_什么是Loader_如何使用Loader
- 全站加速CDN_CDN动态加速_CDN动态加速技术
- GaussDB内存_云数据库GaussDB内存_高斯数据库内存-华为云