MAPREDUCE服务 MRS-使用Spark小文件合并工具说明:工具介绍

时间:2024-06-29 16:25:05

工具介绍

在Hadoop大规模生产集群中,由于HDFS的元数据都保存在NameNode的内存中,集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件,会消耗NameNode大量内存,还会大幅降低读写性能,延长作业运行时间。因此,小文件问题是制约Hadoop集群规模扩展的关键问题。

本工具主要有如下两个功能:

  1. 扫描表中有多少低于用户设定阈值的小文件,返回该表目录中所有数据文件的平均大小。
  2. 对表文件提供合并功能,用户可设置合并后的平均文件大小。
support.huaweicloud.com/cmpntguide-mrs/mrs_01_1973.html