AI开发平台MODELARTS-常见的磁盘空间不足的问题和解决办法:处理方法

时间:2024-10-16 17:32:26

处理方法

  1. 排查数据集大小、数据集解压后的大小,checkpoint保存文件大小,是否占满了磁盘空间。具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小
  2. 如数据大小已超过/cache目录大小,则可以考虑通过SFS来额外挂载数据盘进行扩容。
  3. 将数据和checkpoint保存在/cache目录或者/home/ma-user/目录。
  4. 检查checkpoint相关逻辑,保证历史checkpoint不会不断积压,导致/cache目录用完。
  5. 如文件大小小于/cache目录大小并且文件数量超过50w,则考虑为inode不足或者触发了操作系统的文件索引相关问题。需要:
    • 分目录处理,减少单个目录文件量。
    • 减慢创建文件的速度。如数据解压过程中,sleep 5s后再进行下一个数据的解压。
  6. 如果训练作业的工作目录下有core文件生成,可以在启动脚本最前面加上如下代码,来关闭core文件产生。并推荐先在开发环境中进行代码调试。
    import os
    os.system("ulimit -c 0")
support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0142.html