AI开发平台MODELARTS-训练作业日志中提示“No such file or directory”:原因分析

时间:2024-11-22 17:40:42

原因分析

  • 找不到训练输入数据路径,可能是报错的路径填写不正确。用户请按照以下思路进行逐步排查:
    1. 检查报错的路径是否为OBS路径
    2. 检查报错的路径是否存在
  • 找不到启动文件,可能是训练作业启动命令的路径填写不正确,参考使用 自定义镜像 创建训练作业时,检查启动文件路径排查解决。
  • 可能为多个进程或者worker读写同一个文件。如果使用了SFS,则考虑是否多个节点同时写同一个文件。分析代码中是否存在多进程写同一文件的情况。建议避免作业中存在多进程,多节点并发读写同一文件的情况。
support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0014.html