AI开发平台MODELARTS-训练作业进程异常退出:原因分析

时间:2024-10-22 15:11:52

原因分析

日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程,所以这里的退出码是用户的训练作业代码返回的。常见的错误码还包括247、139等。

  • 退出码137或者247

    可能是内存溢出造成的。请减少数据量、减少batch_size,优化代码,合理聚合、复制数据。

    请注意,数据文件大小不等于内存占用大小,需仔细评估内存使用情况。

  • 退出码139

    请排查安装包的版本,可能存在包冲突的问题。

support.huaweicloud.com/trouble-modelarts/modelarts_13_0074.html