AI开发平台MODELARTS-如何使训练作业保持运行中状态:出错的任务如何卡在运行中状态

时间:2024-08-26 19:27:17

出错的任务如何卡在运行中状态

创建训练作业时,启动命令末尾新增"|| sleep 5h",并启动训练任务,例如下方的cmd为您的启动命令:
cmd || sleep 5h

如果训练失败,则会执行sleep命令,此时可通过Cloud Shell登录容器镜像中调试。

在Cloud Shell中调试多节点训练作业时,需要在Cloud Shell中切换work0、work1来实现对不同节点下发启动命令,否则任务会处于等待其他节点的状态。

support.huaweicloud.com/develop-modelarts/develop-modelarts-0113.html