AI开发平台MODELARTS-无条件自动重启:开启无条件自动重启

时间:2024-08-26 19:27:17

开启无条件自动重启

开启无条件自动重启有2种方式:控制台设置或API接口设置。

  • 控制台设置

    在创建训练作业页面,开启“自动重启”开关,并勾选“无条件自动重启”,开启无条件自动重启。开启无条件自动重启后,只要系统检测到训练异常,就无条件重启训练作业。如果未勾选“无条件自动重启”只是打开了“自动重启”开关,则表示仅环境问题导致训练作业异常时才会自动重启,其他问题导致训练作业异常时会直接返回“运行失败”

    图1 开启无条件重启
  • API接口设置

    通过API接口创建训练作业时,在“metadata”字段的“annotations”中传入“fault-tolerance/job-retry-num”“fault-tolerance/job-unconditional-retry”字段。“fault-tolerance/job-retry-num”赋值为1~128表示开启自动重启,“fault-tolerance/job-unconditional-retry”赋值为“true”表示启用了无条件自动重启。

    {
        "kind": "job",
        "metadata": {
            "annotations": {
                "fault-tolerance/job-retry-num": "8",
                "fault-tolerance/job-unconditional-retry": "true"
            }
        }
    }
support.huaweicloud.com/develop-modelarts/develop-modelarts-0041.html