AI开发平台MODELARTS-训练容错检查:开启容错检查

时间:2024-08-26 19:27:18

开启容错检查

用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。

  • 使用ModelArts控制台的创建训练作业页面设置自动重启:

    用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启,表示不做重新下发作业,也不会启用环境检测。打开开关后,允许设置重启次数为1~128次。

    图5 自动重启设置
  • 使用API接口设置容错检查:

    用户可以通过API接口的方式开启自动重启。创建训练作业时,在“metadata”字段的“annotations”中传入“fault-tolerance/job-retry-num”字段。

    添加“fault-tolerance/job-retry-num”字段,视为开启自动重启,value的范围可以设置为1~128的整数。value值表示最大允许重新下发作业的次数。如果不传入则默认为0,表示不做重新下发作业,也不会启用环境检测。

    图6 设置API
support.huaweicloud.com/develop-modelarts/modelarts_trouble_0003.html