AI开发平台MODELARTS-训练容错检查:开启容错检查
开启容错检查
用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。
- 使用ModelArts控制台的创建训练作业页面设置自动重启:
用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启,表示不做重新下发作业,也不会启用环境检测。打开开关后,允许设置重启次数为1~128次。
图5 自动重启设置
- 使用API接口设置容错检查:
用户可以通过API接口的方式开启自动重启。创建训练作业时,在“metadata”字段的“annotations”中传入“fault-tolerance/job-retry-num”字段。
添加“fault-tolerance/job-retry-num”字段,视为开启自动重启,value的范围可以设置为1~128的整数。value值表示最大允许重新下发作业的次数。如果不传入则默认为0,表示不做重新下发作业,也不会启用环境检测。
图6 设置API
- 安全云脑-基线检查_什么是基线检查_基线检查检查哪些内容
- 代码检查工具_代码检查平台_代码检查CodeArts Check-华为云
- 代码检查快速入门_ 代码检查操作流程_代码检查CodeArts Check-华为云
- 代码检查_代码检查如何设置规则集_代码检查CodeArts Check-华为云
- 如何进行软件代码检查_ 代码检查的特性_代码检查CodeArts Check-华为云
- 安全云脑_基线检查_登录口令安全
- 软件开发代码检查的作用_软件开发生产线_代码检查CodeCheck-华为云
- 负载均衡排查思路
- AI训练加速存储_高性能数据存储_AI数据存储内存不足怎么办
- 弹性负载均衡的应用场景_负载方案_负载均衡的优点-华为云