AI开发平台MODELARTS-断点续训练和增量训练:ModelArts中如何实现断点续训练和增量训练
ModelArts中如何实现断点续训练和增量训练
在ModelArts训练中实现断点续训练或增量训练,建议使用“训练输出”功能。
在创建训练作业时,设置训练“输出”参数为“train_url”,在指定的训练输出的数据存储位置中保存checkpoint,且“预下载至本地目录”选择“下载”。选择预下载至本地目录时,系统在训练作业启动前,自动将数据存储位置中的checkpoint文件下载到训练容器的本地目录。
断点续训练建议和训练容错检查(即自动重启)功能同时使用。在创建训练作业页面,开启“自动重启”开关。训练环境预检测失败、或者训练容器硬件检测故障、或者训练作业失败时会自动重新下发并运行训练作业。
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts分布式训练_分布式训练介绍_分布式调测
- ModelArts模型训练_超参搜索简介_超参搜索算法
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts自定义镜像_自定义镜像简介_如何使用自定义镜像
- AI训练加速存储_高性能数据存储_AI数据存储内存不足怎么办
- ModelArts自动学习是什么_自动学习简介_零代码完成AI开发
- ModelArts是什么_AI开发平台_ModelArts功能
- ModelArts开发环境_开发环境简介_开发环境怎么使用