AI开发平台MODELARTS-断点续训练和增量训练:什么是断点续训练和增量训练
什么是断点续训练和增量训练
断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。
增量训练是指增加新的训练数据到当前训练流程中,扩展当前模型的知识和能力。
断点续训练和增量训练均是通过checkpoint机制实现。
checkpoint的机制是:在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint接续训练。
当需要从训练中断的位置接续训练,只需要加载checkpoint,并用checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码,使能读取前一次训练保存的预训练模型。
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts分布式训练_分布式训练介绍_分布式调测
- AI训练加速存储_高性能数据存储_AI数据存储内存不足怎么办
- ModelArts模型训练_超参搜索简介_超参搜索算法
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts是什么_AI开发平台_ModelArts功能
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts自动学习是什么_自动学习简介_零代码完成AI开发
- 华为云IEF_华为云智能边缘平台_智能边缘平台IEF应用场景