AI开发平台MODELARTS-增量模型训练:ModelArts Standard中如何实现增量训练

时间：2024-08-16 20:38:57

AI开发平台MODELARTS 使用ModelArts Standard训练模型

ModelArts Standard中如何实现增量训练

增量训练是通过Checkpoint机制实现。

Checkpoint的机制是：在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。当需要增加新的数据继续训练时，只需要加载Checkpoint，并用Checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码，使能读取前一次训练保存的预训练模型。

在ModelArts训练中实现增量训练，建议使用“训练输出”功能。

在创建训练作业时，设置训练“输出”参数为“train_url”，在指定的训练输出的数据存储位置中保存Checkpoint，且“预下载至本地目录”选择“下载”。选择预下载至本地目录时，系统在训练作业启动前，自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。

图1 训练输出设置