AI开发平台MODELARTS-执行训练任务（历史版本）:步骤二修改训练超参配置

时间：2025-03-12 09:40:51

AI开发平台MODELARTS

以Llama2-70b和Llama2-13b的SFT微调为例，执行脚本为0_pl_sft_70b.sh 和 0_pl_sft_13b.sh 。

修改模型训练脚本中的配置，参数详解可查看训练参数说明，其中【GBS、MBS、TP、PP】参数值可参考模型推荐参数、NPU卡数设置。

对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。

同时开启故障快恢和断点续训时需满足以下条件：

如果用户指定${USER_CONVERTED_CKPT_PATH} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${OUTPUT_SAVE_DIR}/saved_checkpoints 必须为空，否则此参数无效断点续训失效。
如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定MA_TRAIN_AUTO_RESUME =1和 ${USER_CONVERTED_CKPT_PATH}训练过程的权重保存路径，加载路径一致。
故障快恢依赖训练过程的权重保存路径。所以如果开启 MA_TRAIN_AUTO_RESUME=1，则用户指定的权重加载路径${USER_CONVERTED_CKPT_PATH}不能是训练过程的权重保存路径。