AI开发平台MODELARTS-执行训练任务(历史版本):步骤二 修改训练超参配置

时间:2025-03-12 09:40:51

步骤二 修改训练超参配置

Llama2-70b和Llama2-13b的SFT微调为例,执行脚本为0_pl_sft_70b.sh0_pl_sft_13b.sh

修改模型训练脚本中的配置,参数详解可查看训练参数说明,其中【GBS、MBS、TP、PP】参数值可参考模型推荐参数、NPU卡数设置。

对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型,还需要手动修改训练参数和tokenizer文件,具体请参见训练tokenizer文件说明

同时开启故障快恢和断点续训时需满足以下条件:

  • 如果用户指定${USER_CONVERTED_CKPT_PATH} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${OUTPUT_SAVE_DIR}/saved_checkpoints 必须为空,否则此参数无效断点续训失效。
  • 如果就是使用最新的训练权重进行断点续训(暂停+启动场景),那么可以同时指定MA_TRAIN_AUTO_RESUME =1和 ${USER_CONVERTED_CKPT_PATH}训练过程的权重保存路径,加载路径一致。
  • 故障快恢依赖训练过程的权重保存路径。所以如果开启 MA_TRAIN_AUTO_RESUME=1, 则用户指定的权重加载路径${USER_CONVERTED_CKPT_PATH}不能是训练过程的权重保存路径。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_91219.html