AI开发平台MODELARTS-执行训练任务(历史版本):步骤二 修改训练超参配置
步骤二 修改训练超参配置
以Llama2-70b和Llama2-13b的SFT微调为例,执行脚本为0_pl_sft_70b.sh 和 0_pl_sft_13b.sh 。
修改模型训练脚本中的配置,参数详解可查看训练参数说明,其中【GBS、MBS、TP、PP】参数值可参考模型推荐参数、NPU卡数设置。
对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型,还需要手动修改训练参数和tokenizer文件,具体请参见训练tokenizer文件说明。

同时开启故障快恢和断点续训时需满足以下条件:
- 如果用户指定${USER_CONVERTED_CKPT_PATH} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${OUTPUT_SAVE_DIR}/saved_checkpoints 必须为空,否则此参数无效断点续训失效。
- 如果就是使用最新的训练权重进行断点续训(暂停+启动场景),那么可以同时指定MA_TRAIN_AUTO_RESUME =1和 ${USER_CONVERTED_CKPT_PATH}训练过程的权重保存路径,加载路径一致。
- 故障快恢依赖训练过程的权重保存路径。所以如果开启 MA_TRAIN_AUTO_RESUME=1, 则用户指定的权重加载路径${USER_CONVERTED_CKPT_PATH}不能是训练过程的权重保存路径。
- ModelArts模型训练_超参搜索简介_超参搜索算法
- ModelArts分布式训练_分布式训练介绍_分布式调测
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- ModelArts模型训练_创建训练作业_如何创建训练作业
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts开发环境_开发环境简介_开发环境怎么使用
- ModelArts Workflow_什么是Workflow_工作流
- ModelArts自定义镜像_自定义镜像简介_如何使用自定义镜像
- 华为云ModelArts_ModelArts开发_AI全流程开发
- AI训练加速存储_高性能数据存储_AI数据存储内存不足怎么办