AI开发平台MODELARTS-LoRA微调训练:Step3 启动训练脚本

时间：2024-12-09 20:36:16

AI开发平台MODELARTS

Step3 启动训练脚本

修改超参值后，再启动训练脚本。Llama2-70b建议为4机32卡训练。

多机启动

以 Llama2-70b为例，多台机器执行训练启动命令如下。进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。

示例：
# 第一台节点
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=0 sh scripts/llama2/0_pl_lora_70b.sh
# 第二台节点 
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=1 sh scripts/llama2/0_pl_lora_70b.sh
# 第三台节点 
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=2 sh scripts/llama2/0_pl_lora_70b.sh
# 第四台节点 
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=3 sh scripts/llama2/0_pl_lora_70b.sh

以上命令多台机器执行时，只有${NODE_RANK}的节点ID值不同，其他参数都保持一致。其中MASTER_ADDR、NNODES、NODE_RANK为必填项。

单机启动

对于Llama2-7b和Llama2-13b，操作过程与Llama2-70b相同，只需修改对应参数即可，可以选用单机启动，以Llama2-13b为例。

进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。先修改以下命令中的参数，再复制执行

上一篇：AI开发平台MODELARTS-LoRA微调训练:Step2 修改训练超参配置

下一篇：AI开发平台MODELARTS-LoRA微调训练:Step2 修改训练超参配置