AI开发平台MODELARTS-预训练任务:Step3 启动训练脚本

时间：2024-12-09 20:36:16

AI开发平台MODELARTS

Step3 启动训练脚本

请根据Step2 修改训练超参配置修改超参值后，再启动训练脚本。Llama2-70B建议为4机32卡训练。

多机启动

以 Llama2-70B 为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行。

进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。xxx-Ascend请根据实际目录替换。

示例：
# 第一台节点
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=0 sh scripts/llama2/0_pl_pretrain_70b.sh
# 第二台节点 
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=1 sh scripts/llama2/0_pl_pretrain_70b.sh
# 第三台节点 
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=2 sh scripts/llama2/0_pl_pretrain_70b.sh
# 第四台节点 
MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=3 sh scripts/llama2/0_pl_pretrain_70b.sh

以上命令多台机器执行时，只有${NODE_RANK}的节点ID值不同，其他参数都保持一致；其中MASTER_ADDR、 NNODES、 NODE_RANK 为必填。

单机启动

对于Llama2-7B和Llama2-13B，操作过程与Llama2-70B相同，只需修改对应参数即可，可以选用单机启动，以 Llama2-13B 为例。

进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下，先修改以下命令中的参数，再复制执行。xxx-Ascend请根据实际目录替换。

示例：
MASTER_ADDR=localhost NNODES=1 NODE_RANK=0 sh scripts/llama2/0_pl_pretrain_13b.sh
或者：
sh scripts/llama2/0_pl_pretrain_13b.sh

等待模型载入

执行训练启动命令后，等待模型载入，当出现“training”关键字时，表示开始训练。训练过程中，训练日志会在最后的Rank节点打印。

图1 等待模型载入

上一篇：AI开发平台MODELARTS-预训练任务:Step2 修改训练超参配置

下一篇：AI开发平台MODELARTS-预训练任务:Step2 修改训练超参配置

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-预训练任务:Step3 启动训练脚本

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

AI开发平台MODELARTS-预训练任务:Step3 启动训练脚本

AI开发平台MODELARTS-预训练任务:Step3 启动训练脚本

Step3 启动训练脚本

7*24

备案

专业服务

退订

建议反馈

售前咨询热线