AI开发平台MODELARTS-预训练任务:Step3 启动训练脚本
Step3 启动训练脚本
请根据Step2 修改训练超参配置修改超参值后,再启动训练脚本。Llama2-70B建议为4机32卡训练。
多机启动
以 Llama2-70B 为例,多台机器执行训练启动命令如下。多机启动需要在每个节点上执行。
进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。xxx-Ascend请根据实际目录替换。
示例: # 第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=0 sh scripts/llama2/0_pl_pretrain_70b.sh # 第二台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=1 sh scripts/llama2/0_pl_pretrain_70b.sh # 第三台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=2 sh scripts/llama2/0_pl_pretrain_70b.sh # 第四台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=3 sh scripts/llama2/0_pl_pretrain_70b.sh
以上命令多台机器执行时,只有${NODE_RANK}的节点ID值不同,其他参数都保持一致;其中MASTER_ADDR、 NNODES、 NODE_RANK 为必填。
单机启动
对于Llama2-7B和Llama2-13B,操作过程与Llama2-70B相同,只需修改对应参数即可,可以选用单机启动,以 Llama2-13B 为例。
进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下,先修改以下命令中的参数,再复制执行。xxx-Ascend请根据实际目录替换。
示例: MASTER_ADDR=localhost NNODES=1 NODE_RANK=0 sh scripts/llama2/0_pl_pretrain_13b.sh 或者: sh scripts/llama2/0_pl_pretrain_13b.sh
等待模型载入
执行训练启动命令后,等待模型载入,当出现“training”关键字时,表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。