AI开发平台MODELARTS-LoRA微调训练:Step3 启动训练脚本
Step3 启动训练脚本
修改超参值后,再启动训练脚本。Llama2-70b建议为4机32卡训练。
多机启动
以 Llama2-70b为例,多台机器执行训练启动命令如下。进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。
示例: # 第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=0 sh scripts/llama2/0_pl_lora_70b.sh # 第二台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=1 sh scripts/llama2/0_pl_lora_70b.sh # 第三台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=2 sh scripts/llama2/0_pl_lora_70b.sh # 第四台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=3 sh scripts/llama2/0_pl_lora_70b.sh
以上命令多台机器执行时,只有${NODE_RANK}的节点ID值不同,其他参数都保持一致。其中MASTER_ADDR、NNODES、NODE_RANK为必填项。
单机启动
对于Llama2-7b和Llama2-13b,操作过程与Llama2-70b相同,只需修改对应参数即可,可以选用单机启动,以Llama2-13b为例。
进入代码目录 /home/ma-user/ws/llm_train/AscendSpeed 下执行启动脚本。先修改以下命令中的参数,再复制执行
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts分布式训练_分布式训练介绍_分布式调测
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts自定义镜像_自定义镜像简介_如何使用自定义镜像
- ModelArts是什么_AI开发平台_ModelArts功能
- 华为云盘古大模型_华为云AI大模型_盘古人工智能
- ModelArts模型训练_超参搜索简介_超参搜索算法
- 华为云内容审核服务_内容审核有什么作用_华为云内容审核的优势
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云