AI开发平台MODELARTS-Qwen-VL基于DevServer适配Pytorch NPU的Finetune训练指导(6.3.906):Step6 开始训练

时间:2024-12-09 20:36:09

Step6 开始训练

进入代码根目录。

cd ModelZoo-PyTorch/PyTorch/built-in/mlm/Qwen-VL

运行精度训练脚本train_full_8p.sh。运行前请先修改参数。

bash test/train_full_8p.sh --model_name=${预训练模型路径} --data_path=${训练数据集路径} --epochs=${训练epoch数量} # 8卡精度训练,混精bf16
例: bash test/train_full_8p.sh --model_name=path/Qwen-VL-Chat  --data_path=path/xx.json --epochs=${训练epoch数量}

运行性能训练脚本train_performance_8p.sh。运行前请先修改参数。

# 运行性能训练脚本
bash test/train_performance_8p.sh --model_name=${预训练模型路径} --data_path=${训练数据集路径}   # 8卡性能,混精bf16

训练后的产物路径说明如下。

#日志路径:
ModelZoo-PyTorch/PyTorch/built-in/mlm/Qwen-VL/test/output/8p
#训练输出权重路径:
ModelZoo-PyTorch/PyTorch/built-in/mlm/Qwen-VL/output-qwen-vl

训练过程中,训练日志会在最后的Rank节点打印。

日志里存在lm loss参数,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_01209.html