AI开发平台MODELARTS-Qwen-VL基于DevServer适配Pytorch NPU的Finetune训练指导(6.3.906):Step6 开始训练
Step6 开始训练
进入代码根目录。
cd ModelZoo-PyTorch/PyTorch/built-in/mlm/Qwen-VL
运行精度训练脚本train_full_8p.sh。运行前请先修改参数。
bash test/train_full_8p.sh --model_name=${预训练模型路径} --data_path=${训练数据集路径} --epochs=${训练epoch数量} # 8卡精度训练,混精bf16 例: bash test/train_full_8p.sh --model_name=path/Qwen-VL-Chat --data_path=path/xx.json --epochs=${训练epoch数量}
运行性能训练脚本train_performance_8p.sh。运行前请先修改参数。
# 运行性能训练脚本 bash test/train_performance_8p.sh --model_name=${预训练模型路径} --data_path=${训练数据集路径} # 8卡性能,混精bf16
训练后的产物路径说明如下。
#日志路径: ModelZoo-PyTorch/PyTorch/built-in/mlm/Qwen-VL/test/output/8p #训练输出权重路径: ModelZoo-PyTorch/PyTorch/built-in/mlm/Qwen-VL/output-qwen-vl
训练过程中,训练日志会在最后的Rank节点打印。
日志里存在lm loss参数,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。