AI开发平台MODELARTS-LLaVA模型基于DevServer适配PyTorch NPU预训练指导(6.3.906):Step5 开始训练
Step5 开始训练
进入解压后的源码包根目录。
cd ${container_work_dir}/multimodal_algorithm/LLAVA/llava-train/5d8f1760c08b7dfba3ae97b71cbd4c6f17d12dbd/LLaVA
修改训练脚本模型路径(--model_name_or_path 模型路径)。
vim ./scripts/v1_5/pretrain_new.sh
运行训练脚本,默认是单机8卡。
bash ./scripts/v1_5/pretrain_new.sh
训练完成后,权重文件保存checkpoints/llava-v1.5-13b-pretrain路径下,并输出模型训练精度和性能信息。
训练过程中,训练日志会在最后的Rank节点打印。
日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。