AI开发平台MODELARTS-LLaVA模型基于DevServer适配PyTorch NPU预训练指导(6.3.906):Step5 开始训练

时间:2024-11-12 16:42:19

Step5 开始训练

进入解压后的源码包根目录。

cd ${container_work_dir}/multimodal_algorithm/LLAVA/llava-train/5d8f1760c08b7dfba3ae97b71cbd4c6f17d12dbd/LLaVA

修改训练脚本模型路径(--model_name_or_path 模型路径)。

vim ./scripts/v1_5/pretrain_new.sh

运行训练脚本,默认是单机8卡。

bash ./scripts/v1_5/pretrain_new.sh

训练完成后,权重文件保存checkpoints/llava-v1.5-13b-pretrain路径下,并输出模型训练精度和性能信息。

训练过程中,训练日志会在最后的Rank节点打印。

日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_01207.html