AI开发平台MODELARTS-Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导(6.3.907):Step9 启动训练服务
Step9 启动训练服务
在/home/ma-user/Open-Sora-Plan1.0/目录下进行操作
训练至少需要单机8卡。
- 命令启动训练脚本。
正常训练过程如下图所示。训练完成后,关注loss值,loss曲线收敛,记录总耗时和单步耗时。训练过程中,训练日志会在最后的Rank节点打印。可以使用可视化工具TrainingLogParser查看loss收敛情况。
图7 正常训练过程
训练完成后权重保存在自动生成的目录,例如:t2v-f17-256-img4-videovae488-bf16-ckpt-xformers-bs4-lr2e-5-t5/epoch1-global_step2000/checkpoint-2000/model。