AI开发平台MODELARTS-Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导(6.3.907):Step9 启动训练服务

时间:2024-09-14 22:29:38

Step9 启动训练服务

在/home/ma-user/Open-Sora-Plan1.0/目录下进行操作

训练至少需要单机8卡。

  1. 命令启动训练脚本。
    例如:训练65帧的视频,拼接4张图片,则执行如下命令:
    bash train_videoae_65x512x512.sh

    正常训练过程如下图所示。训练完成后,关注loss值,loss曲线收敛,记录总耗时和单步耗时。训练过程中,训练日志会在最后的Rank节点打印。可以使用可视化工具TrainingLogParser查看loss收敛情况。

    图7 正常训练过程

    训练完成后权重保存在自动生成的目录,例如:t2v-f17-256-img4-videovae488-bf16-ckpt-xformers-bs4-lr2e-5-t5/epoch1-global_step2000/checkpoint-2000/model。

support.huaweicloud.com/bestpractice-modelarts/modelarts_aigc_9077.html