AI开发平台MODELARTS-SDXL基于Standard适配PyTorch NPU的LoRA训练指导(6.3.908):Step8 断点续训

时间:2024-11-12 16:42:36

Step8 断点续训

查看训练日志,在训练任务启动后,当训练超过500步后开始保存checkpoint文件,保存成功后,手动终止训练任务。

图8 保存checkpoint文件

然后单击重建后提交。

图9 重建训练作业

提交新的任务时,注意将预下载到本地目录勾上。

图10 勾选预下载到本地目录

观察启动日志,启动会读取最新的checkpoint模型文件,接着上次保存的step位置开始训练。

图11 读取最新的checkpoint模型文件
support.huaweicloud.com/bestpractice-modelarts/modelarts_aigc_9081.html