AI开发平台MODELARTS-SDXL基于Standard适配PyTorch NPU的Finetune训练指导(6.3.905):Step7 创建训练作业

时间:2024-09-14 22:29:24

Step7 创建训练作业

创建训练作业,填下如下参数。

  • 创建方式:选择自定义算法,启动方式选择自定义,然后选择上传到SWR的 自定义镜像
  • 代码目录:选择上传到OBS的代码文件夹,例如/sdxl-train/code。若用户需要修改代码文件,可修改OBS桶中代码文件,创建训练作业时,会将OBS的code目录复制到训练容器的/home/ma-user/sdxl-train/user-job-dir/目录下,覆盖容器中原有的code目录。
  • 启动命令:直接运行启动脚本文件diffusers_finetune_train.sh。
    sh /home/ma-user/sdxl-train/user-job-dir/code/diffusers_finetune_train.sh
  • 本地代码目录:保持默认即可。
  • 工作目录:选择代码文件目录,例如/home/ma-user/sdxl-train/user-job-dir/code/。
  • 输出:单击“增加训练输出”,将模型保存到OBS中。参数名称为output,数据存储位置选择OBS桶中制定文件夹,例如sdxl-train/checkpoint,获取方式选择环境变量,/home/ma-user/modelarts/outputs/output_0下的模型文件会保存到OBS中。
    图4 选择镜像
  • 资源池:选择专属资源池,规格选择Ascend: 8*ascend-snt9b。如果需要多机训练,增加计算节点个数即可,启动脚本文件diffusers_finetune_train.sh支持多机训练。
    图5 选择资源池规格
  • 作业日志路径:选择输出日志到OBS的指定目录。
    图6 选择作业日志路径

填写参数完成后,提交创建训练任务,训练完成后,作业状态会显示为已完成。

图7 训练完成
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_01200.html