检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在ModelArts中创建训练作业如:预训练,执行代码包中例如:scripts/llama2/0_pl_pretrain_13b.sh 的脚本,开始训练。
在ModelArts中创建训练作业如:预训练,执行代码包中例如:scripts/llama2/0_pl_pretrain_13b.sh 的脚本,开始训练。
如果训练启动脚本用的是py文件,例如“train.py”,则启动命令如下所示。 python ${MA_JOB_DIR}/demo-code/train.py 如果训练启动脚本用的是sh文件,例如“main.sh”,则启动命令如下所示。
图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh .
图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh .
图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh .
&& ln -s /bin/bash /bin/sh 查看创建的用户,执行以下命令: id ma-user 如果出现以下信息则表示创建成功。
默认启动命令:sh /home/mind/run.sh MindSpore aarch64(推荐) aarch64只能用于运行在Snt3芯片上。 默认启动命令:sh /home/mind/run.sh 父主题: 一般性问题
针对用户自己编写训练脚本或自定义镜像方式创建的训练作业,则需要在您的训练代码中添加评估代码,才可以在训练作业结束后查看相应的评估诊断建议。 只支持验证集的数据格式为图片。 目前,仅如下常用框架的训练脚本支持添加评估代码。
命令如下: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh .
使用如下命令登录huggingface,并输入个人账号的token: huggingface-cli login 执行如下命令运行推理脚本启动SD3服务: #配置环境变量 export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
ma-pre-start脚本在与训练启动文件同级的目录下放置,命名为ma-pre-start.sh or ma-pre-start.py脚本。
tools/run.sh 资源池:在“专属资源池”页签选择GPU规格的专属资源池。
例如run.sh如下所示: #!
随后在Notebook环境中,通过运行scripts/install.sh文件会安装必要的依赖包以及下载Megatron-LM、MindSpeed、ModelLink源码。若Notebook环境挂载了SFS Turbo,则源码文件会下载至SFS Turbo中。
图16 目录结构 运行prepare.sh脚本。 bash prepare.sh 之后,会在当前目录下产生两个新文件attention_processor.py和transformer_flux.py,使用这两个新文件覆盖diffusers安装路径下的源码文件。
命令启动训练脚本。 例如:训练65帧的视频,拼接4张图片,则执行如下命令: bash train_videoae_65x512x512.sh 正常训练过程如下图所示。训练完成后,关注loss值,loss曲线收敛,记录总耗时和单步耗时。
预置脚本测试整体流程 一般使用run.sh封装训练外的文件复制工作(数据、代码:OBS-->容器,输出结果:容器-->OBS),run.sh的构建方法参考基于ModelArts Standard运行GPU训练作业。
处理方法 请参见运行bash ds_train_finetune.sh报错。 父主题: 常见问题
脚本制作推理镜像。