正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“MA_NUM_HOSTS=4” VC_TASK_INDEX 当前容器索引,容器从0开始编号。单机训练的时候,该字段无意义。在多机作业中,用户可以根据这个值来确定当前容器运行的算法逻辑。 “VC_TASK_INDEX=0” VC_WORKER_NUM 训练作业使用的节点数量。 “VC_WORKER_NUM=4”
连接成功后,Cloud Shell界面提示如下。 图2 Cloud Shell界面 当作业处于非运行状态或权限不足时会导致无法使用Cloud Shell,请根据提示定位原因即可。 图3 报错提示 部分用户登录Cloud Shell界面时,可能会出现路径显示异常情况,此时在Cloud Shell中单击回车键即可恢复正常。
创建训练作业(预置框架) 参数名称 说明 创建方式 选择“自定义算法”。 启动方式 选择“预置框架”,引擎选择“PyTorch”,PyTorch版本根据训练要求选择。 代码目录 选择OBS桶中训练code文件夹所在路径,例如“obs://test-modelarts/code/”。 启动文件
Start model import. - 异常 构建镜像失败。 Failed to build the image. 构建镜像失败原因较多,需根据具体的报错定位和处理问题。FAQ 异常 自定义镜像不支持指定依赖。 Customize model does not support dependencies
0.0.1。 docker build -t koyha_ss-train:0.0.1 . Step4 启动镜像 启动容器镜像。启动前可以根据实际需要增加修改参数,Lora微调启动单卡,finetune微调启动八卡。 docker run -itd --name sdxl-train
Start model import. - 异常 构建镜像失败。 Failed to build the image. 构建镜像失败原因较多,需根据具体的报错定位和处理问题。FAQ 异常 自定义镜像不支持指定依赖。 Customize model does not support dependencies
[00:00<?, ?B/s] /test/ur5468675--test_cli_model1/config.json 下载多个文件 根据文件名下载文件 在服务器执行如下命令,将待下载的文件名枚举出来即可从AI Gallery仓库依次下载多个文件到云服务器的缓存目录下。 gallery-cli
0.0.1。 docker build -t koyha_ss-train:0.0.1 . Step4 启动镜像 启动容器镜像。启动前可以根据实际需要增加修改参数,Lora微调启动单卡,finetune微调启动八卡。 docker run -itd --name sdxl-train
torch.save(state_dict, path) 保存整个Model(不推荐) torch.save(model, path) 可根据step步数、时间等周期性保存模型的训练过程的产物。 将模型训练过程中的网络权重、优化器权重、以及epoch进行保存,便于中断后继续训练恢复。
failed_reasons Object 创建、启动失败原因,如表22所示。 annotations Map<String,String> 注解信息。 其中,生成的url信息,不可直接访问使用。 extend_params Map<String,String> 扩展参数。 表12 storage定义数据结构说明
benchmark_utils.py # 抽离的工具集 ├── generate_datasets.py # 生成自定义数据集的脚本 ├── requirements.txt # 第三方依赖 ├──benchmark_eval
torch.save(state_dict, path) 保存整个Model(不推荐) torch.save(model, path) 可根据step步数、时间等周期性保存模型的训练过程的产物。 将模型训练过程中的网络权重、优化器权重、以及epoch进行保存,便于中断后继续训练恢复。
{image_url}获取请参见表1。 docker pull {image_url} Step3 启动容器镜像 启动容器镜像,启动前可以根据实际需要增加修改参数。 docker run -itd --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci1
ECS获取和上传基础镜像 创建ECS。 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。
001,20:0.0001代表0-10个epoch学习率0.001,10-20epoch学习率0.0001),如果不指定epoch, 会根据验证精度情况自动调整学习率,并当精度没有明显提升时,训练停止")), wf.AlgorithmParameters(name="batch_size"
url}参见获取软件和镜像。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。训练默认使用单机8卡。 docker run -itd --net=host \ --device=/dev/davinci0
url}参见获取软件和镜像。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。 docker run -it --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci1
自动停止参数,如表10 auto_stop字段数据结构说明所示。 annotations Map<String,String> 注解信息。 其中,生成的url信息,不可直接访问使用。 failed_reasons Object 创建、启动失败失败原因,如表16所示。 extend_params
7-aarch64-snt3p Ascend snt3p Notebook、训练、推理部署 华北-北京四 开发环境Notebook 开发环境的Notebook,根据不同的工作环境,对应支持的镜像和版本有所不同。 表3 新版Notebook支持的镜像 镜像名称 镜像描述 适配芯片 支持SSH远程开发访问
mage_url}参考表2。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。 export work_dir="自定义挂载的工作目录" export container_work_dir="自定义挂载到容器内的工作目录"