AI开发平台MODELARTS-示例:创建DDP分布式训练(PyTorch+NPU):创建训练作业

时间:2024-08-16 20:38:59

创建训练作业

本案例创建训练作业时,需要配置如下参数。

表1 创建训练作业的配置说明

参数名称

说明

“创建方式”

选择“自定义算法”

“启动方式”

选择“自定义”

“镜像”

选择用于训练的 自定义镜像

“代码目录”

执行本次训练作业所需的代码目录。本文示例的代码目录为“obs://test-modelarts/ascend/code/”。

“启动命令”

镜像的Python启动命令。本文示例的启动命令为“bash ${MA_JOB_DIR}/code/run_torch_ddp_npu.sh”。其中,启动脚本的完整代码请参见代码示例

support.huaweicloud.com/usermanual-standard-modelarts/modelarts-distributed-0012.html