AI开发平台MODELARTS-示例:创建DDP分布式训练(PyTorch+GPU):创建训练作业
创建训练作业
- 方式一:使用PyTorch预置框架功能,通过mp.spawn命令启动训练作业。
创建训练作业的关键参数如表1所示。
表1 创建训练作业(预置框架) 参数名称
说明
创建方式
选择“自定义算法”。
启动方式
选择“预置框架”,引擎选择“PyTorch”,PyTorch版本根据训练要求选择。
代码目录
选择OBS桶中训练code文件夹所在路径,例如“obs://test-modelarts/code/”。
启动文件
选择代码目录中训练作业的Python启动脚本。例如“obs://test-modelarts/code/main.py”。
超参
当资源规格为单机多卡时,需要指定超参world_size和rank。
当资源规格为多机时(即计算节点个数大于 1),无需设置超参world_size和rank,超参会由平台自动注入。
- 方式二:使用 自定义镜像 功能,通过torch.distributed.launch命令启动训练作业。
创建训练作业的关键参数如表2所示。
- 方式三:使用自定义镜像功能,通过torch.distributed.run命令启动训练作业。
创建训练作业的关键参数如表3所示。
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts分布式训练_分布式训练介绍_分布式调测
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts模型训练_超参搜索简介_超参搜索算法
- ModelArts自定义镜像_自定义镜像简介_如何使用自定义镜像
- 分布式云原生集合示例_华为云分布式云原生_华为云UCS集合示例
- 华为云ModelArts_ModelArts开发_AI全流程开发
- ModelArts推理部署_模型_AI应用来源-华为云
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云