搜索_华为云

分布式模型训练 - AI开发平台ModelArts

分布式模型训练分布式训练功能介绍创建单机多卡的分布式训练（DataParallel）创建多机多卡的分布式训练（DistributedDataParallel）示例：创建DDP分布式训练（PyTorch+GPU）示例：创建DDP分布式训练（PyTorch+NPU）父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
分布式训练功能介绍 - AI开发平台ModelArts

相关章节创建单机多卡的分布式训练（DataParallel）：介绍单机多卡数据并行分布式训练原理和代码改造点。创建多机多卡的分布式训练（DistributedDataParallel）：介绍多机多卡数据并行分布式训练原理和代码改造点。示例：创建DDP分布式训练（PyTorch+

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

相应目录没有生成大小>0的日志文件，则对应的父级目录也不会上传。因此，PyTorch NPU的plog日志是按worker存储的，而不是按rank id存储的（这是区别于MindSpore的）。目前，PyTorch NPU并不依赖rank table file。 #!/bin/bash

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” 问题现象多机或多卡使用“tf.variable”会造成以下错误： WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:0

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel）本章节介绍基于PyTorch引擎的单机多卡数据并行训练。 MindSpore引擎的分布式训练参见MindSpore官网。训练流程简述单机多卡数据并行训练流程介绍如下：将模型复制到多个GPU上将一个Batch的数据均分到每一个GPU上

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU）本文介绍三种使用训练作业来启动PyTorch DDP训练的方法及对应代码示例。使用PyTorch预置框架功能，通过mp.spawn命令启动使用自定义镜像功能通过torch.distributed.launch命令启动通过torch

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

任务，给出了单机训练和分布式训练改造(DDP)的代码。直接执行代码为多节点分布式训练且支持CPU分布式和GPU分布式，将代码中的分布式改造点注释掉后即可进行单节点单卡训练。训练代码中包含三部分入参，分别为训练基础参数、分布式参数和数据相关参数。其中分布式参数由平台自动入参，无需

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
策略及授权项说明 - AI开发平台ModelArts

用户被授予的策略中必须包含允许“modelarts:notebook:create”的授权项，该接口才能调用成功。支持的授权项策略包含系统策略和自定义策略，如果系统策略不满足授权要求，管理员可以创建自定义策略，并通过给用户组授予自定义策略来进行精细的访问控制。策略支持的操作与API相对应，授权项列表说明如下：

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

train_instance_count：必选参数，训练使用的worker个数，分布式调测时为2，训练开始时SDK还会再创建一个Notebook，与当前的Notebook组成一个2节点的分布式调试环境。 script_interpreter：可选参数，指定使用哪个python

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

在ModelArts创建分布式训练时如何设置NCCL环境变量？ ModelArts训练平台预置了部分NCCL环境变量，如表1所示。这些环境变量建议保持默认值。表1 预置的环境变量环境变量说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ - AI开发平台ModelArts

如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ ModelArts会帮用户生成RANK_TABLE_FILE文件，可通过环境变量查看文件位置。在Notebook中打开terminal，可以运行如下命令查看RANK_TABLE_FILE： 1 env

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
权限策略和授权项 - AI开发平台ModelArts

权限策略和授权项策略及授权项说明数据管理权限开发环境权限训练作业权限模型管理权限服务管理权限工作空间管理权限 DevServer权限

 帮助中心 > AI开发平台ModelArts > API参考
开发环境权限 - AI开发平台ModelArts

modelarts:image:create - √ √ 获取开发环境挂载的存储列表 GET /v1/{project_id}/notebooks/{id}/storage modelarts:notebook:listMountedStorages - √ √ 挂载开发环境存储 POST /v1/{project_

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务场景描述本案例介绍如何在Snt9B上进行分布式训练任务，其中Cluster资源池已经默认安装volcano调度器，训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型，详细代码和指导可参考Bert。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
训练作业权限 - AI开发平台ModelArts

/v2/{project_id}/algorithms/{algorithm_id} modelarts:aiAlgorithm:get - √ √ 父主题：权限策略和授权项

 帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
DevServer权限 - AI开发平台ModelArts

/v1/{project_id}/dev-servers/sync modelarts:devserver:sync - √ × 父主题：权限策略和授权项

 帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
模型管理权限 - AI开发平台ModelArts

GET /v1/{project_id}/models/{model_id} modelarts:model:get - √ √ 父主题：权限策略和授权项

 帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
服务管理权限 - AI开发平台ModelArts

/v1/{project_id}/services/{service_id}/events modelarts:service:getEvents - √ √ 父主题：权限策略和授权项

 帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
工作空间管理权限 - AI开发平台ModelArts

/{workspace_id}/quotas modelarts:workspace:updateQuotas - √ √ 父主题：权限策略和授权项

 帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项

总条数： 687

上一页
1
2
3
4
5
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

分布式模型训练 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

策略及授权项说明 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

权限策略和授权项 - AI开发平台ModelArts

开发环境权限 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

训练作业权限 - AI开发平台ModelArts

DevServer权限 - AI开发平台ModelArts

模型管理权限 - AI开发平台ModelArts

服务管理权限 - AI开发平台ModelArts

工作空间管理权限 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线