搜索_华为云

分布式模型训练 - AI开发平台ModelArts

分布式模型训练分布式训练功能介绍创建单机多卡的分布式训练（DataParallel）创建多机多卡的分布式训练（DistributedDataParallel）示例：创建DDP分布式训练（PyTorch+GPU）示例：创建DDP分布式训练（PyTorch+NPU）父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
分布式训练功能介绍 - AI开发平台ModelArts

相关章节创建单机多卡的分布式训练（DataParallel）：介绍单机多卡数据并行分布式训练原理和代码改造点。创建多机多卡的分布式训练（DistributedDataParallel）：介绍多机多卡数据并行分布式训练原理和代码改造点。示例：创建DDP分布式训练（PyTorch+

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” 问题现象多机或多卡使用“tf.variable”会造成以下错误： WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:0

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel）本章节介绍基于PyTorch引擎的单机多卡数据并行训练。 MindSpore引擎的分布式训练参见MindSpore官网。训练流程简述单机多卡数据并行训练流程介绍如下：将模型复制到多个GPU上将一个Batch的数据均分到每一个GPU上

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU）本文介绍三种使用训练作业来启动PyTorch DDP训练的方法及对应代码示例。使用PyTorch预置框架功能，通过mp.spawn命令启动使用自定义镜像功能通过torch.distributed.launch命令启动通过torch

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU）本文介绍了使用训练作业的自定义镜像+自定义启动命令来启动PyTorch DDP on Ascend加速卡训练。前提条件需要有Ascend加速卡资源池。创建训练作业本案例创建训练作业时，需要配置如下参数。表1 创建训练作业的配置说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
系统容器异常退出 - AI开发平台ModelArts

系统容器异常退出问题现象在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

任务，给出了单机训练和分布式训练改造(DDP)的代码。直接执行代码为多节点分布式训练且支持CPU分布式和GPU分布式，将代码中的分布式改造点注释掉后即可进行单节点单卡训练。训练代码中包含三部分入参，分别为训练基础参数、分布式参数和数据相关参数。其中分布式参数由平台自动入参，无需

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

code_dir = os.path.join(base_local_path, "train/") # 这里提前将训练脚本放在了obs中，实际上训练脚本可以是任何来源，只要能够放到Notebook里边就行 session.obs.download_file(os.path.join(base_bucket_path

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

NCCL_IB_GID_INDEX 系统设置的默认值为3，表示使用RoCE v2协议。 NCCL_IB_TC 系统设置的默认值为128，表示数据包走交换机的队列4，队列4使用PFC流控机制来保证网络是无损的。如果训练时，需要提升通信稳定性，可以增加配置其他NCCL环境变量，如表2所示。表2 建议增加的环境变量

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ - AI开发平台ModelArts

如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ ModelArts会帮用户生成RANK_TABLE_FILE文件，可通过环境变量查看文件位置。在Notebook中打开terminal，可以运行如下命令查看RANK_TABLE_FILE： 1 env

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
动态挂载OBS并行文件系统 - AI开发平台ModelArts

动态挂载OBS并行文件系统什么是动态挂载OBS并行文件系统并行文件系统（Parallel File System）是对象存储服务（Object Storage Service，OBS）提供的一种经过优化的高性能文件系统，详细介绍可以参见并行文件系统。在ModelArts运行

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
切换Lite Server服务器操作系统 - AI开发平台ModelArts

Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统使用Python封装API的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务场景描述本案例介绍如何在Snt9B上进行分布式训练任务，其中Cluster资源池已经默认安装volcano调度器，训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型，详细代码和指导可参考Bert。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
设置训练故障优雅退出 - AI开发平台ModelArts

设置训练故障优雅退出使用场景随着模型规模和数据集的急剧增长，需要利用大规模的训练集训练大规模的神经网络。在大规模集群分布式训练时，会遇到集群中某个芯片、某台服务器故障，导致分布式训练任务失败。优雅退出是指中断的训练任务支持自动恢复，并可以在上一次训练中断的基础上继续训练，而不用从头开始。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
不启用自动停止，系统会自动停掉Notebook实例吗？会删除Notebook实例吗？ - AI开发平台ModelArts

不启用自动停止，系统会自动停掉Notebook实例吗？会删除Notebook实例吗？针对此问题，需要根据选择的不同资源规格进行说明。如果使用免费规格，Notebook实例将在运行1小时后，自动停止。如果72小时内没有再次启动，会释放资源，即删除此Notebook实例。因此使用

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
如何解决“在IOS系统里打开ModelArts的Notebook，字体显示异常”的问题？ - AI开发平台ModelArts

如何解决“在IOS系统里打开ModelArts的Notebook，字体显示异常”的问题？问题现象在IOS系统里打开ModelArts的Notebook时，字体显示异常。解决方法设置Terminal的“fontFamily”为“Menlo”。操作步骤登录ModelArt

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 环境配置相关
训练专属资源池如何与SFS弹性文件系统配置对等链接？ - AI开发平台ModelArts

训练专属资源池如何与SFS弹性文件系统配置对等链接？配置训练专属资源池与SFS弹性文件系统的对等链接，需要资源池打通VPC，使得资源池与SFS弹性文件系统所配置的VPC相同。配置完成后，在创建训练作业时，就可以看到SFS的配置选项。打通VPC步骤请参考打通VPC。父主题： Standard资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池
infiniband驱动的安装 - AI开发平台ModelArts

进入地址，单击“Download”，选择“Archive Versions”，“Version”选择“4.3-1.0.1.0”，“OS Distribution”选择“Ubuntu”，“OS Distribution Version”选择“Ubuntu 16.04”，“Architecture”选择

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ

总条数： 674

上一页
1
2
3
4
5
...
34
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

分布式模型训练 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

系统容器异常退出 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ - AI开发平台ModelArts

动态挂载OBS并行文件系统 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

设置训练故障优雅退出 - AI开发平台ModelArts

不启用自动停止，系统会自动停掉Notebook实例吗？会删除Notebook实例吗？ - AI开发平台ModelArts

如何解决“在IOS系统里打开ModelArts的Notebook，字体显示异常”的问题？ - AI开发平台ModelArts

训练专属资源池如何与SFS弹性文件系统配置对等链接？ - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线