搜索_华为云

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

[Errno xx] Broken pipe”。原因分析出现该问题的可能原因如下：在大规模分布式作业上，每个节点都在复制同一个桶的文件，导致OBS桶限流。 OBS Client连接数过多，进程/线程之间的轮询，导致一个OBS Client与服务端连接30S内无响应，超过超时时间，服务端断开了连接。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

以下对resnet18在cifar10数据集上的分类任务，给出了单机训练和分布式训练改造(DDP)的代码。直接执行代码为多节点分布式训练且支持CPU分布式和GPU分布式，将代码中的分布式改造点注释掉后即可进行单节点单卡训练。训练代码中包含三部分入参，分别为训练基础参数、分布式参数和数据相关参数。其中分布式参数由平台

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
分布式训练功能介绍 - AI开发平台ModelArts

分布式训练功能介绍 ModelArts提供了如下能力：丰富的官方预置镜像，满足用户的需求。支持基于预置镜像自定义制作专属开发环境，并保存使用。丰富的教程，帮助用户快速适配分布式训练，使用分布式训练极大减少训练时间。分布式训练调测的能力，可在PyCharm/VSCode/J

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
infiniband驱动的安装 - AI开发平台ModelArts

0-ubuntu16.04-x86_64.tgz。宿主机安装的infiniband驱动版本为4.3-1.0.1.0，容器镜像中安装的infiniband驱动版本需要与宿主机版本匹配，即同为4.3-1.0.1.0。可能部分区域的网卡较新，会出现更高版本的infiniband驱动版本，如果您遇到了i

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
迁移过程使用工具概览 - AI开发平台ModelArts

型输出进行可对比的误差分析（精度）。模型自动调优工具 AOE（Ascend Optimization Engine）是一个昇腾设备上模型运行自动调优工具，作用是充分利用有限的硬件资源，以满足算子和整网的性能要求。在推理场景下使用，可以对于模型的图和算子运行内置的知识库进行自动优化，以提升模型的运行效率。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
存储相关 - AI开发平台ModelArts
存储相关 - AI开发平台ModelArts

存储相关在ModelArts中如何查看OBS目录下的所有文件？

帮助中心 > AI开发平台ModelArts > 常见问题
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

variable is used in loss computation. 原因分析分布式Tensorflow不能使用“tf.variable”要使用“tf.get_variable”。处理方法请您将“启动文件”中的“tf.variable”替换为“tf.get_variable”。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Standard模型训练 - AI开发平台ModelArts

要长时间训练的模型的稳定性和可靠性，避免重头训练耗费的时间与计算成本支持训练数据使用SFS Turbo文件系统进行数据挂载，训练作业产生的中间和结果等数据可以直接高速写入到SFS Turbo缓存中，并可被下游业务环节继续读取并处理，结果数据可以异步方式导出到关联的OBS对象存储

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业代码中涉及到的OBS路径，请用户替换为自己的实际OBS路径。代码是以PyTorch为例编写的，不同的AI框架之间，整体流程是完全相同的，仅需修改7和11中的 framework_type参数值即可，例如：MindSpore框架，此处framew

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

由于ModelArts本身没有数据存储的功能，ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。 AI开发过程中的输入数据、输出数据、中间缓存数据都可以在OBS桶中进行存储、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作
创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel）本章节介绍基于PyTorch引擎的单机多卡数据并行训练。 MindSpore引擎的分布式训练参见MindSpore官网。训练流程简述单机多卡数据并行训练流程介绍如下：将模型复制到多个GPU上将一个Batch的数据均分到每一个GPU上

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU）本文介绍三种使用训练作业来启动PyTorch DDP训练的方法及对应代码示例。使用PyTorch预置框架功能，通过mp.spawn命令启动使用自定义镜像功能通过torch.distributed.launch命令启动通过torch

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
分布式模型训练 - AI开发平台ModelArts

分布式模型训练分布式训练功能介绍创建单机多卡的分布式训练（DataParallel）创建多机多卡的分布式训练（DistributedDataParallel）示例：创建DDP分布式训练（PyTorch+GPU）示例：创建DDP分布式训练（PyTorch+NPU）父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
ModelArts中常用概念 - AI开发平台ModelArts

Server和ModelArts Lite Cluster使用的都是专属资源池。 MoXing MoXing是ModelArts自研的组件，是一种轻型的分布式框架，构建于TensorFlow、PyTorch、MXNet、MindSpore等深度学习引擎之上，使得这些计算引擎分布式性能更高，同时易用性更好。MoXing包含很多组件，其中MoXing

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
配置Lite Cluster存储 - AI开发平台ModelArts

说明，了解节点数据盘空间分配的情况，以便您根据业务实际情况配置数据盘大小。表1 容器挂载存储的方式及差异容器挂载存储的方式使用场景特点挂载操作参考 EmptyDir 适用于训练缓存场景。 Kubernetes的临时存储卷，临时卷会遵从Pod的生命周期，与Pod一起创建和删除。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

原因分析因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。解决方法对于GP Vnt1的显卡，GPU算力为-gencode arch=compute_70,code=[sm_70,compute_70]，设置setup.py中的编译参数即可解决。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
推理专属预置镜像列表 - AI开发平台ModelArts

推理专属预置镜像列表 ModelArts的推理平台提供了一系列的基础镜像，用户可以基于这些基础镜像构建自定义镜像，用于部署推理服务。 X86架构（CPU/GPU）的推理基础镜像表1 TensorFlow AI引擎版本支持的运行环境镜像名称 URI 2.1.0 CPU GPU(cuda10

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

log”文件将会被自动上传至ModelArts训练作业的日志目录（OBS）。如果本地相应目录没有生成大小>0的日志文件，则对应的父级目录也不会上传。因此，PyTorch NPU的plog日志是按worker存储的，而不是按rank id存储的（这是区别于MindSpore的）。目前，PyTorch NPU并不依赖rank

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关闭ext4文件系统的dir_index属性，具体可参考：https://access

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示“No space left on device” - AI开发平台ModelArts

line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关闭ext4文件系统的dir_index属性，具体可参考：https://access

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障

总条数： 2304

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

存储相关 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

分布式模型训练 - AI开发平台ModelArts

ModelArts中常用概念 - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

推理专属预置镜像列表 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线