搜索_华为云

数据管理权限 - AI开发平台ModelArts

ersion_id}/stop modelarts:processTask:updateProcessTask - √ √ 父主题：权限策略和授权项

 帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
日志提示“No space left on device” - AI开发平台ModelArts

错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到50G，只有默认的10GB，导致作业训练失败。实际存储空间足够，却依旧报错“No Space left on device”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到50GB，只有默认的10GB，导致作业训练失败。实际存储空间足够，却依旧报错“No Space left on device”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
infiniband驱动的安装 - AI开发平台ModelArts

如果安装了libibverbs-dev库后仍然无法使能infiniband网卡，您可以直接安装infiniband官方驱动，以使用infiniband网卡进行分布式通信，提升训练性能。infiniband驱动需要在制作镜像时安装。操作步骤下载MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
创建Standard专属资源池 - AI开发平台ModelArts

开启高可用冗余 - 开启高可用冗余：是否开启资源池的高可用冗余，超节点默认开启高可用冗余。冗余节点分布策略：冗余节点的分布策略，超节点仅支持step均分：每个超节点内预留相同数量的冗余节点。冗余实例数：此规格设置的高可用冗余实例数量。冗余系数指的是冗余节点分布策略为step均分时，每个超节点内预留的冗余节点数量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
如何在Notebook中上传下载OBS文件？ - AI开发平台ModelArts

使用OBS客户端上传文件的操作指导：上传文件方法一：在Notebook中通过Moxing上传下载OBS文件 MoXing是ModelArts自研的分布式训练加速框架，构建于开源的深度学习引擎TensorFlow、PyTorch等之上，使用MoXing API可让模型代码的编写更加简单、高效。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 文件上传下载
ModelArts中常用概念 - AI开发平台ModelArts

Cluster使用的都是专属资源池。 MoXing MoXing是ModelArts自研的组件，是一种轻型的分布式框架，构建于TensorFlow、PyTorch、MXNet、MindSpore等深度学习引擎之上，使得这些计算引擎分布式性能更高，同时易用性更好。MoXing包含很多组件，其中MoXing Fra

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

针对用户创建的Notebook计算实例，后台计算节点故障后会立即自动迁移到其他可用节点上，实例状态会自动恢复。针对数据存储部分，提供了云硬盘存储挂载方式，华为云云硬盘提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务，数据持久性高达99.9999999%。训练故障自动恢复用户在训练模型过程中，存在因

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
日志提示“no socket interface found” - AI开发平台ModelArts

日志提示“no socket interface found” 问题现象在pytorch镜像运行分布式作业时，设置NCCL日志级别，代码如下： import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误： job0879f61e-jo

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
什么是ModelArts - AI开发平台ModelArts

什么是ModelArts ModelArts是面向AI开发者的一站式开发平台，提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及模型按需部署能力，帮助用户快速创建和部署AI应用，管理全周期AI工作流。 “一站式”是指AI开发的各个环节，包括数据处理、算法开发、模

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

先将权限加入到“策略”当中，再把策略赋给用户组。为了方便用户的权限管理，各个云服务都提供了一些预置的“系统策略”供用户直接使用。如果预置的策略不能满足您的细粒度权限控制要求，则可以通过“自定义策略”来进行精细控制。表1列出了ModelArts的所有预置系统策略。表1 ModelArts系统策略

 帮助中心 > AI开发平台ModelArts > 产品介绍
什么是ModelArts - AI开发平台ModelArts

什么是ModelArts ModelArts是华为云提供的一站式AI开发平台，提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。 “一站式”是指AI开发的各个环节，包括数据处理、算法开

 帮助中心 > AI开发平台ModelArts > 产品介绍
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” 问题现象使用pytorch进行分布式训练时，日志中出现报错“RuntimeError: connect() timed out”。原因分析出现该问题的可能原因如下：如果在此之前是有进行数据复制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
管理训练容器环境变量 - AI开发平台ModelArts

管理训练容器环境变量什么是环境变量本章节展示了训练容器环境中预置的环境变量，方便用户查看，主要包括以下类型。路径相关环境变量分布式训练作业环境变量 NCCL（Nvidia Collective multi-GPU Communication Library）环境变量 OBS环境变量

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

产品优势 ModelArts服务具有以下产品优势。稳定安全的算力底座，极快至简的模型训练支持万节点计算集群管理大规模分布式训练能力，加速大模型研发提供高性价比国产算力多年软硬件经验沉淀，AI场景极致优化加速套件，训练、推理、数据访问多维度加速一站式端到端生产工具链，一致性开发体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

报错“BrokenPipeError: [Errno xx] Broken pipe”。原因分析出现该问题的可能原因如下：在大规模分布式作业上，每个节点都在复制同一个桶的文件，导致OBS桶限流。 OBS Client连接数过多，进程/线程之间的轮询，导致一个OBS Clie

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
计费说明 - AI开发平台ModelArts
计费说明 - AI开发平台ModelArts

计费说明 ModelArts是面向AI开发者的一站式开发平台，提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力，帮助用户快速创建和部署AI应用，管理全周期AI工作流。 ModelArts服务的计费方式简单、灵活，您既可以选择按实际使用

 帮助中心 > AI开发平台ModelArts > 产品介绍
Standard模型训练 - AI开发平台ModelArts

写入到SFS Turbo缓存中，并可被下游业务环节继续读取并处理，结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储，从而加速训练场景下加速OBS对象存储中的数据访问 ModelArts Standard模型训练提供便捷的作业管理能力，提升用户模型训练的开发效率

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
依赖和委托 - AI开发平台ModelArts

依赖和委托功能依赖功能依赖策略项您在使用ModelArts的过程中，需要和其他云服务交互，比如需要在提交训练作业时选择指定数据集OBS路径和日志存储OBS路径。因此管理员在为用户配置细粒度授权策略时，需要同时配置依赖的权限项，用户才能使用完整的功能。如果您使用根用户（与账

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
训练作业容错检查 - AI开发平台ModelArts

容错检查包括两个检查项：环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时，隔离故障硬件并重新下发训练作业。针对于分布式场景，容错检查会检查本次训练作业的全部计算节点。下图中有四个场景，其中场景四为正常训练作业失败场景，其他三个场景下可开启容错功能进行训练作业自动恢复。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性

总条数： 687

上一页
1
2
3
4
5
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

数据管理权限 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

如何在Notebook中上传下载OBS文件？ - AI开发平台ModelArts

ModelArts中常用概念 - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

计费说明 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线