搜索_华为云

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

Standard上运行GPU多机多卡训练作业操作流程准备工作：购买服务资源（VPC/SFS/OBS/SWR/ECS）配置权限创建专属资源池（打通VPC） ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS命令行工具（可选）工作空间配置模型训练：

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

VPC”，检查是否开启了NAS VPC。详情页面的“NAS VPC名称”和“NAS 子网ID”如果为空则证明没有开启，单击右上角配置NAS VPC即可。如果单击开启后报错，可能是由于对应的VPC已经创建了对等连接，删除对等连接即可。父主题：专属资源池创建训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接？ - AI开发平台ModelArts

配置训练专属资源池与SFS弹性文件系统的对等链接，需要资源池打通VPC，使得资源池与SFS弹性文件系统所配置的VPC相同。配置完成后，在创建训练作业时，就可以看到SFS的配置选项。打通VPC步骤请参考打通VPC。父主题： Standard专属资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
ModelArts CLI命令功能介绍 - AI开发平台ModelArts

ModelArts CLI命令功能介绍功能介绍 ModelArts CLI，即ModelArts命令行工具，是一个跨平台命令行工具，用于连接ModelArts服务并在ModelArts资源上执行管理命令。用户可以使用交互式命令行提示符或脚本通过终端执行命令。为了方便理解，下面将ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
MoXing Framework功能介绍 - AI开发平台ModelArts

MoXing Framework功能介绍 MoXing Framework模块为MoXing提供基础公共组件，例如访问华为云的OBS服务，和具体的AI引擎解耦，在ModelArts支持的所有AI引擎(TensorFlow、MXNet、PyTorch、MindSpore等)下均可以使用。目前，提供的MoXing

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
Standard资源池功能介绍 - AI开发平台ModelArts

是不会排队的；而公共资源池使用共享资源，在任何时候都有可能排队。专属资源池支持打通用户的网络，在该专属资源池中运行的作业可以访问打通网络中的存储和资源。例如，在创建训练作业时选择打通了网络的专属资源池，训练作业创建成功后，支持在训练时访问SFS中的数据。专属资源池支持自定义物

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
更新网络资源 - AI开发平台ModelArts

资源类型。可选值如下： Network：网络 metadata NeworkMetadata object 网络资源的metadata信息。 spec NetworkSpec object 网络资源的描述信息。 status NetworkStatus object 网络资源的状态信息。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
创建资源池失败 - AI开发平台ModelArts

创建资源池失败资源配额限制在使用专属资源池时（如资源扩缩容、创建VPC、创建VPC-子网、打通VPC），如果提示相关资源配额受限，请提交工单处理。创建失败/变更失败登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群 Cluster”，进入“弹性集群

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
JupyterLab常用功能介绍 - AI开发平台ModelArts

code”、“Hide form”和“show all”四个按钮，下文介绍这四个选项的功能。表5 “Edit Form”子选项介绍 “Edit Form”子选项功能说明 Add new form field 支持新增“dropdown”、“input”和“slider”类型的表单。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
依赖和委托 - AI开发平台ModelArts

vpc:peerings:get vpc:peerings:delete vpc:routeTables:update vpc:routeTables:get vpc:routeTables:list vpc:vpcs:create vpc:vpcs:list vpc:vpcs:get vpc:vpcs:delete

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
创建Standard专属资源池 - AI开发平台ModelArts

用率。在“网络”页签，单击网络列表中某个网络操作列的“打通VPC”。图3 打通VPC 在打通VPC弹框中，打开“打通VPC”开关，在下拉框中选择可用的VPC和子网。需要打通的对端网络不能和当前网段重叠。图4 打通VPC参数选择如果没有VPC可选，可以单击右侧的“创建虚拟

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
Lite Cluster&Server介绍 - AI开发平台ModelArts

Server提供不同型号的xPU裸金属服务器，您可以通过弹性公网IP进行访问，在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件，使用SFS或OBS进行数据存储和读取相关的操作，满足算法工程师进行日常训练的需要。请参见弹性裸金属Lite Server。 ModelArts Lite

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
分布式训练功能介绍 - AI开发平台ModelArts

总览页面打开的CodeLab不支持此项功能，但是如果用户在AI Hub中打开了可用的案例，会自动跳转到CodeLab中，此时是可以使用这项功能的。如果切换了Notebook的规格，那么只能在Notebook进行单机调测，不能进行分布式调测，也不能提交远程训练作业。当前仅支持PyTorch和MindSpore

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

Standard上运行GPU单机单卡训练作业操作流程准备工作购买服务资源（OBS和SWR）配置权限创建专属资源池（不需要打通VPC）安装和配置OBS命令行工具（可选）工作空间配置模型训练本地构建镜像及调试上传镜像上传数据和算法到OBS 使用Notebook进行代码调试创建单机单卡训练作业

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

Turbo网段不能与172网段重叠，否则会和容器网络发生冲突，因为容器网络使用的是172网段。如果不满足条件，则修改SFS Turbo的VPC网段，推荐网段为10.X.X.X。具体操作请参见修改虚拟私有云网段。如果满足条件，则继续下一步。查看SFS Turbo的VPC网段的安全组是否被限制了。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

数据及算法已经上传至OBS，如果未上传，请参考上传数据和算法至OBS（首次使用时需要）。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。操作步骤在ECS服务器中设置华为云镜像源。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

在打通VPC弹框中，打开“打通VPC”开关，在下拉框中选择可用的VPC和子网。需要打通的对端网络不能和当前网段重叠。图2 打通VPC参数选择如果没有VPC可选，可以单击右侧的“创建虚拟私有云”，跳转到网络控制台，申请创建虚拟私有云。如果没有子网可选，可以单击右侧的“创建子网”，跳转到网络控制台，创建可用的子网。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告华为云计划于2024/12/06 00:00（北京时间）将AI开发平台ModelArts自动学习模块的文本分类功能正式下线。下线范围下线Region：华为云全部Region。下线影响 ModelArts

帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
场景描述 - AI开发平台ModelArts
场景描述 - AI开发平台ModelArts

Arts的在线服务和对应模型负载运行状态的整体情况，并设置监控告警。 CES FullAccess 可选 SMN消息服务授予子账号使用SMN消息服务的权限。SMN消息通知服务配合CES监控告警功能一起使用。 SMN FullAccess 可选 VPC虚拟私有云子账号在创建Mo

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限

总条数： 1928

上一页
1
2
3
4
5
...
97
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接？ - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

ModelArts CLI命令功能介绍 - AI开发平台ModelArts

MoXing Framework功能介绍 - AI开发平台ModelArts

Standard资源池功能介绍 - AI开发平台ModelArts

更新网络资源 - AI开发平台ModelArts

创建资源池失败 - AI开发平台ModelArts

JupyterLab常用功能介绍 - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

【下线公告】华为云ModelArts自动学习模块的文本分类功能下线公告 - AI开发平台ModelArts

场景描述 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线