搜索_华为云

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

选择代码目录中训练作业的Python启动脚本。例如“obs://test-modelarts/code/main.py”。超参当资源规格为单机多卡时，需要指定超参world_size和rank。当资源规格为多机时（即实例数大于 1），无需设置超参world_size和rank，超参会由平台自动注入。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
查看训练作业资源占用情况 - AI开发平台ModelArts

如何判断训练作业资源利用率高低在模型训练的训练作业列表页可以查看作业资源利用率情况。当作业worker-0实例的GPU/NPU的平均利用率低于50%时，在训练作业列表中会进行告警提示。图2 作业列表显示作业资源利用率情况此处的作业资源利用率只涉及GPU和NPU资源。作业worker-0实例的GPU/NP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

Python和pip的安装路径，具体步骤如下。pip的安装路径一般为Python所在目录的Scripts文件夹。快捷键“win+R”，在“运行”窗口中输入“sysdm.cpl”，单击“确定”。在“系统属性”中切换到“高级”页签，单击“环境变量”。在“环境变量”的“用户变量”

帮助中心 > AI开发平台ModelArts > SDK参考
资源池监控 - AI开发平台ModelArts

参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 系统生成的资源池名称。表2 Query参数参数是否必选参数类型描述 time_range 否 String 查询时间范围，默认值“-1

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
Notebook Cache盘告警上报 - AI开发平台ModelArts

境丢失，造成很不好的使用体验。因此需要提供cache盘使用情况的监控和告警，并将数据上报至AOM平台。配置流程填写告警基本信息设置告警规则监控对象指标配置告警触发条件设置告警通知设置创建主题、设置主题策略、订阅主题创建告警行动规则选择已创建的行动规则告警上报配置方法

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
更新资源池 - AI开发平台ModelArts

Integer 资源规格的弹性使用量，物理池该值和count相同。 azs Array of azs objects 资源所在的AZ的数量。 nodePool String 节点池名称。比如：nodePool-1。表24 azs 参数参数类型描述 az String AZ的名称。 count

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

一个预训练的文本到图像模型CogView2，还提出了多帧速率分层训练策略，以更好地对齐文本和视频剪辑。作为一个开源的大规模预训练文本到视频模型，CogVideo性能优于所有公开可用的模型，在机器和人类评估方面都有很大的优势。方案概览本方案介绍了在ModelArts的Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
PD分离部署使用说明 - AI开发平台ModelArts

no_proxy：可选，避免scheduler实例和P、D实例之间访问时走不必要的网关。其中常见的参数如下， --host：服务部署的IP --port：服务部署的端口，注意如果不同实例部署在一台机器上，不同实例需要使用不同端口号。分离部署对外服务使用的是scheduler实例端口，在后续推理性能测试和精度测试时，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 分离部署
PD分离部署使用说明 - AI开发平台ModelArts

no_proxy：可选，避免scheduler实例和P、D实例之间访问时走不必要的网关。其中常见的参数如下， --host：服务部署的IP --port：服务部署的端口，注意如果不同实例部署在一台机器上，不同实例需要使用不同端口号。分离部署对外服务使用的是scheduler实例端口，在后续推理性能测试和精度测试时，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 分离部署
查询服务详情 - AI开发平台ModelArts

必须大于0，不配置默认值为1。当小于1时，代表滚动升级时增加的实例数的百分比；当大于1时，代表滚动升级时最大扩容的实例数。 max_unavailable Float 必须大于0，不配置默认值为0。当小于1时，代表滚动升级时允许缩容的实例数的百分比；当大于1时，代表滚动升级时允许缩容的实例数。 terminati

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

在OBS服务中创建桶和文件夹，用于存放样例数据集以及训练代码。需要创建的文件夹列表如表1所示，示例中的桶名称“test-modelarts”和文件夹名称均为举例，请替换为用户自定义的名称。创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。请确保您使用的OBS与ModelArts在同一区域。表1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
查询节点列表 - AI开发平台ModelArts

nvidia.com/gpu String GPU节点的GPU资源量。 huawei.com/ascend-snt3 String 昇腾节点的NPU资源量。 huawei.com/ascend-snt9 String 昇腾节点的NPU资源量。状态码：404 表13 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
部署图像分类服务 - AI开发平台ModelArts

时后”、“自定义”。如果选择“自定义”的模式，可在右侧输入框中输入1~24范围内的任意整数。如果您购买了套餐包，计算节点规格可选择您的套餐包，同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式，请您务必关注，避免造成不必要的资源浪费。完成资源配置后，单击“继续

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
在MaaS中创建模型 - AI开发平台ModelArts

MaaS提供了基于昇腾云算力适配的开源大模型，您可以使用这些基础模型，结合自定义的模型权重文件，创建个人专属的模型。创建成功的模型可以在ModelArts Studio大模型即服务平台进行调优、压缩、推理等操作。约束限制用于生成专属模型的模型权重文件需要满足Hugging Face上的对应模型的文件格式要求。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
查询工作空间列表 - AI开发平台ModelArts

String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 offset 否 Integer 分页列表的起始页，默认为'0'。 limit 否 Integer 指定每一页返回的最大条目数，默认为'1000'。 sort_by 否

 帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

排序方式，ASC升序，DESC降序。 sort_key 否 String 排序的字段，多个字段使用(“,”)逗号分割。 offset 否 Integer 分页记录的起始位置偏移量。 limit 否 Integer 每一页的数量。请求参数无响应参数状态码：200 表3 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
查询用户所有DevServer实例列表 - AI开发平台ModelArts

ServerResponse objects DevServer实例列表。 pages Integer 总的页数。 size Integer 每一页的数量。 total Long 总的记录数量。表4 ServerResponse 参数参数类型描述 create_at Long 创建时间。

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

在OBS服务中创建桶和文件夹，用于存放样例数据集以及训练代码。需要创建的文件夹列表如表1所示，示例中的桶名称“test-modelarts”和文件夹名称均为举例，请替换为用户自定义的名称。创建OBS桶和文件夹的操作指导请参见创建桶。请确保您使用的OBS与ModelArts在同一区域。表1 OBS桶文件夹列表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

在OBS服务中创建桶和文件夹，用于存放样例数据集以及训练代码。需要创建的文件夹列表如表1所示，示例中的桶名称“test-modelarts” 和文件夹名称均为举例，请替换为用户自定义的名称。创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。请确保您使用的OBS与ModelArts在同一区域。表1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

参数说明参数说明 “授权对象类型” 包括IAM子用户、联邦用户、委托用户和所有用户。 IAM子用户：由主账号在IAM中创建的用户，是服务的使用人员，具有独立的身份凭证（密码和访问密钥），根据账号授予的权限使用资源。IAM子用户相关介绍请参见IAM用户介绍。联邦用户：又称企业

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践

总条数： 600

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

Notebook Cache盘告警上报 - AI开发平台ModelArts

更新资源池 - AI开发平台ModelArts

CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

查询节点列表 - AI开发平台ModelArts

部署图像分类服务 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

查询工作空间列表 - AI开发平台ModelArts

实时同步用户所有DevServer实例状态 - AI开发平台ModelArts

查询用户所有DevServer实例列表 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线