搜索_华为云

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源（GPU、NPU、CPU、Memory等）的使用情况并上报到AOM，用户可直接在AOM上查看默认配置好的基础指标，也支持用户自定义一些指标项上报到AOM查看。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
为什么资源充足还是在排队？ - AI开发平台ModelArts

为什么资源充足还是在排队？如果是公共资源池，一般是由于其他用户占用资源导致，请耐心等待或根据训练作业一直在等待中（排队）？方法降低排队时间。如果是专属资源池，建议您进行以下排查：排查专属资源池中是否存在其他作业（包括推理作业、训练作业、开发环境作业等）。可通过总览页面，快

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
Lite Cluster资源开通 - AI开发平台ModelArts

Lite Cluster资源开通集群资源开通流程开通集群资源过程中用户侧需要完成的任务流程如下图所示。图1 用户侧任务流程表1 Cluster资源开通流程任务说明 Step1 申请开通资源规格当前部分规格为受限购买，需要提前联系客户经理申请开通资源规格，预计1~3个工作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
批量删除节点 - AI开发平台ModelArts

批量删除节点功能介绍批量删除指定资源池中的节点，资源池中至少保留一个节点。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_i

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。约束限制需要在ModelArts Lite Cluster资源池详情页的配置管理页面中先打开“监控”开关。开通此功能后，兼容Prometheus指标格式的第三方组件可通过API http://<节点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
批量重启节点 - AI开发平台ModelArts

批量重启节点功能介绍批量重启指定资源池中的节点调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/pools/{pool

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询插件模板 - AI开发平台ModelArts

表2 响应Body参数参数参数类型描述 apiVersion String API版本。可选值如下： v1 kind String 资源类型。可选值如下： PluginTemplate：插件模板 metadata PluginTemplateMetadata object 插件模板的metadata信息。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务场景描述本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务，随后登录至该Pod容器内部署在线服务，并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
Lite Cluster资源使用 - AI开发平台ModelArts

Lite Cluster资源使用在Lite Cluster资源池上使用Snt9B完成分布式训练任务在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练在Lite Cluster资源池上使用Snt9B完成推理任务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
Lite Server资源使用 - AI开发平台ModelArts

Lite Server资源使用 LLM/AIGC/数字人基于Server适配NPU的训练推理指导 GPT-2基于Server适配PyTorch GPU的训练推理指导

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务场景描述本案例介绍如何在Snt9B上进行分布式训练任务，其中Cluster资源池已经默认安装volcano调度器，训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型，详细代码和指导可参考Bert。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境场景描述本文旨在指导如何在GPU裸金属服务器上，安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
查询OS的配置参数 - AI开发平台ModelArts

Integer 用户可创建网络个数配额。 poolQuota Integer 用户可创建资源池个数配额。 pooHighAvailable Boolean 当前环境/局点是否支持创建高可用资源池。状态码： 404 表3 响应Body参数参数参数类型描述 error_code

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询节点列表 - AI开发平台ModelArts

object 节点资源量信息。 availableResources NodeResource object 节点可用资源量信息。表9 NodeResource 参数参数类型描述 cpu String CPU资源量。 memory String 内存资源量。 nvidia.com/gpu

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

rank的使用不一致会导致训练异常。操作步骤开启ModelArts Lite资源池对应的CCE集群的cabinet插件。在ModelArts Lite专属资源池列表，单击资源池名称，进入专属资源池详情页面。在基本信息页面单击CCE集群，跳转到CCE集群详情页面。在左侧导

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
配置Lite Cluster存储 - AI开发平台ModelArts

通常会先将数据拉取到本地cache，然后再进行训练任务。静态挂载动态挂载 SFS Turbo 适用于海量小文件业务场景。提供posix协议的文件系统；需要和资源池在同一个VPC下或VPC互通；价格较高。静态挂载动态挂载：不支持 SFS 适用于多读多写场景的持久化存储。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境注意事项本文旨在指导如何在Snt9b裸金属服务器上，进行磁盘合并挂载、安装docker等环境配置。在配置前请注意如下事项：首次装机时需要配置存储、固件、驱动、网络访问等基础内容，这部分配置尽量稳定减少变化。裸机上的开发形

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
步骤总览 - AI开发平台ModelArts
步骤总览 - AI开发平台ModelArts

使用Notebook进行代码调试创建训练任务单机多卡资源购买：购买虚拟私有云VPC 购买弹性文件服务SFS 购买容器镜像服务SWR 创建网络购买ModelArts专属资源池购买弹性云服务器ECS 基本配置：权限配置专属资源池VPC打通 ECS服务器挂载SFS Turbo存储

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
查询事件列表 - AI开发平台ModelArts

表2 Query参数参数是否必选参数类型描述 resource 是 String 事件所属资源类型。可选值为pools，表示资源池。 name 是 String 事件所属资源名称。 limit 否 Integer 单页查询最大数量，该值为空或者0时默认返回500条记录，单页最大允许查询500条记录。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
权限配置 - AI开发平台ModelArts
权限配置 - AI开发平台ModelArts

授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限，只有使用权限。推荐给子用户配置此权限。如果需要给子用户开通专属资源池的创建、更新、删除权限，此处要勾选ModelArts FullAccess，请谨慎配置。 ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置

总条数： 923

上一页
1
...
5
6
7
...
47
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

为什么资源充足还是在排队？ - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

批量删除节点 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

批量重启节点 - AI开发平台ModelArts

查询插件模板 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

Lite Cluster资源使用 - AI开发平台ModelArts

Lite Server资源使用 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

查询OS的配置参数 - AI开发平台ModelArts

查询节点列表 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

步骤总览 - AI开发平台ModelArts

查询事件列表 - AI开发平台ModelArts

权限配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线