搜索_华为云

使用CES监控Lite Server资源 - AI开发平台ModelArts

NPUErrorCodeWarning 重要这里涵盖了大量重要及以上的NPU错误码，您可以根据这些错误码进一步定位错误原因对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 NPU当前存在故障，可能导致客户业务终止 Snt3P 300IDuo Snt9B Snt9C NPU HBM多ECC错误信息

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

ge,False,Task is running. 可能原因镜像过大Push任务一直在运行，或实例节点有问题。解决方法以对应租户的华为云账号登录SWR服务，查看镜像是否已经Push成功。如果Push成功，请重新注册镜像。如果未Push成功，联系SRE查看对应实例的节点是否有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
Step2 为用户配置云服务使用权限 - AI开发平台ModelArts

FullAccess权限。（可选）配置密钥管理权限。如果需要使用ModelArts Notebook的SSH访问功能，依赖密钥管理权限。搜索DEW，勾选“DEW KeypairFullAccess”。此处需要注意以下Region配置的是DEW密钥管理权限：华北-北京一、华北-北京四、华

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业代码中涉及到的OBS路径，请用户替换为自己的实际OBS路径。代码是以PyTorch为例编写的，不同的AI框架之间，整体流程是完全相同的，仅需修改7和11中的 framework_type参数值即可，例如：MindSpore框架，此处framew

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

Cluster监控指标章节。本章节主要介绍如何在AOM上查看Lite Cluster监控指标。 AOM上查看已有监控指标登录控制台，搜索AOM，进入“应用运维管理 AOM”控制台。单击“监控 > 指标浏览”，进入“指标浏览”“页面”，单击“添加指标查询”。图1 示例图片添加指标查询信息。图2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

对模型版本设置告警规则对服务或模型版本的单个指标设置告警规则方式一：对整个ModelArts服务设置告警规则登录管理控制台。在“服务列表”中选择“管理与监管 > 云监控服务”，进入“云监控服务”管理控制台。在左侧导航栏，选择“告警 > 告警规则”页面，单击“创建告警规则”。在“创建告警规则

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
托管数据集到AI Gallery - AI开发平台ModelArts

t模型实例的全部文件。功能说明支持本地文件托管至AI Gallery仓库且支持多个文件同时上传。单个仓库的容量上限为50GB。支持管理托管的资产文件，例如在线预览、下载、删除文件。只支持预览大小不超过10MB、格式为文本类或图片类的文件。支持编辑资产介绍。每个资产介绍可分为基础设置和使用描述。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
发布数据集到AI Gallery - AI开发平台ModelArts

发布后，资产会处于“审核中”，审核中的资产仅资产所有者可见。审核完成后，资产会变成“已发布”状态，并在数据集列表可见。父主题：发布和管理AI Gallery数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
配置Workflow的输入输出目录 - AI开发平台ModelArts

配置Workflow的输入输出目录功能介绍统一存储主要用于工作流的目录管理，帮助用户统一管理一个工作流中的所有存储路径，主要分为以下两个功能：输入目录管理：开发者在编辑开发工作流时可以对所有数据的存储路径做统一管理，规定用户按照自己的目录规划来存放数据，而存储的根目录可以根据用户自

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
（可选）Session鉴权 - AI开发平台ModelArts

证方式，选择其中一种方式进行认证即可。用户名密码认证模式：支持OBS管理、数据管理、训练管理、模型管理、服务管理的鉴权。用户AK-SK认证模式：支持OBS管理、数据管理、训练管理、模型管理、服务管理的鉴权。用户名密码认证模式本地安装完成ModelArts SDK后，可

 帮助中心 > AI开发平台ModelArts > SDK参考 > Session鉴权
数据集版本发布失败 - AI开发平台ModelArts

果界面错误提示不包含此信息，则是因为后台服务故障导致，建议联系华为云技术支持。检查当前账号是否具备OBS权限。如果当前账号是个IAM用户（即子账号），需确认当前账号是否具备OBS服务操作权限。请参考OBS权限管理，为当前IAM用户配置“作用范围”为“全局级服务”的“Tenant

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。约束限制需要在ModelArts Lite Cluster资源池详情页的配置管理页面中先打开“监控”开关。开通此功能后，兼容Prometheus指标格式的第三方组件可通过API http://<节点IP>:<端口号>

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
使用ModelArts Studio的DeepSeek-R1模型框架实现对话问答 - AI开发平台ModelArts

已注册华为账号并开通华为云，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。步骤一：配置委托访问授权 ModelArts使用过程中涉及到与OBS、SWR等服务交互，首次使用ModelArts需要用户配置委托授权，允许访问这些依赖服务。使用华为账号登录华为云，搜索ModelArts

帮助中心 > AI开发平台ModelArts > 快速入门
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

Server上配置DCGM监控，用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。约束限制仅适用于GPU资源监控。前提条件裸金属

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

跳转至AI应用详情页。当资产状态变为“运行中”表示AI应用部署完成。在AI应用详情页的“应用”页签，可以在线体验应用。父主题：发布和管理AI Gallery中的AI应用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

SDK（galleryformers）。 pip install galleryformers 建议在虚拟环境（Python 3.8+）中安装AI Gallery SDK，以便管理不同的项目，避免依赖项之间产生兼容性问题。构建自定义模型。编写自定义配置类。模型的configuration包含了构建模型所需的所有信息的对象，需要尽可能完整。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
Lite Server使用流程 - AI开发平台ModelArts

完成资源配置后，您可以登录到服务器进行训练和推理，具体案例可参考Lite Server资源使用。资源管理 Lite Server提供启动、停止、切换操作系统等管理手段，您可在ModelArts控制台上对资源进行管理。表1 相关名词解释名词含义裸金属服务器裸金属服务器是一款兼具虚拟机弹性和

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
发布本地AI应用到AI Gallery - AI开发平台ModelArts

定”开始构建AI应用。当AI应用状态变为“运行中”时，表示启动成功。在AI应用详情页的“应用”页签，可以在线体验应用。父主题：发布和管理AI Gallery中的AI应用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
Lite Cluster资源开通 - AI开发平台ModelArts

基础权限开通基础权限开通需要登录管理员账号，为子用户账号开通使用资源池所需的基础权限。登录统一身份认证服务管理控制台。单击目录左侧“用户组”，然后在页面右上角单击“创建用户组”。填写“用户组名称”并单击“确定”。在操作列单击“用户组管理”，将需要配置权限的用户加入用户组中。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）

总条数： 1476

上一页
1
...
52
53
54
...
74
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用CES监控Lite Server资源 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

Step2 为用户配置云服务使用权限 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

托管数据集到AI Gallery - AI开发平台ModelArts

发布数据集到AI Gallery - AI开发平台ModelArts

配置Workflow的输入输出目录 - AI开发平台ModelArts

（可选）Session鉴权 - AI开发平台ModelArts

数据集版本发布失败 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

使用ModelArts Studio的DeepSeek-R1模型框架实现对话问答 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

将AI Gallery中的模型部署为AI应用 - AI开发平台ModelArts

使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

发布本地AI应用到AI Gallery - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线