搜索_华为云

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源（GPU、NPU、CPU、Memory等）的使用情况并上报到AOM，用户可直接在AOM上查看默认配置好的基础指标，也支持用户自定义一些指标项上报到AOM查看

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
创建AI应用 - AI开发平台ModelArts

创建AI应用功能介绍导入元模型创建AI应用。执行代码、模型需先上传至OBS（训练作业生成的模型已默认存储到OBS）。接口约束使用模板导入模型与不使用模板导入这两类导入方式的Body参数要求不一样。以下Body参数说明中以模板参数表示适合使用模板导入模型时填写的参数，非模板参数表示适合不使用模板导入时填写的参数

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
AI应用管理 - AI开发平台ModelArts

AI应用管理查询模型runtime 查询AI应用列表创建AI应用查询AI应用详情删除AI应用

 帮助中心 > AI开发平台ModelArts > API参考
升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动场景介绍当Lite Cluster资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助Lite Cluster资源池升级节点GPU/

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic？ - AI开发平台ModelArts

如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic？场景描述 Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic。操作指导检查当前内核版本。 uname -r 升级内核 apt-get install linux-headers

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
Lite Cluster高危操作一览表 - AI开发平台ModelArts

Lite Cluster高危操作一览表当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时，可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因，风险操作包括但不限于以下内容。高危操作风险等级说明：高：对于可能直接导致业务失败

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。方案概览本方案介绍了在ModelArts Lite DevServer

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
SD3 Diffusers框架基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

SD3 Diffusers框架基于Lite Server适配PyTorch NPU推理指导（6.3.912） Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。方案概览本方案介绍了在ModelArts Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 Prometheus是一款开源监控工具，ModelArts支持Exporter功能，方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。本章节主要介绍如何通过Prometheus查看

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 - AI开发平台ModelArts

DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导方案概述准备权重 Lite Server部署推理服务附录：rank_table_file.json文件附录：config.json文件父主题： DeepSeek系列模型推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ ModelArts提供AI诊断功能，用户可以通过NCCl Test，测试节点GPU状态，并且测试多个节点间的通信速度。操作步骤单击资源池名称，进入资源池详情。单击左侧“AI组件管理 > AI诊断”。单击“诊断”，选择“日志上传路径

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

管理Lite Cluster资源池的游离节点如果资源中存在游离节点，即没有被纳管到资源池中的节点，可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments - AI开发平台ModelArts

使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments 问题现象使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments... 图1 在线服务报错原因分析根据报错日志分析，模型目录下存在多余文件

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908） - AI开发平台ModelArts

SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）训练场景和方案介绍准备镜像环境 Finetune训练 LoRA训练 Controlnet训练父主题：文生图模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
JupyterLab插件故障 - AI开发平台ModelArts

JupyterLab插件故障 git插件密码失效如何解决？父主题：开发环境（新版Notebook）

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
删除AI应用 - AI开发平台ModelArts

删除AI应用功能介绍删除AI应用，根据AI应用ID删除指定AI应用，cascade取值为true时除了删除AI应用ID指定的AI应用，还会删除其他与指定AI应用同名不同版本的AI应用；默认只删除当前AI应用ID所对应的AI应用。调试您可以在API Explorer中调试该接口

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？问题现象在高性能8卡GPU的裸金属上的训练任务突然变慢，以前1个epoch约2小时执行完成，最近1个epoch需要2天才能执行完成，并且执行“nvidia-smi”也明显变很卡顿。原因分析根据现象描述可能出现了nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” - AI开发平台ModelArts

安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” 问题现象安装ModelArts SDK报错，完整报错信息“ERROR: Could not install packages due to

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决问题现象在华为云使用GPU裸金属服务器时，服务器绑定EIP（华为云弹性IP服务）后，出现无法ping通弹性公网IP现象。原因分析查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令是一种基于

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 2653

上一页
1
...
8
9
10
...
133
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

创建AI应用 - AI开发平台ModelArts

AI应用管理 - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic？ - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

SD3 Diffusers框架基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908） - AI开发平台ModelArts

JupyterLab插件故障 - AI开发平台ModelArts

删除AI应用 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线