搜索_华为云

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

Cluster上安装Prometheus开源监控工具，方便用户使用Prometheus工具在Lite Cluster集群内直接采集监控指标数据，具体参见使用Prometheus查看Lite Cluster监控指标章节。本章节主要介绍如何在AOM上查看Lite Cluster监控指标。 AOM上查看已有监控指标登

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配问题现象训练失败并提示“Cann软件与Ascend驱动版本不匹配”。原因分析当昇腾规格的训练作业在ModelArts训练平台上运行时，会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配，则会立即训练失败，避免后续无意义的运行时长。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
配置Lite Server软件环境 - AI开发平台ModelArts

配置Lite Server软件环境 NPU服务器上配置Lite Server资源软件环境 GPU服务器上配置Lite Server资源软件环境父主题： Lite Server资源配置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
查询数据集监控数据 - AI开发平台ModelArts

查询数据集监控数据功能介绍查询数据集在指定时间范围内的监控数据。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/dat

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
在Windows上安装配置Grafana - AI开发平台ModelArts

在Windows上安装配置Grafana 适用场景本章节适用于在Windows操作系统的PC中安装配置Grafana。操作步骤下载Grafana安装包。进入下载链接，单击Download the installer，等待下载成功即可。安装Grafana。双击安装包，按照指示流程安装完成即可。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

在左侧导航栏，选择“云服务监控 > ModelArts”。查看监控图表。查看在线服务监控图表：单击目标在线服务“操作”列的“查看监控指标”。查看模型负载监控图标：单击目标在线服务左侧的，在下拉列表中选择模型负载“操作”列的“查看监控指标”。在监控区域，您可以通过选择时长，查看对应时间的监控数据。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
在Linux上安装配置Grafana - AI开发平台ModelArts

在Linux上安装配置Grafana 适用场景本章节适用于在Linux操作系统的PC中安装配置Grafana。前提条件一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
在Notebook上安装配置Grafana - AI开发平台ModelArts

在Notebook上安装配置Grafana 适用场景本章节适用于在ModelArts Standard的Notebook中安装配置Grafana。前提条件已创建CPU或GPU类型的Notebook实例，并处于运行中。打开Terminal。操作步骤在Terminal中依

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
不同机型的对应的软件配套版本 - AI开发平台ModelArts

不同机型的对应的软件配套版本由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
监控Lite Cluster资源 - AI开发平台ModelArts

监控Lite Cluster资源使用AOM查看Lite Cluster监控指标使用Prometheus查看Lite Cluster监控指标父主题： Lite Cluster资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
监控Lite Server资源 - AI开发平台ModelArts

监控Lite Server资源使用CES监控Lite Server资源使用DCGM监控Lite Server资源父主题： Lite Server资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
ModelArts的自定义镜像软件版本匹配有哪些注意事项？ - AI开发平台ModelArts

ModelArts的自定义镜像软件版本匹配有哪些注意事项？如果您的自定义镜像涉及NCCL、CUDA、OFED等软件库，当您制作自定义镜像时，您需要确保镜像中的软件库和ModelArts的软件库相匹配。您镜像中的软件版本需要满足以下要求： NCCL版本 ≥ 2.7.8。 OFED版本

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
查询资源实时利用率 - AI开发平台ModelArts

查询资源实时利用率功能介绍查询当前项目下所有资源池的实时利用率。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/metrics/runtime/pools

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败问题现象训练作业的“状态”为“运行失败”。原因分析训练作业的监控内存指标持续升高，导致最后训练作业失败。处理步骤查询训练作业的日志和监控信息，是否存在明确的OOM报错信息。是，训练作业的日志里存在OOM报错，执行2。否，训

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
实时推理的部署及使用流程 - AI开发平台ModelArts

rver-Sent Events访问主要解决了客户端与服务器之间的单向实时通信需求（例如ChatGPT回答的流式输出），相较于WebSocket（双向实时），它更加轻量级且易于实现。父主题：将模型部署为实时推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
将模型部署为实时推理作业 - AI开发平台ModelArts

将模型部署为实时推理作业实时推理的部署及使用流程部署模型为在线服务访问在线服务支持的认证方式访问在线服务支持的访问通道访问在线服务支持的传输协议父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
使用VSCode-huawei，报错：卸载了‘ms-vscode-remote.remot-sdh’，它被报告存在问题 - AI开发平台ModelArts

问题现象使用华为自研的VS Code软件时，报错“卸载了‘ms-vscode-remote.remot-sdh’，它被报告存在问题”。原因分析 Remote - SSH只能在开源的VSCode软件中使用。解决方案推荐使用开源VS Code软件。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.907-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.909-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.909-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作

总条数： 512

上一页
1
2
3
4
5
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

配置Lite Server软件环境 - AI开发平台ModelArts

查询数据集监控数据 - AI开发平台ModelArts

在Windows上安装配置Grafana - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

在Notebook上安装配置Grafana - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

监控Lite Cluster资源 - AI开发平台ModelArts

监控Lite Server资源 - AI开发平台ModelArts

ModelArts的自定义镜像软件版本匹配有哪些注意事项？ - AI开发平台ModelArts

查询资源实时利用率 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

实时推理的部署及使用流程 - AI开发平台ModelArts

将模型部署为实时推理作业 - AI开发平台ModelArts

使用VSCode-huawei，报错：卸载了‘ms-vscode-remote.remot-sdh’，它被报告存在问题 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线