搜索_华为云

监控资源 - AI开发平台ModelArts
监控资源 - AI开发平台ModelArts

监控资源用户可以通过资源占用情况窗口查看计算节点的资源使用情况，最多可显示最近三天的数据。在资源占用情况窗口打开时，会定期向后台获取最新的资源使用率数据并刷新。操作一：如果训练作业使用多个计算节点，可以通过实例名称的下拉框切换节点。操作二：单击图例“cpuUsage”、“g

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
ModelArts Standard资源监控概述 - AI开发平台ModelArts

ModelArts Standard资源监控概述 ModelArts Standard支持通过以下方式查看监控指标：在ModelArts控制台查看监控指标：您在可ModelArts总览页或各模块资源监控页签查看监控指标。在AOM控制台查看ModelArts所有监控指标：ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
作业状态参考 - AI开发平台ModelArts

作业状态参考作业状态如表1所示。表1 作业状态状态值作业状态说明 0 JOBSTAT_UNKNOWN，作业状态未知。 1 JOBSTAT_INIT，作业初始化状态。 2 JOBSTAT_IMAGE_CREATING，作业镜像正在创建。 3 JOBSTAT_IMAGE_FAILED，作业镜像创建失败。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版）
资源池监控 - AI开发平台ModelArts

} ] } ] } ] } 状态码： 404 Not Found。 { "error_code" : "ModelArts.50015001", "error_msg" : "pool not found" } 状态码状态码描述 200 OK。 404 Not

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询服务监控信息 - AI开发平台ModelArts

"invocation_times" : 50, "cpu_core_usage" : 2.4 } ] } 状态码状态码描述 200 监控信息错误码请参见错误码。父主题：服务管理

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在ModelArts控制台查看监控指标 - AI开发平台ModelArts

不一致，请刷新重试。在各模块资源监控页签查看ModelArts监控指标训练作业：用户在运行训练作业时，可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。在线服务：用户将模型部署为在线服务后，可以通过监控功能查看CPU、内存、GPU等资源使

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts

使用Grafana查看AOM中的监控指标安装配置Grafana 配置Grafana数据源配置仪表盘查看指标数据父主题： ModelArts Standard资源监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

ma_container_npu_ai_core_error_code 昇腾系列AI处理器错误码 - - AI处理器健康状态 ma_container_npu_ai_core_health_status 昇腾系列AI处理器健康状态 - 1：健康 0：不健康 AI处理器功耗 ma_container_npu_ai_c

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
监控安全风险 - AI开发平台ModelArts

监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载，执行自动实时监控、告警和通知操作，帮助用户更好地了解服务和模型的各项性能指标。详细内容请参见ModelArts支持的监控指标。父主题：安全

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
查询服务监控信息 - AI开发平台ModelArts

查询服务监控信息查询当前服务对象监控信息。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式1：根据部署在线服务生成的服务对象进行查询服务监控 1 2 3 4 5 6 7 from

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
配置Grafana数据源 - AI开发平台ModelArts

在Grafana配置数据源后，即可通过Grafana查看ModelArts的监控数据。前提条件已安装Grafana。配置Grafana数据源获取Grafana数据源配置代码。进入AOM管理控制台。图1 AOM管理控制台在左侧导航栏中选择“Prometheus监控 > 实例列表”，在实例列表中单击“Pr

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
使用CES监控Lite Server资源 - AI开发平台ModelArts

使用CES监控Lite Server资源场景描述本文主要介绍如何配置华为云BMS+CES联合提供的裸金属服务器的指标监控方案，可帮助您查看CPU相关监控指标、CPU负载类相关监控指标、内存相关监控指标、磁盘相关监控指标、磁盘I/O类、文件系统类、网卡类、软RAID相关监控指标和进程相关监控指标。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
ModelArts Standard资源监控 - AI开发平台ModelArts

ModelArts Standard资源监控 ModelArts Standard资源监控概述在ModelArts控制台查看监控指标在AOM控制台查看ModelArts所有监控指标使用Grafana查看AOM中的监控指标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
安装配置Grafana - AI开发平台ModelArts

在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题：使用Grafana查看AOM中的监控指标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
查询数据集监控数据 - AI开发平台ModelArts

参数类型描述 end_time 是 Long 监控信息的截止时间。 start_time 是 Long 监控信息的起始时间。 workforce_task_id 否 String 团队标注任务ID。请求参数无响应参数状态码： 200 表3 响应Body参数参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用DCGM监控Lite Server资源场景描述本文主要介绍如何配置DCGM监控。DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。前提条件裸金

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
使用AOM看Lite Cluster监控指标 - AI开发平台ModelArts

使用AOM看Lite Cluster监控指标监控已有指标 ModelArts会定期收集资源池中各节点的关键资源（GPU、NPU、CPU、Memory等）的使用情况并上报到AOM，用户可直接在AOM上查看默认配置好的基础指标，详细步骤如下：登录控制台，搜索AOM，进入“应用运维管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
在Notebook上安装配置Grafana - AI开发平台ModelArts

像版本和描述信息。单击“确定”保存镜像。镜像会以快照的形式保存，保存过程约5分钟，请耐心等待。此时不可再操作实例。镜像保存成功后，实例状态变为“运行中”，重启Notebook实例。打开Grafana页面。新打开一个浏览器窗口，在地址栏输入3中配置的root_url后。出现

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
配置仪表盘查看指标数据 - AI开发平台ModelArts

uid”，修改json中的uid后单击“Import”。图4 修改uid 导入成功后，在Dashboards下，即可看到导入的视图，单击视图即可打开监控。模板使用导入成功后，单击想查看的模板即可查看响应内容。这里介绍一些常用功能的使用。切换数据源和资源池图5 切换数据源和资源池单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标背景信息 Prometheus是一款开源监控工具，ModelArts支持Exporter功能，方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。使用说明该功能为白名单功能，如需要使用，请联系提交工单开通此功能。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源

总条数： 729

上一页
1
2
3
4
5
...
37
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

监控资源 - AI开发平台ModelArts

ModelArts Standard资源监控概述 - AI开发平台ModelArts

作业状态参考 - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

在ModelArts控制台查看监控指标 - AI开发平台ModelArts

使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

监控安全风险 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

配置Grafana数据源 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

ModelArts Standard资源监控 - AI开发平台ModelArts

安装配置Grafana - AI开发平台ModelArts

查询数据集监控数据 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用AOM看Lite Cluster监控指标 - AI开发平台ModelArts

在Notebook上安装配置Grafana - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线