AI开发平台MODELARTS-ModelArts Standard资源监控概述

时间:2024-12-10 11:36:21

ModelArts Standard资源监控概述

为了满足用户对资源使用的监控诉求,ModelArts Standard提供了多种监控查看方式。

  • 方式一:通过ModelArts Standard控制台查看

    您在可通过ModelArts控制台的总览页或各模块资源监控页签查看监控指标。具体涉及以下几个方面:

    • 通过ModelArts控制台的总览页查看,具体请参见通过ModelArts控制台查看监控指标
    • Standard训练作业:用户在运行训练作业时,可以查看训练任务占用的CPU、GPU或NPU资源使用情况。具体请参见训练资源监控章节。
    • Standard在线服务:用户将模型部署为在线服务后,可以通过监控功能查看该推理服务的CPU、内存或GPU等资源使用统计信息和模型调用次数统计,具体参见查看推理服务详情章节。
  • 方式二:通过 AOM 查看所有监控指标

    ModelArts Standard上报的所有监控指标都保存在AOM中,用户可以通过AOM服务提供的指标消费和使用的能力来进行指标消费。设置指标阈值告警、告警上报等,都可以直接在AOM控制台查看。具体参见通过AOM控制台查看ModelArts所有监控指标

  • 方式三:通过Grafana查看所有监控指标

    当AOM的监控模板不能满足用户诉求时,用户可以使用Grafana可视化工具来查看与分析监控指标。Grafana支持灵活而又复杂多样的监控视图和模板,为用户提供基于网页仪表面板的可视化监控效果,使用户更加直观地查看到实时资源使用情况。

    将Grafana的数据源配置完成后,就可以通过Grafana查看AOM保存的所有ModelArts Standard的所有指标。具体参见使用Grafana查看AOM中的监控指标

    通过Grafana插件查看AOM中的监控指标的操作流程如下:

    1. 安装配置Grafana

      安装配置Grafana有在Windows上安装配置Grafana在Linux上安装配置Grafana在Notebook上安装配置Grafana三种方式,请您根据实际情况选择。

    2. 配置Grafana数据源
    3. 配置仪表盘查看指标数据
support.huaweicloud.com/usermanual-standard-modelarts/resmgmt-modelarts_0032.html