-
查看监控指标 - AI开发平台ModelArts
在左侧导航栏,选择“云服务监控 > ModelArts”。 查看监控图表。 查看在线服务监控图表:单击目标在线服务“操作”列的“查看监控指标”。 查看模型负载监控图标:单击目标在线服务左侧的,在下拉列表中选择模型负载“操作”列的“查看监控指标”。 在监控区域,您可以通过选择时长,查看对应时间的监控数据。
-
监控 - AI开发平台ModelArts
监控 CES服务监控方案 DCGM监控方案 父主题: DevServer资源配置
-
ModelArts支持的监控指标 - AI开发平台ModelArts
ModelArts支持的监控指标 功能说明 为使用户更好地掌握自己的ModelArts在线服务和对应模型负载的运行状态,云服务平台提供了云监控。您可以使用该服务监控您的ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助您更好地了解服务和模型的各项性能指标。
-
云监控平台ModelArts监控 - AI开发平台ModelArts
云监控平台ModelArts监控 ModelArts支持的监控指标 设置告警规则 查看监控指标
-
设置告警规则 - AI开发平台ModelArts
法。 只有“运行中”的在线服务,支持对接CES监控。 前提条件 已创建ModelArts在线服务。 已在云监控服务创建ModelArts监控服务。登录“云监控服务”控制台,在“自定义监控”页面,根据界面提示创建ModelArts监控服务。 操作步骤 设置告警规则有多种方式。您可以
-
日志监控 - AI开发平台ModelArts
日志监控 使用ModelArts的exporter功能在Prometheus查看监控数据 使用ModelArts监控自定义指标 如何在AOM上查看ModelArts所有监控指标? 父主题: k8s Cluster资源配置
-
资源监控 - AI开发平台ModelArts
资源监控 概述 使用Grafana查看AOM中的监控指标 在AOM控制台查看ModelArts所有监控指标
-
监控资源 - AI开发平台ModelArts
监控资源 用户可以通过资源占用情况窗口查看计算节点的资源使用情况,最多可显示最近三天的数据。在资源占用情况窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。 操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。 操作二:单击图例“cpuUsage”、“g
-
DCGM监控方案 - AI开发平台ModelArts
DCGM监控方案 场景描述 本文主要介绍如何配置DCGM监控。DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 前提条件 裸金属服务器需要安装drive
-
操作流程 - AI开发平台ModelArts
操作流程 Grafana支持灵活而又复杂多样的监控视图和模板,可以满足绝大部分情况下用户的诉求。将Grafana的数据源配置完成后,就可以通过Grafana查看AOM保存的所有ModelArts的所有指标。 通过Grafana插件查看AOM中的监控指标的操作流程如下: 安装配置Grafana
-
使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts
使用Grafana查看AOM中的监控指标 操作流程 安装配置Grafana 配置Grafana数据源 使用Grafana配置Dashboards,查看指标数据 父主题: 资源监控
-
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts
在AOM控制台查看ModelArts所有监控指标 ModelArts会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况以及开发环境、训练作业、推理服务的关键资源的使用情况,并上报到AOM,用户可直接在AOM上查看,详细步骤如下: 登录控制台,搜索AOM,进入“应用运维管理
-
CES服务监控方案 - AI开发平台ModelArts
CES服务监控方案 场景描述 本文主要介绍如何配置华为云BMS+CES联合提供的裸金属服务器的指标监控方案,可帮助您查看CPU相关监控指标、CPU负载类相关监控指标、内存相关监控指标、磁盘相关监控指标、磁盘I/O类、文件系统类、网卡类、软RAID相关监控指标和进程相关监控指标。 裸金属服务器监控介绍
-
查询服务监控信息 - AI开发平台ModelArts
查询服务监控信息 功能介绍 查询服务监控信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id}/monitor
-
监控安全风险 - AI开发平台ModelArts
监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助用户更好地了解服务和模型的各项性能指标。详细内容请参见ModelArts支持的监控指标。 父主题: 安全
-
配置Grafana数据源 - AI开发平台ModelArts
配置Grafana数据源 在Grafana配置数据源后,即可通过Grafana查看ModelArts的监控数据。 前提条件 已安装Grafana。 配置Grafana数据源 添加AccessCode 进入AOM管理控制台。 在左侧导航栏中选择“配置管理 > 接入管理”,单击“创建
-
查询服务监控信息 - AI开发平台ModelArts
查询服务监控信息 查询当前服务对象监控信息。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行查询服务监控 1 2 3 4 5 6 7 from
-
资源池监控 - AI开发平台ModelArts
资源池监控 功能介绍 获取资源池的监控信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/monitor
-
安装配置Grafana - AI开发平台ModelArts
在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题: 使用Grafana查看AOM中的监控指标
-
概述 - AI开发平台ModelArts
使用Grafana等可视化工具来查看与分析。Grafana支持灵活而又复杂多样的监控视图和模板,为用户提供基于网页仪表面板的可视化监控效果,使用户更加直观地查看到实时资源使用情况。 父主题: 资源监控