AI开发平台MODELARTS-在AOM控制台查看ModelArts所有监控指标:Label相关指标介绍

时间:2025-01-09 16:29:25

Label相关指标介绍

表4 Label名字栏

指标对象

Label名字

Label描述

容器级别指标

modelarts_service

容器属于哪个服务,包含notebook,train和infer。

instance_name

容器所属pod的名字。

service_id

页面展示的实例或者job id。如开发环境为:cf55829e-9bd3-48fa-8071-7ae870dae93a,

训练作业为:9f322d5a-b1d2-4370-94df-5a87de27d36e

node_ip

容器所属的节点IP值。

container_id

容器ID。

cid

集群ID。

container_name

容器名称。

project_id

用户所属的账号的project id。

user_id

提交作业的用户所属的账号的user id。

npu_id

昇腾卡的ID信息,比如davinci0(即将废弃)。

device_id

昇腾系列AI处理器的Physical ID。

device_type

昇腾系列AI处理器类型。

pool_id

物理专属池对应的资源池id。

pool_name

物理专属池对应的资源池name。

logical_pool_id

逻辑子池的id。

logical_pool_name

逻辑子池的name。

gpu_uuid

容器使用的GPU的UUID。

gpu_index

容器使用的GPU的索引。

gpu_type

容器使用的GPU的型号。

account_name

训练、推理或开发环境任务创建者的账号名。

user_name

训练、推理或开发环境任务创建者的用户名。

task_creation_time

训练、推理或开发环境任务的创建时间。

task_name

训练、推理或开发环境任务的名称。

task_spec_code

训练、推理或开发环境任务的规格。

cluster_name

CCE集群名称。

node级别指标

cid

该node所属CCE集群的ID。

node_ip

节点的IP。

host_name

节点的主机名。

pool_id

物理专属池对应的资源池ID。

project_id

物理专属池的用户的project id。

npu_id

昇腾卡的ID信息,比如davinci0(即将废弃)。

device_id

昇腾系列AI处理器的Physical ID。

device_type

昇腾系列AI处理器类型。

gpu_uuid

节点上GPU的UUID。

gpu_index

节点上GPU的索引。

gpu_type

节点上GPU的型号。

device_name

infiniband或RoCE网络网卡的设备名称。

port

IB网卡的端口号。

physical_state

IB网卡每个端口的状态。

firmware_version

IB网卡的固件版本。

filesystem

NFS挂载的文件系统。

mount_point

NFS的挂载点。

Diagnos

cid

GPU所在节点所属的CCE集群ID。

node_ip

GPU所在节点的IP。

pool_id

物理专属池对应的资源池ID。

project_id

物理专属池的用户的project id。

gpu_uuid

GPU的UUID。

gpu_index

节点上GPU的索引。

gpu_type

节点上GPU的型号。

device_name

网络设备或磁盘设备的名称。

port

IB网卡的端口号。

physical_state

IB网卡每个端口的状态。

firmware_version

IB网卡的固件版本。

support.huaweicloud.com/usermanual-standard-modelarts/resmgmt-modelarts_0033.html