AI开发平台MODELARTS-在AOM控制台查看ModelArts所有监控指标:Label相关指标介绍
Label相关指标介绍
指标对象 |
Label名字 |
Label描述 |
---|---|---|
容器级别指标 |
modelarts_service |
容器属于哪个服务,包含notebook,train和infer。 |
instance_name |
容器所属pod的名字。 |
|
service_id |
页面展示的实例或者job id。如开发环境为:cf55829e-9bd3-48fa-8071-7ae870dae93a, 训练作业为:9f322d5a-b1d2-4370-94df-5a87de27d36e |
|
node_ip |
容器所属的节点IP值。 |
|
container_id |
容器ID。 |
|
cid |
集群ID。 |
|
container_name |
容器名称。 |
|
project_id |
用户所属的账号的project id。 |
|
user_id |
提交作业的用户所属的账号的user id。 |
|
npu_id |
昇腾卡的ID信息,比如davinci0(即将废弃)。 |
|
device_id |
昇腾系列AI处理器的Physical ID。 |
|
device_type |
昇腾系列AI处理器类型。 |
|
pool_id |
物理专属池对应的资源池id。 |
|
pool_name |
物理专属池对应的资源池name。 |
|
logical_pool_id |
逻辑子池的id。 |
|
logical_pool_name |
逻辑子池的name。 |
|
gpu_uuid |
容器使用的GPU的UUID。 |
|
gpu_index |
容器使用的GPU的索引。 |
|
gpu_type |
容器使用的GPU的型号。 |
|
account_name |
训练、推理或开发环境任务创建者的账号名。 |
|
user_name |
训练、推理或开发环境任务创建者的用户名。 |
|
task_creation_time |
训练、推理或开发环境任务的创建时间。 |
|
task_name |
训练、推理或开发环境任务的名称。 |
|
task_spec_code |
训练、推理或开发环境任务的规格。 |
|
cluster_name |
CCE集群名称。 |
|
node级别指标 |
cid |
该node所属CCE集群的ID。 |
node_ip |
节点的IP。 |
|
host_name |
节点的主机名。 |
|
pool_id |
物理专属池对应的资源池ID。 |
|
project_id |
物理专属池的用户的project id。 |
|
npu_id |
昇腾卡的ID信息,比如davinci0(即将废弃)。 |
|
device_id |
昇腾系列AI处理器的Physical ID。 |
|
device_type |
昇腾系列AI处理器类型。 |
|
gpu_uuid |
节点上GPU的UUID。 |
|
gpu_index |
节点上GPU的索引。 |
|
gpu_type |
节点上GPU的型号。 |
|
device_name |
infiniband或RoCE网络网卡的设备名称。 |
|
port |
IB网卡的端口号。 |
|
physical_state |
IB网卡每个端口的状态。 |
|
firmware_version |
IB网卡的固件版本。 |
|
filesystem |
NFS挂载的文件系统。 |
|
mount_point |
NFS的挂载点。 |
|
Diagnos |
cid |
GPU所在节点所属的CCE集群ID。 |
node_ip |
GPU所在节点的IP。 |
|
pool_id |
物理专属池对应的资源池ID。 |
|
project_id |
物理专属池的用户的project id。 |
|
gpu_uuid |
GPU的UUID。 |
|
gpu_index |
节点上GPU的索引。 |
|
gpu_type |
节点上GPU的型号。 |
|
device_name |
网络设备或磁盘设备的名称。 |
|
port |
IB网卡的端口号。 |
|
physical_state |
IB网卡每个端口的状态。 |
|
firmware_version |
IB网卡的固件版本。 |