弹性云服务器 ECS-弹性云服务器支持的操作系统监控指标(安装Agent):操作系统监控指标:GPU

时间:2024-06-20 09:16:38

操作系统监控指标:GPU

表10 GPU类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

gpu_status

gpu健康状态

该指标用于统计虚拟机上GPU健康状态,是一个综合指标。

该指标无单位。

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
  • 0:代表健康
  • 1:代表亚健康
  • 2:代表故障
  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_encoder

编码使用率

该指标用于统计该GPU的编码能力使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_decoder

解码使用率

该指标用于统计该GPU的解码能力使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_volatile_correctable

可纠正ECC错误数量

该指标用于统计该GPU重置以来可纠正的ECC错误数量,每次重置后归0。

单位:个。

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_volatile_uncorrectable

不可纠正ECC错误数量

该指标用于统计该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_aggregate_correctable

累计可纠正ECC错误数量

该指标用于统计该GPU累计的可纠正ECC错误数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_aggregate_uncorrectable

累计不可纠正ECC错误数量

该指标用于统计该GPU累计的不可纠正ECC错误数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_retired_page_single_bit

retired page single bit错误数量

该指标用于统计该GPU当前卡隔离的单比特页的数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_retired_page_double_bit

retired page double bit错误数量

该指标用于统计该GPU当前卡隔离的双比特页的数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_performance_state

(Agent) 性能状态

该指标用于统计测量对象当前的GPU性能状态。

该指标无单位。

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

P0-P15、P32,

  • P0:表示最大性能状态
  • P15:表示最小性能状态
  • P32:表示状态未知
  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_mem

(Agent) 显存使用率

该指标用于统计测量对象当前的显存使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_gpu

(Agent) GPU使用率

该指标用于统计测量对象当前的GPU使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_free_mem

GPU显存剩余量

该指标用于统计测量对象当前的GPU显存剩余量。

单位:MB

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MB

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_graphics_clocks

GPU显卡时钟频率

该指标用于统计测量对象当前的GPU显卡(着色器)时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_mem_clocks

GPU内存时钟频率

该指标用于统计测量对象当前的GPU内存时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_power_draw

GPU功率

该指标用于统计测量对象当前的GPU功率。

单位:W

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

NA

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_rx_throughput_pci

GPU PCI入方向带宽

该指标用于统计测量对象当前的GPU PCI入方向带宽。

单位:MByte/s

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MByte/s

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_sm_clocks

GPU流式处理器时钟频率

该指标用于统计测量对象当前的GPU流式处理器时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_temperature

GPU温度

该指标用于统计测量对象当前的GPU温度。

单位:℃

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 ℃

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_tx_throughput_pci

GPU PCI出方向带宽

该指标用于统计测量对象当前的GPU PCI出方向带宽。

单位:MByte/s

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MByte/s

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_used_mem

GPU显存使用量

该指标用于统计测量对象当前的GPU显存使用量。

单位:MB

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MB

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_video_clocks

GPU视频时钟频率

该指标用于统计测量对象当前的GPU视频(包含编解码)时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

support.huaweicloud.com/usermanual-ecs/ecs_03_1003.html