云容器引擎 CCE-监控GPU资源指标:监控GPU指标

时间:2024-05-31 08:37:35

监控GPU指标

创建一个使用GPU的工作负载,等工作负载正常运行后,访问Prometheus,在“Graph”页面中,查看GPU指标。

图3 查看GPU监控指标
表1 GPU基础监控指标

类型

指标

监控级别

说明

利用率指标

cce_gpu_utilization

GPU卡

GPU卡算力使用率

cce_gpu_memory_utilization

GPU卡

GPU卡显存使用率

cce_gpu_encoder_utilization

GPU卡

GPU卡编码使用率

cce_gpu_decoder_utilization

GPU卡

GPU卡解码使用率

cce_gpu_utilization_process

GPU进程

GPU各进程算力使用率

cce_gpu_memory_utilization_process

GPU进程

GPU各进程显存使用率

cce_gpu_encoder_utilization_process

GPU进程

GPU各进程编码使用率

cce_gpu_decoder_utilization_process

GPU进程

GPU各进程解码使用率

内存指标

cce_gpu_memory_used

GPU卡

GPU显存使用量

cce_gpu_memory_total

GPU卡

GPU显存总量

cce_gpu_memory_free

GPU卡

GPU显存空闲量

cce_gpu_bar1_memory_used

GPU卡

GPU bar1 内存使用量

cce_gpu_bar1_memory_total

GPU卡

GPU bar1 内存总量

频率

cce_gpu_clock

GPU卡

GPU时钟频率

cce_gpu_memory_clock

GPU卡

GPU显存频率

cce_gpu_graphics_clock

GPU卡

GPU图形处理器频率

cce_gpu_video_clock

GPU卡

GPU视频处理器频率

物理状态数据

cce_gpu_temperature

GPU卡

GPU温度

cce_gpu_power_usage

GPU卡

GPU功率

cce_gpu_total_energy_consumption

GPU卡

GPU总能耗

带宽数据

cce_gpu_pcie_link_bandwidth

GPU卡

GPU PCIE 带宽

cce_gpu_nvlink_bandwidth

GPU卡

GPU nvlink 带宽

cce_gpu_pcie_throughput_rx

GPU卡

GPU PCIE 接收带宽

cce_gpu_pcie_throughput_tx

GPU卡

GPU PCIE 发送带宽

cce_gpu_nvlink_utilization_counter_rx

GPU卡

GPU nvlink 接收带宽

cce_gpu_nvlink_utilization_counter_tx

GPU卡

GPU nvlink 发送带宽

隔离内存页面

cce_gpu_retired_pages_sbe

GPU卡

GPU单比特错误隔离页数量

cce_gpu_retired_pages_dbe

GPU卡

GPU双比特错误隔离页数量

表2 GPU虚拟化监控指标

指标

监控级别

说明

xgpu_memory_total

GPU进程

GPU虚拟化显存总量。

xgpu_memory_used

GPU进程

GPU虚拟化显存使用量。

xgpu_core_percentage_total

GPU进程

GPU虚拟化算力总量。

xgpu_core_percentage_used

GPU进程

GPU虚拟化算力使用量。

gpu_schedule_policy

GPU卡

GPU虚拟化分三种模式:

  • 0:显存隔离算力共享模式
  • 1:显存算力隔离模式
  • 2:默认模式,表示当前卡还没被用于GPU虚拟化设备分配。

xgpu_device_health

GPU卡

GPU虚拟化设备的健康情况。

  • 0:表示GPU虚拟化设备为健康状态。
  • 1:表示GPU虚拟化设备为非健康状态。
support.huaweicloud.com/usermanual-cce/cce_10_0741.html