云监控服务 CES-Agent支持的指标列表:GPU指标
GPU指标
指标分类 |
指标名称 |
指标说明 |
单位 |
支持版本 |
采集方式 |
GPU指标 |
gpu_status |
虚拟机上GPU健康状态。该指标是一个综合指标,0代表健康,1代表亚健康,2代表故障。 |
- |
2.4.5 |
Linux: 通过调用GPU卡的libnvidia-ml.so.1库文件获取 Windows: 通过调用GPU卡的nvml.dll库文件获取 |
gpu_performance_state |
该GPU的性能状态。 P0-P15、P32, P0表示最大性能状态,P15表示最小性能状态,P32表示状态未知。 |
- |
2.4.1 |
||
gpu_power_draw |
该GPU的功率。 |
W |
2.4.5 |
||
gpu_temperature |
该GPU的温度。 |
°C |
2.4.5 |
||
gpu_usage_gpu |
该GPU的算力使用率。 |
% |
2.4.1 |
||
gpu_usage_mem |
该GPU的显存使用率。 |
% |
2.4.1 |
||
gpu_used_mem |
该GPU的显存使用量。 |
MB |
2.4.5 |
||
gpu_free_mem |
该GPU的显存剩余量。 |
MB |
2.4.5 |
||
gpu_usage_encoder |
该GPU的编码能力使用率。 |
% |
2.4.5 |
||
gpu_usage_decoder |
该GPU的解码能力使用率。 |
% |
2.4.5 |
||
gpu_graphics_clocks |
该GPU的显卡(着色器)时钟频率。 |
MHz |
2.4.5 |
||
gpu_sm_clocks |
该GPU的流式处理器时钟频率。 |
MHz |
2.4.5 |
||
gpu_mem_clock |
该GPU的内存时钟频率。 |
MHz |
2.4.5 |
||
gpu_video_clocks |
该GPU的视频(包含编解码)时钟频率。 |
MHz |
2.4.5 |
||
gpu_tx_throughput_pci |
该GPU的出方向带宽。 |
MByte/s |
2.4.5 |
||
gpu_rx_throughput_pci |
该GPU的入方向带宽。 |
MByte/s |
2.4.5 |
||
gpu_volatile_correctable |
该GPU重置以来可纠正的ECC错误数量,每次重置后归0。 |
个 |
2.4.5 |
||
gpu_volatile_uncorrectable |
该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。 |
个 |
2.4.5 |
||
gpu_aggregate_correctable |
该GPU累计的可纠正ECC错误数量。 |
个 |
2.4.5 |
||
gpu_aggregate_uncorrectable |
该GPU累计的不可纠正ECC错误数量。 |
个 |
2.4.5 |
||
gpu_retired_page_single_bit |
retired page single bit 错误数量,表示当前卡隔离的单比特页数。 |
个 |
2.4.5 |
||
gpu_retired_page_double_bit |
错误数量,表示当前卡隔离的双比特页的数量。 |
个 |
2.4.5 |