云监控服务 CES-Agent支持的指标列表:GPU指标

时间:2024-11-22 10:44:31

GPU指标

指标分类

指标名称

指标说明

单位

支持版本

采集方式

GPU指标

gpu_status

虚拟机上GPU健康状态。该指标是一个综合指标,0代表健康,1代表亚健康,2代表故障。

-

2.4.5

Linux: 通过调用GPU卡的libnvidia-ml.so.1库文件获取

Windows: 通过调用GPU卡的nvml.dll库文件获取

gpu_performance_state

该GPU的性能状态。

P0-P15、P32,

P0表示最大性能状态,P15表示最小性能状态,P32表示状态未知。

-

2.4.1

gpu_power_draw

该GPU的功率。

W

2.4.5

gpu_temperature

该GPU的温度。

°C

2.4.5

gpu_usage_gpu

该GPU的算力使用率。

%

2.4.1

gpu_usage_mem

该GPU的显存使用率。

%

2.4.1

gpu_used_mem

该GPU的显存使用量。

MB

2.4.5

gpu_free_mem

该GPU的显存剩余量。

MB

2.4.5

gpu_usage_encoder

该GPU的编码能力使用率。

%

2.4.5

gpu_usage_decoder

该GPU的解码能力使用率。

%

2.4.5

gpu_graphics_clocks

该GPU的显卡(着色器)时钟频率。

MHz

2.4.5

gpu_sm_clocks

该GPU的流式处理器时钟频率。

MHz

2.4.5

gpu_mem_clock

该GPU的内存时钟频率。

MHz

2.4.5

gpu_video_clocks

该GPU的视频(包含编解码)时钟频率。

MHz

2.4.5

gpu_tx_throughput_pci

该GPU的出方向带宽。

MByte/s

2.4.5

gpu_rx_throughput_pci

该GPU的入方向带宽。

MByte/s

2.4.5

gpu_volatile_correctable

该GPU重置以来可纠正的ECC错误数量,每次重置后归0。

2.4.5

gpu_volatile_uncorrectable

该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。

2.4.5

gpu_aggregate_correctable

该GPU累计的可纠正ECC错误数量。

2.4.5

gpu_aggregate_uncorrectable

该GPU累计的不可纠正ECC错误数量。

2.4.5

gpu_retired_page_single_bit

retired page single bit 错误数量,表示当前卡隔离的单比特页数。

2.4.5

gpu_retired_page_double_bit

错误数量,表示当前卡隔离的双比特页的数量。

2.4.5

support.huaweicloud.com/ces_faq/ces_faq_2513.html