AI开发平台MODELARTS-CES服务监控方案:裸金属服务器监控介绍

时间:2024-09-05 08:36:23

裸金属服务器监控介绍

监控概述请参考BMS官方文档。除文档所列支持的镜像之外,目前还支持Ubuntu20.04。

监控指标采样周期1分钟。当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装加速卡驱动后,可以自动采集的如下指标:

表1 指标列表

指标英文名

指标中文名

说明

单位

维度

gpu_status

gpu健康状态。

BMS上GPU健康状态,是一个综合指标,0代表健康,1代表亚健康,2代表故障。

-

instance_id,gpu

gpu_utilization

gpu使用率。

该GPU的算力使用率。

%

instance_id,gpu

memory_utilization

显存使用率。

该GPU的显存使用率。

%

instance_id,gpu

gpu_performance

gpu性能状态。

该GPU的性能状态。

-

instance_id,gpu

encoder_utilization

编码使用率。

该GPU的编码能力使用率。

%

instance_id,gpu

decoder_utilization

解码使用率。

该GPU的解码能力使用率。

%

instance_id,gpu

volatile_correctable

短期可纠正ECC错误数量。

该GPU重置以来可纠正的ECC错误数量,每次重置后归0。

instance_id,gpu

volatile_uncorrectable

短期不可纠正ECC错误数量。

该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。

instance_id,gpu

aggregate_correctable

累计可纠正ECC错误数量。

该GPU累计的可纠正ECC错误数量。

instance_id,gpu

aggregate_uncorrectable

累计不可纠正ECC错误数量。

该GPU累计的不可纠正ECC错误数量。

instance_id,gpu

retired_page_single_bit

retired page single bit错误数量。

retired page single bit错误数量,表示当前卡隔离的单比特页数。

instance_id,gpu

retired_page_double_bit

retired page double bit错误数量。

retired page double bit错误数量,表示当前卡隔离的双比特页的数量。

instance_id,gpu

support.huaweicloud.com/usermanual-modelarts-lite/usermanual-modelarts-lite-0084.html