AI开发平台ModelArts-使用CES监控Lite Server资源:监控方案介绍

时间:2025-01-26 10:42:25

监控方案介绍

监控概述请参考BMS官方文档。除文档所列支持的镜像之外,目前还支持Ubuntu20.04。

监控指标采样周期1分钟。当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装加速卡驱动后,可以自动采集的相关指标。此处仅展示NPU相关指标,其他指标项请参考 CES Agent支持的指标列表。

表1 NPU指标列表

英文名称

中文名称

说明

单位

维度

npu_device_health

NPU健康状况

NPU卡的健康状况

-

instance_id,npu

npu_util_rate_mem

NPU显存使用率

NPU卡的显存使用率

%

instance_id,npu

npu_util_rate_ai_core

NPU卡AI核心使用率

NPU卡的AI核心使用率

%

instance_id,npu

npu_util_rate_ai_cpu

NPU卡AICPU使用率

NPU卡的AI-CPU使用率

%

instance_id,npu

npu_util_rate_ctrl_cpu

NPU控制CPU使用率

NPU卡的控制CPU使用率

%

instance_id,npu

npu_util_rate_mem_bandwidth

NPU显存带宽使用率

NPU卡的显存带宽使用率

%

instance_id,npu

npu_freq_mem

NPU显存频率

NPU卡的显存频率

MHz

instance_id,npu

npu_freq_ai_core

NPU卡AI核心频率

NPU卡的AI核心时钟频率

MHz

instance_id,npu

npu_usage_mem

NPU显存使用量

NPU卡的显存使用量

MB

instance_id,npu

npu_sbe

NPU单bit错误数量

NPU卡单比特错误数量

count

instance_id,npu

npu_dbe

NPU双bit错误数量

NPU卡双比特错误数量

count

instance_id,npu

npu_power

NPU功率

NPU卡功率

W

instance_id,npu

npu_temperature

NPU温度

NPU卡温度

°C

instance_id,npu

npu_driver_health

NPU驱动健康状况

NPU卡的驱动的健康状况

-

instance_id,npu

npu_device_network_health

NPU网络健康情况

NPU卡的RoCE网卡的IP地址连通情况

-

instance_id,npu

npu_network_port_link_status

NPU网口link状态

NPU卡的对应网口link状态

-

instance_id,npu

npu_roce_tx_rate

NPU网卡上行速率

NPU卡内网卡的上行速率

MB/s

instance_id,npu

npu_roce_rx_rate

NPU网卡下行速率

NPU卡内网卡的下行速率

MB/s

instance_id,npu

npu_mac_tx_mac_pause_num

MAC发送pause帧总数

NPU卡对应MAC 地址发送的 pause帧总报文数

count

instance_id,npu

npu_mac_rx_mac_pause_num

MAC接收pause帧总数

NPU卡对应MAC 地址接收的 pause帧总报文数

count

instance_id,npu

npu_mac_tx_pfc_pkt_num

MAC发送pfc帧总数

NPU卡对应MAC 地址发送的 PFC帧总报文数

count

instance_id,npu

npu_mac_rx_pfc_pkt_num

MAC接收pfc帧总数

NPU卡对应MAC 地址接收的 PFC帧总报文数

count

instance_id,npu

npu_mac_tx_bad_pkt_num

MAC发送坏包总数

NPU卡对应MAC 地址发送的 坏包总数

count

instance_id,npu

npu_mac_rx_bad_pkt_num

MAC接收坏包总数

NPU卡对应MAC 地址接收的 坏包总数

count

instance_id,npu

npu_roce_tx_err_pkt_num

RoCE发送坏包总数

NPU卡内RoCE网卡发送的坏包总数

count

instance_id,npu

npu_roce_rx_err_pkt_num

RoCE接收坏包总数

NPU卡内RoCE网卡接收的坏包总数

count

instance_id,npu

npu_hbm_freq

HBM频率

NPU卡HBM频率

MHz

instance_id,npu

npu_hbm_usage

HBM使用量

NPU卡HBM使用量

MB

instance_id,npu

npu_hbm_temperature

HBM温度

NPU卡HBM温度

°C

instance_id,npu

npu_hbm_bandwidth_util

HBM带宽利用率

NPU卡HBM带宽利用率

%

instance_id,npu

npu_hbm_ecc_enable

HBM ECC开关状态

NPU卡HBM ECC开关状态

-

instance_id,npu

npu_hbm_single_bit_error_cnt

HBM当前单bit错误数量

NPU卡HBM当前单bit错误数量

count

instance_id,npu

npu_hbm_double_bit_error_cnt

HBM当前双bit错误数量

NPU卡HBM当前双bit错误数量

count

instance_id,npu

npu_hbm_total_single_bit_error_cnt

HBM生命周期内单bit错误数量

NPU卡HBM生命周期内单bit错误数量

count

instance_id,npu

npu_hbm_total_double_bit_error_cnt

HBM生命周期内双bit错误数量

NPU卡HBM生命周期内双bit错误数量

count

instance_id,npu

npu_hbm_single_bit_isolated_pages_cnt

HBM单比特错误隔离内存页数量

NPU卡HBM单比特错误隔离内存页数量

count

instance_id,npu

npu_hbm_double_bit_isolated_pages_cnt

HBM多比特错误隔离内存页数量

NPU卡HBM多比特错误隔离内存页数量

count

instance_id,npu

npu_hbm_mem_capacity

NPU的HBM内存容量

该指标描述NPU的HBM内存容量

MB

instance_id,npu

npu_voltage

NPU电压

该指标描述NPU的电压

V

instance_id,npu

npu_freq_ai_core_rated

NPU的AI核心额定频率

该指标描述NPU的AI核心额定频率

MHz

instance_id,npu

npu_freq_ctrl_cpu

NPU的控制CPU频率

该指标描述NPU的控制CPU频率

MHz

instance_id,npu

npu_aicpu_max_freq

NPU的AICPU最大频率

该指标描述NPU的AICPU最大频率

MHz

instance_id,npu

npu_aicpu_cur_freq

NPU的AICPU频率

该指标描述NPU的AICPU频率

MHz

instance_id,npu

npu_aicpu_avg_util_rate

NPU的AICPU平均使用率

该指标描述NPU的AICPU平均使用率

%

instance_id,npu

npu_aicpu_num

NPU的AICPU数量

该指标描述NPU的AICPU数量

count

instance_id,npu

npu_link_cap_speed

NPU链路最大传输速度

该指标描述NPU设备支持的最大传输速度

GT/s

instance_id,npu

npu_link_cap_width

NPU链路最大传输宽度

该指标描述NPU设备支持的最大传输宽度

count

instance_id,npu

npu_link_status_speed

NPU链路当前传输速度

该指标描述NPU设备链路的实际传输速度

GT/s

instance_id,npu

npu_link_status_width

NPU链路当前传输宽度

该指标描述NPU设备链路的实际传输宽度

count

instance_id,npu

npu_util_rate_hbm

NPU的HBM占用率

该指标描述NPU的HBM占用率

%

instance_id,npu

npu_opt_temperature

NPU光模块壳温

该指标描述NPU光模块壳温

°C

instance_id,npu

npu_opt_temperature_high_thres

NPU光模块壳温上限

该指标描述NPU光模块壳温上限

°C

instance_id,npu

npu_opt_temperature_low_thres

NPU光模块壳温下限

该指标描述NPU光模块壳温下限

°C

instance_id,npu

npu_opt_voltage

NPU光模块供电电压

该指标描述NPU光模块供电电压

mV

instance_id,npu

npu_opt_voltage_high_thres

NPU光模块供电电压上限

该指标描述NPU光模块供电电压上限

mV

instance_id,npu

npu_opt_voltage_low_thres

NPU光模块供电电压下限

该指标描述NPU光模块供电电压下限

mV

instance_id,npu

npu_opt_tx_power_lane0

NPU光模块通道0发送功率

该指标描述NPU光模块通道0发送功率

mW

instance_id,npu

npu_opt_tx_power_lane1

NPU光模块通道1发送功率

该指标描述NPU光模块通道1发送功率

mW

instance_id,npu

npu_opt_tx_power_lane2

NPU光模块通道2发送功率

该指标描述NPU光模块通道2发送功率

mW

instance_id,npu

npu_opt_tx_power_lane3

NPU光模块通道3发送功率

该指标描述NPU光模块通道3发送功率

mW

instance_id,npu

npu_opt_rx_power_lane0

NPU光模块通道0接收功率

该指标描述NPU光模块通道0接收功率

mW

instance_id,npu

npu_opt_rx_power_lane1

NPU光模块通道1接收功率

该指标描述NPU光模块通道1接收功率

mW

instance_id,npu

npu_opt_rx_power_lane2

NPU光模块通道2接收功率

该指标描述NPU光模块通道2接收功率

mW

instance_id,npu

npu_opt_rx_power_lane3

NPU光模块通道3接收功率

该指标描述NPU光模块通道3接收功率

mW

instance_id,npu

npu_opt_tx_bias_lane0

NPU光模块通道0发射偏置电流

该指标描述NPU光模块通道0发射偏置电流

mA

instance_id,npu

npu_opt_tx_bias_lane1

NPU光模块通道1发射偏置电流

该指标描述NPU光模块通道1发射偏置电流

mA

instance_id,npu

npu_opt_tx_bias_lane2

NPU光模块通道2发射偏置电流

该指标描述NPU光模块通道2发射偏置电流

mA

instance_id,npu

npu_opt_tx_bias_lane3

NPU光模块通道3发射偏置电流

该指标描述NPU光模块通道3发射偏置电流

mA

instance_id,npu

npu_opt_tx_los

NPU光模块TX Los

该指标描述NPU光模块TX Los flag

count

instance_id,npu

npu_opt_rx_los

NPU光模块RX Los

该指标描述NPU光模块RX Los flag

count

instance_id,npu

support.huaweicloud.com/usermanual-server-modelarts/usermanual-server-0022.html