AI开发平台ModelArts-使用CES监控Lite Server资源:监控方案介绍
监控方案介绍
监控概述请参考BMS官方文档。除文档所列支持的镜像之外,目前还支持Ubuntu20.04。
监控指标采样周期1分钟。当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装加速卡驱动后,可以自动采集的相关指标。此处仅展示NPU相关指标,其他指标项请参考 CES Agent支持的指标列表。
英文名称 |
中文名称 |
说明 |
单位 |
维度 |
---|---|---|---|---|
npu_device_health |
NPU健康状况 |
NPU卡的健康状况 |
- |
instance_id,npu |
npu_util_rate_mem |
NPU显存使用率 |
NPU卡的显存使用率 |
% |
instance_id,npu |
npu_util_rate_ai_core |
NPU卡AI核心使用率 |
NPU卡的AI核心使用率 |
% |
instance_id,npu |
npu_util_rate_ai_cpu |
NPU卡AICPU使用率 |
NPU卡的AI-CPU使用率 |
% |
instance_id,npu |
npu_util_rate_ctrl_cpu |
NPU控制CPU使用率 |
NPU卡的控制CPU使用率 |
% |
instance_id,npu |
npu_util_rate_mem_bandwidth |
NPU显存带宽使用率 |
NPU卡的显存带宽使用率 |
% |
instance_id,npu |
npu_freq_mem |
NPU显存频率 |
NPU卡的显存频率 |
MHz |
instance_id,npu |
npu_freq_ai_core |
NPU卡AI核心频率 |
NPU卡的AI核心时钟频率 |
MHz |
instance_id,npu |
npu_usage_mem |
NPU显存使用量 |
NPU卡的显存使用量 |
MB |
instance_id,npu |
npu_sbe |
NPU单bit错误数量 |
NPU卡单比特错误数量 |
count |
instance_id,npu |
npu_dbe |
NPU双bit错误数量 |
NPU卡双比特错误数量 |
count |
instance_id,npu |
npu_power |
NPU功率 |
NPU卡功率 |
W |
instance_id,npu |
npu_temperature |
NPU温度 |
NPU卡温度 |
°C |
instance_id,npu |
npu_driver_health |
NPU驱动健康状况 |
NPU卡的驱动的健康状况 |
- |
instance_id,npu |
npu_device_network_health |
NPU网络健康情况 |
NPU卡的RoCE网卡的IP地址连通情况 |
- |
instance_id,npu |
npu_network_port_link_status |
NPU网口link状态 |
NPU卡的对应网口link状态 |
- |
instance_id,npu |
npu_roce_tx_rate |
NPU网卡上行速率 |
NPU卡内网卡的上行速率 |
MB/s |
instance_id,npu |
npu_roce_rx_rate |
NPU网卡下行速率 |
NPU卡内网卡的下行速率 |
MB/s |
instance_id,npu |
npu_mac_tx_mac_pause_num |
MAC发送pause帧总数 |
NPU卡对应MAC 地址发送的 pause帧总报文数 |
count |
instance_id,npu |
npu_mac_rx_mac_pause_num |
MAC接收pause帧总数 |
NPU卡对应MAC 地址接收的 pause帧总报文数 |
count |
instance_id,npu |
npu_mac_tx_pfc_pkt_num |
MAC发送pfc帧总数 |
NPU卡对应MAC 地址发送的 PFC帧总报文数 |
count |
instance_id,npu |
npu_mac_rx_pfc_pkt_num |
MAC接收pfc帧总数 |
NPU卡对应MAC 地址接收的 PFC帧总报文数 |
count |
instance_id,npu |
npu_mac_tx_bad_pkt_num |
MAC发送坏包总数 |
NPU卡对应MAC 地址发送的 坏包总数 |
count |
instance_id,npu |
npu_mac_rx_bad_pkt_num |
MAC接收坏包总数 |
NPU卡对应MAC 地址接收的 坏包总数 |
count |
instance_id,npu |
npu_roce_tx_err_pkt_num |
RoCE发送坏包总数 |
NPU卡内RoCE网卡发送的坏包总数 |
count |
instance_id,npu |
npu_roce_rx_err_pkt_num |
RoCE接收坏包总数 |
NPU卡内RoCE网卡接收的坏包总数 |
count |
instance_id,npu |
npu_hbm_freq |
HBM频率 |
NPU卡HBM频率 |
MHz |
instance_id,npu |
npu_hbm_usage |
HBM使用量 |
NPU卡HBM使用量 |
MB |
instance_id,npu |
npu_hbm_temperature |
HBM温度 |
NPU卡HBM温度 |
°C |
instance_id,npu |
npu_hbm_bandwidth_util |
HBM带宽利用率 |
NPU卡HBM带宽利用率 |
% |
instance_id,npu |
npu_hbm_ecc_enable |
HBM ECC开关状态 |
NPU卡HBM ECC开关状态 |
- |
instance_id,npu |
npu_hbm_single_bit_error_cnt |
HBM当前单bit错误数量 |
NPU卡HBM当前单bit错误数量 |
count |
instance_id,npu |
npu_hbm_double_bit_error_cnt |
HBM当前双bit错误数量 |
NPU卡HBM当前双bit错误数量 |
count |
instance_id,npu |
npu_hbm_total_single_bit_error_cnt |
HBM生命周期内单bit错误数量 |
NPU卡HBM生命周期内单bit错误数量 |
count |
instance_id,npu |
npu_hbm_total_double_bit_error_cnt |
HBM生命周期内双bit错误数量 |
NPU卡HBM生命周期内双bit错误数量 |
count |
instance_id,npu |
npu_hbm_single_bit_isolated_pages_cnt |
HBM单比特错误隔离内存页数量 |
NPU卡HBM单比特错误隔离内存页数量 |
count |
instance_id,npu |
npu_hbm_double_bit_isolated_pages_cnt |
HBM多比特错误隔离内存页数量 |
NPU卡HBM多比特错误隔离内存页数量 |
count |
instance_id,npu |
npu_hbm_mem_capacity |
NPU的HBM内存容量 |
该指标描述NPU的HBM内存容量 |
MB |
instance_id,npu |
npu_voltage |
NPU电压 |
该指标描述NPU的电压 |
V |
instance_id,npu |
npu_freq_ai_core_rated |
NPU的AI核心额定频率 |
该指标描述NPU的AI核心额定频率 |
MHz |
instance_id,npu |
npu_freq_ctrl_cpu |
NPU的控制CPU频率 |
该指标描述NPU的控制CPU频率 |
MHz |
instance_id,npu |
npu_aicpu_max_freq |
NPU的AICPU最大频率 |
该指标描述NPU的AICPU最大频率 |
MHz |
instance_id,npu |
npu_aicpu_cur_freq |
NPU的AICPU频率 |
该指标描述NPU的AICPU频率 |
MHz |
instance_id,npu |
npu_aicpu_avg_util_rate |
NPU的AICPU平均使用率 |
该指标描述NPU的AICPU平均使用率 |
% |
instance_id,npu |
npu_aicpu_num |
NPU的AICPU数量 |
该指标描述NPU的AICPU数量 |
count |
instance_id,npu |
npu_link_cap_speed |
NPU链路最大传输速度 |
该指标描述NPU设备支持的最大传输速度 |
GT/s |
instance_id,npu |
npu_link_cap_width |
NPU链路最大传输宽度 |
该指标描述NPU设备支持的最大传输宽度 |
count |
instance_id,npu |
npu_link_status_speed |
NPU链路当前传输速度 |
该指标描述NPU设备链路的实际传输速度 |
GT/s |
instance_id,npu |
npu_link_status_width |
NPU链路当前传输宽度 |
该指标描述NPU设备链路的实际传输宽度 |
count |
instance_id,npu |
npu_util_rate_hbm |
NPU的HBM占用率 |
该指标描述NPU的HBM占用率 |
% |
instance_id,npu |
npu_opt_temperature |
NPU光模块壳温 |
该指标描述NPU光模块壳温 |
°C |
instance_id,npu |
npu_opt_temperature_high_thres |
NPU光模块壳温上限 |
该指标描述NPU光模块壳温上限 |
°C |
instance_id,npu |
npu_opt_temperature_low_thres |
NPU光模块壳温下限 |
该指标描述NPU光模块壳温下限 |
°C |
instance_id,npu |
npu_opt_voltage |
NPU光模块供电电压 |
该指标描述NPU光模块供电电压 |
mV |
instance_id,npu |
npu_opt_voltage_high_thres |
NPU光模块供电电压上限 |
该指标描述NPU光模块供电电压上限 |
mV |
instance_id,npu |
npu_opt_voltage_low_thres |
NPU光模块供电电压下限 |
该指标描述NPU光模块供电电压下限 |
mV |
instance_id,npu |
npu_opt_tx_power_lane0 |
NPU光模块通道0发送功率 |
该指标描述NPU光模块通道0发送功率 |
mW |
instance_id,npu |
npu_opt_tx_power_lane1 |
NPU光模块通道1发送功率 |
该指标描述NPU光模块通道1发送功率 |
mW |
instance_id,npu |
npu_opt_tx_power_lane2 |
NPU光模块通道2发送功率 |
该指标描述NPU光模块通道2发送功率 |
mW |
instance_id,npu |
npu_opt_tx_power_lane3 |
NPU光模块通道3发送功率 |
该指标描述NPU光模块通道3发送功率 |
mW |
instance_id,npu |
npu_opt_rx_power_lane0 |
NPU光模块通道0接收功率 |
该指标描述NPU光模块通道0接收功率 |
mW |
instance_id,npu |
npu_opt_rx_power_lane1 |
NPU光模块通道1接收功率 |
该指标描述NPU光模块通道1接收功率 |
mW |
instance_id,npu |
npu_opt_rx_power_lane2 |
NPU光模块通道2接收功率 |
该指标描述NPU光模块通道2接收功率 |
mW |
instance_id,npu |
npu_opt_rx_power_lane3 |
NPU光模块通道3接收功率 |
该指标描述NPU光模块通道3接收功率 |
mW |
instance_id,npu |
npu_opt_tx_bias_lane0 |
NPU光模块通道0发射偏置电流 |
该指标描述NPU光模块通道0发射偏置电流 |
mA |
instance_id,npu |
npu_opt_tx_bias_lane1 |
NPU光模块通道1发射偏置电流 |
该指标描述NPU光模块通道1发射偏置电流 |
mA |
instance_id,npu |
npu_opt_tx_bias_lane2 |
NPU光模块通道2发射偏置电流 |
该指标描述NPU光模块通道2发射偏置电流 |
mA |
instance_id,npu |
npu_opt_tx_bias_lane3 |
NPU光模块通道3发射偏置电流 |
该指标描述NPU光模块通道3发射偏置电流 |
mA |
instance_id,npu |
npu_opt_tx_los |
NPU光模块TX Los |
该指标描述NPU光模块TX Los flag |
count |
instance_id,npu |
npu_opt_rx_los |
NPU光模块RX Los |
该指标描述NPU光模块RX Los flag |
count |
instance_id,npu |