AI开发平台MODELARTS-使用CES监控Lite Server资源:Lite Server支持的事件列表

时间:2025-02-08 16:01:55

Lite Server支持的事件列表

通过对接 CES ,可以将业务中的重要事件或对云资源的操作事件收集到CES 云监控服务 ,并在事件发生时进行告警。Lite Server支持的事件来源主要是BMS,具体事件列表如下。

表2 Lite Server支持的事件列表

事件来源

命名空间

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

BMS

SYS.BMS

NPU: npu-smi info查询缺少设备

NPUSMICardNotFound

重要

可能是由于昇腾驱动问题或NPU掉卡

转昇腾和硬件处理

NPU卡无法正常使用

NPU: PCIe链路异常

PCIeErrorFound

重要

lspci显示npu卡处于rev ff状态

转硬件处理

NPU卡无法正常使用

NPU: lspci查询缺少设备

LspciCardNotFound

重要

一般是由于NPU掉卡

转硬件处理

NPU卡无法正常使用

NPU: 温度超过阈值

TemperatureOverUpperLimit

重要

可能是由于DDR颗粒温度过高或过温软件预警

暂停业务,重启系统,查看散热系统,device复位

可能造成过温下电及device丢失

NPU: 存在不可纠正ECC错误

UncorrectableEccErrorWarning

重要

NPU卡出现Uncorrectable ECC Error硬件故障

如果业务受到影响,转硬件换卡

业务可能受到影响终止

NPU: 需要重启实例

RebootVirtualMachine

提示

当前故障很可能需要重启进行恢复

在收集必要信息后,重启以尝试恢复

重启可能中断客户业务

NPU: 需要复位SOC

ResetSOC

提示

当前故障很可能需要复位SOC进行恢复

在收集必要信息后,复位SOC以尝试恢复

复位SOC可能中断客户业务

NPU: 需要退出AI任务重新执行

RestartAIProcess

提示

当前故障很可能需要客户退出当前的AI任务并尝试重新执行

在收集必要信息后,尝试退出当前AI任务并尝试重新执行

退出当前AI任务以便重新执行

NPU: errorcode告警

NPUErrorCodeWarning

重要

这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因

对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误

NPU当前存在故障,可能导致客户业务终止

NPU HBM多ECC错误信息

NpuHbmMultiEccInfo

提示

NPU卡存在HBM的ECC错误,此事件上报相应错误信息

这是一个用于辅助其他事件进行判断的事件,无需单独定位处理

这是一个用于辅助其他事件进行判断的事件,无需单独定位处理

NPU: HC CS 交换机端口故障

NpuHccsPortFault

重要

NPU的L1 1520交换机端口发生故障

这是一个用于辅助其他事件进行判断的事件,无需单独定位处理

这是一个用于辅助其他事件进行判断的事件,无需单独定位处理

GPU: RoCE网卡配置错误

GpuRoceNicConfigIncorrect

重要

GPU: RoCE网卡配置错误

联系运维人员协助处理

机器参数面网络异常,多机任务无法执行

OS出现ReadOnly问题

ReadOnlyFileSystem

严重

文件系统%s只读

请检查磁盘健康状态

无法对文件进行写和操作

NPU:驱动固件不匹配

NpuDriverFirmwareMismatch

重要

NPU驱动固件版本不匹配

请从昇腾官网获取匹配版本重新安装

无法正常使用NPU卡

NPU:Docker容器环境检测

NpuContainerEnvSystem

重要

Docker不可用

确认docker软件是否正常

无法使用docker软件

重要

容器插件Ascend-Docker-Runtime未安装

安装容器插件Ascend-Docker-Runtime,否则影响容器使用昇腾卡

docker容器无法挂载NPU卡

重要

操作系统没有开启IP转发功能

请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置

docker容器无法正常网络通信

重要

容器共享内存过小

共享内存默认为64M,可按需修改

分布式训练时共享内存不足导致训练失败

方式一:

修改/etc/docker/daemon.json配置文件default-shm-size字段

方式二:

docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小

NPU:RoCE网卡down

RoCELinkStatusDown

重要

NPU 卡 %d RoCE Link 状态Down

请检查NPU Roce网口状态

NPU网卡不可用

NPU:RoCE网卡健康状态异常

RoCEHealthStatusError

重要

NPU 卡 %d RoCE 网络健康状态异常

请检查NPU Roce网卡健康状态

NPU网卡不可用

NPU:Roce网卡配置文件/etc/hccn.conf不存在

HccnConfNotExisted

重要

Roce网卡配置文件"/etc/hccn.conf"不存在

请检查/etc/hccn.conf网卡配置文件

Roce网卡不可用

GPU:GPU基本组件异常

GpuEnvironmentSystem

重要

nvidia-smi命令异常

请检查GPU驱动是否正常

GPU卡驱动不可用

重要

nvidia-fabricmanager版本和GPU驱动版本不一致

请检查GPU驱动版本和nvidia-fabricmanager版本

nvidia-fabricmanager 无法正常工作,影响 GPU 的使用

重要

容器插件nvidia-container-toolkit未安装

安装容器插件nvidia-container-toolkit

docker无法挂载GPU卡

本地磁盘挂载巡检

MountDiskSystem

重要

/etc/fstab中有无效的UUID

请检查/etc/fstab配置文件中UUID的正确性,否则可能会导致机器重启失败

挂载磁盘错误,导致机器重启异常

GPU:Ant系列机器动态路由配置错误

GpuRouteConfigError

重要

Ant系列机器网卡%s动态路由未配置或配置错误,CMD [ip route]: %s | CMD [ip route show table all]: %s。

请正确配置RoCE网卡路由

NPU网络通信异常

NPU:Roce 端口未散列配置

RoCEUdpConfigError

重要

RoCE UDP端口未散列配置

请检查NPU RoCE UDP端口配置情况

影响NPU卡通信性能

系统内核自动升级预警

KernelUpgradeWarning

重要

系统内核自动升级预警,旧版本:%s,新版本:%s

系统内核升级可能导致配套AI软件异常,请检查系统更新日志,避免机器重启

可能导致配套AI配套软件不可用

NPU环境相关命令检测

NpuToolsWarning

重要

hccn_tool不可用

请检查NPU驱动是否正常

无法配置RoCE网卡的IP、网关

重要

npu-smi不可用

请检查NPU驱动是否正常

无法正常使用NPU卡

重要

ascend-dmi不可用

请检查工具包ToolBox是否正常安装

无法使用ascend-dmi进行性能分析

support.huaweicloud.com/usermanual-server-modelarts/usermanual-server-0022.html