AI开发平台MODELARTS-使用CES监控Lite Server资源:Lite Server支持的事件列表

时间：2025-02-13 20:48:22

AI开发平台MODELARTS 监控Lite Server资源

Lite Server支持的事件列表

通过对接 CES ，可以将业务中的重要事件或对云资源的操作事件收集到CES 云监控服务，并在事件发生时进行告警。Lite Server支持的事件来源主要是BMS，具体事件列表如下。

表2 Lite Server支持的事件列表
事件来源	命名空间	事件名称	事件ID	事件级别	事件说明	处理建议	事件影响
BMS	SYS.BMS	NPU: npu-smi info查询缺少设备	NPUSMICardNotFound	重要	可能是由于昇腾驱动问题或NPU掉卡	转昇腾和硬件处理	NPU卡无法正常使用
		NPU: PCIe链路异常	PCIeErrorFound	重要	lspci显示npu卡处于rev ff状态	转硬件处理	NPU卡无法正常使用
		NPU: lspci查询缺少设备	LspciCardNotFound	重要	一般是由于NPU掉卡	转硬件处理	NPU卡无法正常使用
		NPU: 温度超过阈值	TemperatureOverUpperLimit	重要	可能是由于DDR颗粒温度过高或过温软件预警	暂停业务，重启系统，查看散热系统，device复位	可能造成过温下电及device丢失
		NPU: 存在不可纠正ECC错误	UncorrectableEccErrorWarning	重要	NPU卡出现Uncorrectable ECC Error硬件故障	如果业务受到影响，转硬件换卡	业务可能受到影响终止
		NPU: 需要重启实例	RebootVirtualMachine	提示	当前故障很可能需要重启进行恢复	在收集必要信息后，重启以尝试恢复	重启可能中断客户业务
		NPU: 需要复位SOC	ResetSOC	提示	当前故障很可能需要复位SOC进行恢复	在收集必要信息后，复位SOC以尝试恢复	复位SOC可能中断客户业务
		NPU: 需要退出AI任务重新执行	RestartAIProcess	提示	当前故障很可能需要客户退出当前的AI任务并尝试重新执行	在收集必要信息后，尝试退出当前AI任务并尝试重新执行	退出当前AI任务以便重新执行
		NPU: errorcode告警	NPUErrorCodeWarning	重要	这里涵盖了大量重要及以上的NPU错误码，您可以根据这些错误码进一步定位错误原因	对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误	NPU当前存在故障，可能导致客户业务终止
		NPU HBM多ECC错误信息	NpuHbmMultiEccInfo	提示	NPU卡存在HBM的ECC错误，此事件上报相应错误信息	这是一个用于辅助其他事件进行判断的事件，无需单独定位处理	这是一个用于辅助其他事件进行判断的事件，无需单独定位处理
		NPU: HC CS 交换机端口故障	NpuHccsPortFault	重要	NPU的L1 1520交换机端口发生故障	这是一个用于辅助其他事件进行判断的事件，无需单独定位处理	这是一个用于辅助其他事件进行判断的事件，无需单独定位处理
		GPU: RoCE网卡配置错误	GpuRoceNicConfigIncorrect	重要	GPU: RoCE网卡配置错误	联系运维人员协助处理	机器参数面网络异常，多机任务无法执行
		OS出现ReadOnly问题	ReadOnlyFileSystem	严重	文件系统%s只读	请检查磁盘健康状态	无法对文件进行写和操作
		NPU：驱动固件不匹配	NpuDriverFirmwareMismatch	重要	NPU驱动固件版本不匹配	请从昇腾官网获取匹配版本重新安装	无法正常使用NPU卡
		NPU：Docker容器环境检测	NpuContainerEnvSystem	重要	Docker不可用	确认docker软件是否正常	无法使用docker软件
				重要	容器插件Ascend-Docker-Runtime未安装	安装容器插件Ascend-Docker-Runtime，否则影响容器使用昇腾卡	docker容器无法挂载NPU卡
				重要	操作系统没有开启IP转发功能	请检查/etc/sysctl.conf文件中net.ipv4.ip_forward配置	docker容器无法正常网络通信
				重要	容器共享内存过小	共享内存默认为64M，可按需修改	分布式训练时共享内存不足导致训练失败
						方式一：
						修改/etc/docker/daemon.json配置文件default-shm-size字段
						方式二：
						docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小
		NPU：RoCE网卡down	RoCELinkStatusDown	重要	NPU 卡 %d RoCE Link 状态Down	请检查NPU Roce网口状态	NPU网卡不可用
		NPU：RoCE网卡健康状态异常	RoCEHealthStatusError	重要	NPU 卡 %d RoCE 网络健康状态异常	请检查NPU Roce网卡健康状态	NPU网卡不可用
		NPU：Roce网卡配置文件/etc/hccn.conf不存在	HccnConfNotExisted	重要	Roce网卡配置文件"/etc/hccn.conf"不存在	请检查/etc/hccn.conf网卡配置文件	Roce网卡不可用
		GPU：GPU基本组件异常	GpuEnvironmentSystem	重要	nvidia-smi命令异常	请检查GPU驱动是否正常	GPU卡驱动不可用
				重要	nvidia-fabricmanager版本和GPU驱动版本不一致	请检查GPU驱动版本和nvidia-fabricmanager版本	nvidia-fabricmanager 无法正常工作，影响 GPU 的使用
				重要	容器插件nvidia-container-toolkit未安装	安装容器插件nvidia-container-toolkit	docker无法挂载GPU卡
		本地磁盘挂载巡检	MountDiskSystem	重要	/etc/fstab中有无效的UUID	请检查/etc/fstab配置文件中UUID的正确性，否则可能会导致机器重启失败	挂载磁盘错误，导致机器重启异常
		GPU：Ant系列机器动态路由配置错误	GpuRouteConfigError	重要	Ant系列机器网卡%s动态路由未配置或配置错误，CMD [ip route]: %s \| CMD [ip route show table all]: %s。	请正确配置RoCE网卡路由	NPU网络通信异常
		NPU：Roce 端口未散列配置	RoCEUdpConfigError	重要	RoCE UDP端口未散列配置	请检查NPU RoCE UDP端口配置情况	影响NPU卡通信性能
		系统内核自动升级预警	KernelUpgradeWarning	重要	系统内核自动升级预警，旧版本：%s，新版本：%s	系统内核升级可能导致配套AI软件异常，请检查系统更新日志，避免机器重启	可能导致配套AI配套软件不可用
		NPU环境相关命令检测	NpuToolsWarning	重要	hccn_tool不可用	请检查NPU驱动是否正常	无法配置RoCE网卡的IP、网关
				重要	npu-smi不可用	请检查NPU驱动是否正常	无法正常使用NPU卡
				重要	ascend-dmi不可用	请检查工具包ToolBox是否正常安装	无法使用ascend-dmi进行性能分析