云监控服务 CES-事件监控支持的事件说明
事件监控支持的事件说明
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
E CS |
SYS.ECS |
因系统故障触发重部署 |
startAutoRecovery |
重要 |
弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。 |
等待虚拟机迁移成功,状态恢复正常。 |
实例重部署开始。 |
因系统故障重部署已完成 |
endAutoRecovery |
重要 |
当自动迁移完成后,弹性云服务器已恢复正常。 |
确认业务是否恢复。 |
实例重部署结束。 |
||
实例重部署超时 |
faultAutoRecovery |
重要 |
迁移弹性云服务器至正常的物理机操作超时。 |
确认应用集群业务是否受损。 |
实例重部署失败。 |
||
删除虚拟机 |
deleteServer |
重要 |
删除云服务器。包括:
|
确认虚拟机是否删除成功。 |
实例资源删除。 |
||
重启虚拟机 |
rebootServer |
次要 |
云服务器重启。包括:
|
确认业务是否恢复。 |
虚拟机重启。 |
||
关闭虚拟机 |
stopServer |
次要 |
云服务器关机。包括:
|
确认是否关机成功。 |
实例停机。 |
||
删除网卡 |
deleteNic |
重要 |
云服务器删除网卡。包括:
|
确认是网卡否删除成功。 |
网卡资源删除。 |
||
变更规格 |
resizeServer |
次要 |
云服务器规格变更。包括:
|
确认规格是否变更成功。 |
实例先停机后开机。 |
||
GuestOS系统层重启告警 |
RestartGuestOS |
一般 |
GuestOS内部重启。 |
确认虚拟机是否重启成功。 |
实例重启。 |
||
系统故障导致虚拟机故障 |
VMFaultsByHostProcessExceptions |
紧急 |
弹性云服务器所在的主机出现故障导致云服务器故障,系统会自动拉起弹性云服务器。 |
请检查云服务器和业务应用是否恢复正常。 |
实例故障。 |
||
开机失败 |
faultPowerOn |
重要 |
云服务器开机失败。 |
确认应用集群业务是否受损。 |
实例开机失败。 |
||
宿主机存在宕机风险 |
hostMayCrash |
重要 |
弹性云服务器所在的宿主机存在宕机风险,且由于一些原因,无法通过热迁移手段规避该风险。 |
确认应用集群业务是否受损。 |
实例有重启风险。 |
||
实例计划迁移已完成 |
instance_migrate_completed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已完成。 |
等待运行状态恢复正常,确认业务是否自动恢复。 |
业务存在中断的可能。 |
||
实例计划迁移执行中 |
instance_migrate_executing |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务执行中。 |
等待自动恢复事件结束,观察业务是否受到影响。 |
业务存在中断的可能。 |
||
实例计划迁移已取消 |
instance_migrate_canceled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务已取消。 |
无 |
无 |
||
实例计划迁移失败 |
instance_migrate_failed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务失败。 |
联系运维人员处理。 |
业务中断。 |
||
实例计划迁移等待执行 |
instance_migrate_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间迁移,任务等待执行。 |
确认执行窗口对业务的影响。 |
实例等待执行迁移操作。 |
||
实例计划规格变更失败 |
instance_resize_failed |
重要 |
实例在计划时间规格变更,任务失败。 |
联系运维人员处理。 |
业务中断。 |
||
实例计划规格变更已完成 |
instance_resize_completed |
重要 |
实例在计划时间规格变更,任务已完成。 |
无 |
无 |
||
实例计划规格变更执行中 |
instance_resize_executing |
重要 |
实例在计划时间规格变更,任务执行中。 |
等待自动恢复事件结束,观察虚拟机是否正常变更成功。 |
业务中断 |
||
实例计划规格变更已取消 |
instance_resize_canceled |
重要 |
实例在计划时间规格变更,任务已取消。 |
无 |
无 |
||
实例计划规格变更等待执行 |
instance_resize_scheduled |
重要 |
实例在计划时间规格变更,任务等待执行。 |
确认执行窗口对业务的影响。 |
实例等待执行规格变更操作。 |
||
实例计划重新部署等待执行 |
instance_redeploy_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务等待执行。 |
确认执行窗口对业务的影响。 |
实例等待执行重部署。 |
||
实例计划重启等待执行 |
instance_reboot_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重启,任务等待执行。 |
确认执行窗口对业务的影响。 |
实例等待执行重启。 |
||
实例计划停止等待执行 |
instance_stop_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间停止,任务等待执行。 |
确认执行窗口对业务的影响。 |
实例中止等待。 |
||
开始热迁移 |
liveMigrationStarted |
重要 |
弹性云服务器所在的主机可能出现故障,提前对虚拟机进行热迁移,避免宕机后导致业务中断。 |
等待虚拟机迁移成功,状态恢复正常。 |
实例热迁移开始。 |
||
热迁移完成 |
liveMigrationCompleted |
重要 |
热迁移已经结束,弹性云服务器已恢复正常。 |
确认业务是否受到影响。 |
实例热迁移结束。 |
||
热迁移失败 |
liveMigrationFailed |
重要 |
弹性云服务器热迁移出现问题,未热迁移成功。 |
确认应用集群业务是否受损。 |
实例热迁移失败。 |
||
GPU发生double bit ECC告警 |
doubleBitEccError |
重要 |
GPU硬件存在double bit ECC故障。 |
|
可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 |
||
GPU Ant1 硬件发生ECC告警 |
gpuAnt1EccAlarm |
重要 |
GPU卡出现ECC硬件故障。 |
|
可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 |
||
GPU ECC内存页隔离失败告警 |
eccPageRetirementRecordingFailure |
重要 |
GPU硬件存在ECC故障,驱动自动隔离内存页时失败。 |
如果业务受损,请提交工单。 |
可能会造成业务中断,故障页隔离隔离失败,可能导致业务无法使用GPU。 |
||
GPU ECC页隔离告警 |
eccPageRetirementRecordingEvent |
一般 |
存在ECC硬件错误,发生内存页自动隔离。 |
|
一般随ECC故障告警出现,单独出现不影响业务。 |
||
GPU single bit ECC过多告警 |
highSingleBitEccErrorRate |
重要 |
ECC硬件存在过高ECC single bit错误。 |
|
single bit的错误能够自动恢复,一般不影响GPU相关应用程序。 |
||
GPU显存页告警 |
gpuMemoryPageFault |
重要 |
GPU内存页发生故障,故障可能由应用、驱动或硬件引起 |
如果业务受损,请提交工单。 |
可能GPU硬件问题导致显存故障,导致业务异常退出。 |
||
GPU驱动掉卡告警 |
gpuDriverLinkFailureAlarm |
重要 |
GPU链路正常,NVIDIA驱动找不到GPU硬件 |
|
一般驱动问题导致找不到对应位置的GPU。 |
||
GPU图像引擎异常告警 |
graphicsEngineException |
重要 |
GPU图像引擎发生故障,可能由应用、驱动或硬件引起。 |
如果业务受损,请提交工单。 |
可能GPU硬件问题导致图像引擎故障,导致业务异常退出。 |
||
GPU NVLINK链路错误告警 |
nvlinkError |
重要 |
NVLINK的链路出现硬件故障 |
如果业务受损,请提交工单。 |
NVLINK链路故障,影响业务使用GPU NVLINK能力。 |
||
GPU存在infoROM告警 |
gpuInfoROMAlarm |
重要 |
GPU可能存在硬件问题,导致驱动读取不到inforom信息。 |
非敏感业务可以继续使用该GPU卡,敏感业务请提交工单。 |
对业务暂时没有影响,当GPU硬件出现ECC故障时,可能无法自动完成故障页隔离,导致业务受损。 |
||
GPU隔离页过多告警 |
gpuTooManyRetiredPagesAlarm |
重要 |
GPU硬件存在过多ECC隔离页。 |
如果业务受损,请提交工单。 |
GPU硬件存在过多ECC故障,可能频繁影响业务正常运行。 |
||
GPU卡链路故障告警 |
gpuPcieLinkFailureAlarm |
重要 |
GPU链路异常,通过lspci查看GPU硬件出现故障。 |
如果业务受损,请提交工单。 |
硬件问题导致GPU链路异常,驱动无法使用GPU。 |
||
虚拟机GPU丢卡告警 |
vmLostGpuAlarm |
重要 |
虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 |
如果业务受损,请提交工单。 |
虚拟机GPU卡丢失。 |
||
GPU温度过高告警 |
highTemperatureEvent |
重要 |
GPU硬件温度过高。 |
如果业务受损,请提交工单。 |
GPU温度超过温度阈值,可能会引起GPU卡性能下降。 |
||
FPGA链路故障 |
FPGALinkFault |
紧急 |
弹性云服务器所在的主机上FPGA卡故障。包括:
|
业务应用做成高可用。 FPGA卡故障恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
GPU S RAM 存在Uncorrectable ECC告警 |
SRAMUncorrectableEccError |
重要 |
GPU卡SRAM出现Uncorrectable ECC Error硬件故障。 |
如果业务受损,请提交工单。 |
可能GPU硬件问题导致SRAM故障,导致业务异常退出。 |
||
GPU链路故障 |
GPULinkFault |
紧急 |
弹性云服务器所在的主机上GPU卡故障。包括:
|
业务应用做成高可用。 GPU卡故障恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
实例计划重新部署问询中 |
instance_redeploy_inquiring |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机,任务问询中。 |
授权重新部署到新主机操作。 |
无 |
||
本地盘换盘取消 |
localdisk_recovery_canceled |
重要 |
因本地盘故障,更换本地盘任务,任务已取消 |
无 |
无 |
||
本地盘换盘等待执行 |
localdisk_recovery_scheduled |
重要 |
因本地盘故障,更换本地盘任务,任务等待执行 |
确认执行窗口对业务的影响 |
无 |
||
GPU存在通用Xid事件告警 |
commonXidError |
重要 |
GPU卡出现Xid事件告警 |
如果业务受损,请提交工单。 |
gpu硬件、驱动、应用问题导致Xid事件,可能导致业务异常退出。 |
||
nvidia-smi命令卡住 |
nvidiaSmiHangEvent |
重要 |
nvidia-smi命令超时,该命令可能卡住 |
如果业务受损,请提交工单。 |
可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 |
||
NPU: 存在不可纠正ECC错误 |
UncorrectableEccErrorCount |
重要 |
NPU卡出现Uncorrectable ECC Error硬件故障 |
如果业务受到影响,转硬件换卡 |
业务可能受到影响终止 |
||
实例计划重新部署已取消 |
instance_redeploy_canceled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
无 |
无 |
||
实例计划重新部署执行中 |
instance_redeploy_executing |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
等待自动恢复事件结束,观察业务是否受到影响。 |
业务中断 |
||
实例计划重新部署已完成 |
instance_redeploy_completed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
等待运行状态恢复正常,观察业务是否受到影响。 |
业务恢复正常 |
||
实例计划重新部署失败 |
instance_redeploy_failed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间重新部署到新主机。 |
联系运维人员处理。 |
业务中断 |
||
本地盘换盘问询中 |
localdisk_recovery_inquiring |
重要 |
本地盘故障 |
授权本地盘换盘操作。 |
本地盘不可用 |
||
本地盘换盘执行中 |
localdisk_recovery_executing |
重要 |
本地盘故障 |
等待本地盘换盘结束,观察本地盘功能是否正常。 |
本地盘不可用 |
||
本地盘换盘已完成 |
localdisk_recovery_completed |
重要 |
本地盘故障 |
等待运行状态恢复正常,确认本地盘功能是否自动恢复。 |
本地盘恢复正常 |
||
本地盘换盘失败 |
localdisk_recovery_failed |
重要 |
本地盘故障 |
联系运维人员处理。 |
本地盘不可用 |
||
DAVP: vasmi查询缺少die设备节点 |
DAVPSMICardNotFound |
重要 |
有可能是驱动故障或发生掉卡 |
重启虚拟机,仍无法加载设备需转硬件处理 |
DAVP卡无法正常使用 |
||
DAVP: lspci查询缺少设备 |
DAVPLspciCardNotFound |
重要 |
一般是由于DAVP掉卡 |
转硬件处理 |
DAVP卡无法正常使用 |
||
DAVP: 温度超过85℃阈值 |
TemperatureOverDfLimit |
重要 |
核心模块温度超过85℃引起降频 |
暂停业务,转硬件查看散热系统,device复位 |
会导致DAVP卡降频 |
||
DAVP: 温度超过105℃阈值 |
TemperatureOverSdLimit |
重要 |
核心模块温度超过105℃引起高温告警 |
暂停业务,转硬件查看散热系统,device复位 |
触发断电保护,DAVP卡无法正常使用 |
||
DAVP: 设备节点核心单元出现异常 |
DeviceCoreAbnormal |
重要 |
当前故障很可能需要客户对使用的Die设备节点进行重启 |
在收集必要信息后,重启Die以尝试恢复 |
重启Die可能中断客户业务 |
自动恢复:弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,该过程会导致云服务器重启。
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
BMS |
SYS.BMS |
GPU SRAM存在 Uncorrectable ECC告警 |
SRAMUncorrectableEccError |
重要 |
GPU卡SRAM出现Uncorrectable ECC Error硬件故障。 |
如果业务受损,请提交工单。 |
可能GPU硬件问题导致SRAM故障,导致业务异常退出 |
主机重启 |
osReboot |
重要 |
裸金属实例重启。包括:
|
|
业务中断 |
||
异常重启 |
serverReboot |
重要 |
裸金属实例异常重启。包括:
|
|
业务中断 |
||
主机关机 |
osShutdown |
重要 |
裸金属实例关机。包括:
|
|
业务中断 |
||
异常关机 |
serverShutdown |
重要 |
裸金属实例异常关机。包括:
|
|
业务中断 |
||
网络中断 |
linkDown |
重要 |
裸金属服务器网络中断。包括:
|
|
业务中断 |
||
PCIE异常 |
pcieError |
重要 |
裸金属服务器PCIe设备硬件故障。包括:
|
|
影响网络或硬盘读写业务 |
||
硬盘故障 |
diskError |
重要 |
裸金属服务器磁盘故障。包括:
|
|
影响数据读写业务或主机无法启动 |
||
云存储 连接异常 |
storageError |
重要 |
裸金属服务器云硬盘连接异常。包括:
|
|
影响数据读写业务或主机无法启动 |
||
GPU存在infoROM告警 |
gpuInfoROMAlarm |
重要 |
GPU可能存在硬件问题,导致驱动读取不到inforom信息。 |
业务可以继续使用该GPU卡,不敏感业务可以继续使用,敏感业务请提交工单处理。 |
对业务暂时没有影响,当GPU硬件出现ECC故障时,可能无法自动完成故障页隔离,导致业务受损。 |
||
GPU发生double bit ECC告警 |
doubleBitEccError |
重要 |
GPU硬件存在double bit ECC故障。 |
|
可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 |
||
GPU隔离页过多告警 |
gpuTooManyRetiredPagesAlarm |
重要 |
GPU硬件存在过多ECC隔离页。 |
如果业务受损,请提交工单。 |
GPU硬件存在过多ECC故障,可能频繁影响业务运行。 |
||
GPU Ant1 硬件发生ECC告警 |
gpuAnt1EccAlarm |
重要 |
GPU卡出现ECC硬件故障。 |
|
可能会造成业务中断,故障页隔离后业务可继续正常使用GPU。 |
||
GPU ECC内存页隔离失败告警 |
eccPageRetirementRecordingFailure |
重要 |
GPU硬件存在ECC故障,驱动自动隔离这些页时失败。 |
|
可能会造成业务中断,故障页隔离隔离失败,可能导致业务无法使用GPU。 |
||
GPU ECC页隔离告警 |
eccPageRetirementRecordingEvent |
一般 |
存在ECC硬件错误,发生内存页自动隔离。 |
|
一般随ECC故障告警出现,单独出现不影响业务。 |
||
GPU single bit ECC过多告警 |
highSingleBitEccErrorRate |
重要 |
ECC硬件存在过高ECC single bit错误。 |
|
single bit的错误能够自动恢复,一般不影响GPU相关应用程序。 |
||
GPU驱动掉卡告警 |
gpuDriverLinkFailureAlarm |
重要 |
GPU链路正常,NVIDIA驱动找不到GPU硬件。 |
|
一般驱动问题导致找不到对应位置的GPU。 |
||
GPU卡链路故障告警 |
gpuPcieLinkFailureAlarm |
重要 |
GPU链路异常,通过lspci无法查看GPU硬件信息。 |
如果业务受损,请提交工单。 |
硬件问题导致GPU卡链路异常,驱动无法使用GPU。 |
||
虚拟机GPU丢卡告警 |
vmLostGpuAlarm |
重要 |
虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 |
如果业务受损,请提交工单。 |
虚拟机GPU卡丢失。 |
||
GPU显存页告警 |
gpuMemoryPageFault |
重要 |
GPU显存页发生故障,故障可能由应用、驱动或硬件引起。 |
如果业务受损,请提交工单。 |
可能GPU硬件问题导致显存故障,导致业务异常退出 |
||
GPU图像引擎异常告警 |
graphicsEngineException |
重要 |
GPU图像引擎发生故障,可能由应用、驱动或硬件引起。 |
如果业务受损,请提交工单。 |
可能GPU硬件问题导致图像引擎故障,导致业务异常退出。 |
||
GPU温度过高告警 |
highTemperatureEvent |
重要 |
GPU硬件温度过高。 |
如果业务受损,请提交工单。 |
GPU温度超过温度阈值,可能会引起GPU卡性能下降 |
||
GPU NVLINK链路错误告警 |
nvlinkError |
重要 |
NVLINK的链路出现硬件故障。 |
如果业务受损,请提交工单。 |
NVLINK链路故障,影响业务使用GPU nvlink能力。 |
||
系统运维问询中 |
system_maintenance_inquiring |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务问询中 |
授权维修实例操作 |
无 |
||
系统运维等待执行 |
system_maintenance_scheduled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务等待执行 |
确认执行窗口对业务的影响 |
无 |
||
系统运维已取消 |
system_maintenance_canceled |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务已取消 |
无 |
无 |
||
系统运维执行中 |
system_maintenance_executing |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务执行中 |
等待维修结束,观察业务是否受到影响 |
业务中断 |
||
系统运维已完成 |
system_maintenance_completed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务已完成 |
等待运行状态恢复正常,确认业务是否恢复 |
业务恢复正常 |
||
系统运维失败 |
system_maintenance_failed |
重要 |
由于底层硬件、系统运维等影响,实例在计划时间维修,任务失败 |
联系运维人员处理 |
业务中断 |
||
GPU存在通用Xid事件告警 |
commonXidError |
重要 |
GPU卡出现Xid事件告警 |
如果业务受损,请提交工单。 |
gpu硬件、驱动、应用问题导致Xid事件,可能导致业务异常退出。 |
||
NPU: npu-smi info查询缺少设备 |
NPUSMICardNotFound |
重要 |
可能是由于昇腾驱动问题或NPU掉卡 |
转昇腾和硬件处理 |
NPU卡无法正常使用 |
||
NPU: PCIe链路异常 |
PCIeErrorFound |
重要 |
Lspci查询卡状态为rev ff |
重启,转硬件处理 |
NPU卡无法正常使用 |
||
NPU: lspci查询缺少设备 |
LspciCardNotFound |
重要 |
一般是由于NPU掉卡 |
转硬件处理 |
NPU卡无法正常使用 |
||
NPU: 温度超过阈值 |
TemperatureOverUpperLimit |
重要 |
可能是由于DDR颗粒温度过高或过温软件预警 |
暂停业务,重启系统,查看散热系统,device复位 |
可能造成过温下电及device丢失 |
||
NPU: 存在不可纠正ECC错误 |
UncorrectableEccErrorCount |
重要 |
NPU卡出现Uncorrectable ECC Error硬件故障 |
如果业务受到影响,转硬件换卡 |
业务可能受到影响终止 |
||
NPU: 需要重启实例 |
RebootVirtualMachine |
提示 |
当前故障很可能需要重启进行恢复 |
在收集必要信息后,重启以尝试恢复 |
重启可能中断客户业务 |
||
NPU: 需要复位SOC |
ResetSOC |
提示 |
当前故障很可能需要复位SOC进行恢复 |
在收集必要信息后,复位SOC以尝试恢复 |
复位SOC可能中断客户业务 |
||
NPU: 需要退出AI任务重新执行 |
RestartAIProcess |
提示 |
当前故障很可能需要客户退出当前的AI任务并尝试重新执行 |
在收集必要信息后,尝试退出当前AI任务并尝试重新执行 |
退出当前AI任务以便重新执行 |
||
NPU: errorcode告警 |
NPUErrorCodeWarning |
重要 |
这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因 |
对照《黑匣子错误码信息列表》和《健康管理故障定义》进一步定位错误 |
NPU当前存在故障,可能导致客户业务终止 |
||
nvidia-smi命令卡住 |
nvidiaSmiHangEvent |
重要 |
nvidia-smi命令超时,该命令可能卡住 |
如果业务受损,请提交工单。 |
可能是命令执行过程中,触发驱动问题,导致命令卡住,同时可能出现业务使用驱动报错问题。 |
||
NV Peer Memory加载到内核异常 |
NvPeerMemException |
次要 |
Nvlink加载异常或nv_peer_mem加载异常 |
nv_peer_mem存在异常,建议尝试恢复或重新安装Nvlink |
Nv peer mem无法正常使用 |
||
Nv-fabricmanager服务运行异常 |
NvFabricManagerException |
次要 |
机器符合Nvlink使用条件,且安装Nvlink服务,但服务异常 |
Nvlink存在异常,建议尝试恢复或重新安装Nvlink |
Nvlink无法正常使用 |
||
IB卡使用状态异常 |
InfinibandStatusException |
重要 |
网卡状态或物理状态异常 |
转硬件处理 |
IB卡无法正常工作 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
EIP |
SYS.EIP |
EIP带宽超限事件 |
EIPBandwidthOverflow |
重要 |
当前使用带宽已超过购买的带宽,可能会导致网络变慢或丢包发生。其中,该事件取值为周期内的最大值,而EIP的出入网带宽指标数据,取值为周期时间点的值。 其中: “egressDropBandwidth”为本周期内出云丢弃带宽值(Byte),“egressAcceptBandwidth”为本周期内出云通过带宽值(Byte),“egressMaxBandwidthPerSec”为本周期内出云带宽峰值(Byte/s),“ingressAcceptBandwidth”为本周期内入云通过带宽值(Byte),“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值(Byte/s),“ingressDropBandwidth”为本周期内入云丢弃带宽值(Byte)。
说明:
EIP带宽超限事件当前仅在“华北-北京一”、“华北-北京四”、“华北-乌兰察布一”、“华东-上海一”、“华东-上海二”、“西南-贵阳一”和“华南-广州”区域上线。 |
检查EIP带宽是否一直增加,业务是否正常,并考虑扩容。 |
网络变慢或丢包发生 |
释放EIP |
deleteEip |
次要 |
EIP资源被删除。 |
检查是否误操作删除资源。 |
无法访问公网 |
||
EIP封堵 |
blockEIP |
紧急 |
带宽超过5GB就会封堵,相当于把流量直接丢弃。带宽严重超限或受到攻击,一般是受到了DDoS攻击。 |
更换EIP,避免业务受到影响。 同时查看事件中的封堵原因,进行相应处理。 |
业务受影响 |
||
EIP解封 |
unblockEIP |
紧急 |
EIP封堵已被解封。 |
换回原EIP,将被解封EIP重新使用,避免资源浪费。 |
无 |
||
EIP开始DDoS清洗 |
ddosCleanEIP |
严重 |
客户购买的EIP发生了DDoS清洗。 |
查看是否遭受攻击。 |
客户的业务可能受损。 |
||
EIP结束DDoS清洗 |
ddosEndCleanEip |
严重 |
客户购买的EIP结束了DDoS清洗。 |
查看是否遭受攻击。 |
客户的业务可能受损。 |
||
企业级Qos带宽超限事件 |
EIPBandwidthRuleOverflow |
重要 |
当前使用企业级Qos带宽已超过分配的带宽,可能会导致网络变慢或丢包发生。其中,该事件取值为周期内的最大值,而EIP的出入网带宽指标数据,取值为周期时间点的值。 其中:“egressDropBandwidth”为本周期内出云丢弃带宽值(Byte),“egressAcceptBandwidth”为本周期内出云通过带宽值(Byte),“egressMaxBandwidthPerSec”为本周期内出云带宽峰值(Byte/s),“ingressAcceptBandwidth”为本周期内入云通过带宽值(Byte),“ingressMaxBandwidthPerSec”为本周期内入云带宽峰值(Byte/s),“ingressDropBandwidth”为本周期内入云丢弃带宽值(Byte)。 |
检查EIP带宽是否一直增加,业务是否正常,并考虑扩容。 |
网络变慢或丢包发生。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DDoS高防 |
SYS.DDOS |
DDoS攻击事件 |
ddosAttackEvents |
严重 |
客户购买的高防实例线路出现了DDoS攻击。 |
根据攻击流量和攻击类型判断对业务的影响,如果攻击流量超过客户购买的弹性带宽需要更换线路或提升规格。 |
客户的业务可能受损。 |
域名 调度事件 |
domainNameDispatchEvents |
重要 |
域名对应的高防cname触发了调度,修改了解析记录到其他的高防IP上。 |
请关注该域名的业务情况。 |
一般情况下业务不受影响。 |
||
黑洞事件 |
blackHoleEvents |
重要 |
客户的高防实例攻击流量超出购买的防护阈值。 |
黑洞解封时间默认为30分钟,具体时长与当日黑洞触发次数和攻击峰值相关,最长可达24小时。如需提前解封,需要用户升级 DDoS高防服务 并联系技术支持。 |
客户的业务可能受损。 |
||
黑洞恢复 |
cancelBlackHole |
提示 |
客户的高防实例从黑洞状态恢复。 |
仅作提示,无需特殊处理。 |
客户的业务恢复。 |
||
IP调度事件 |
ipDispatchEvents |
重要 |
IP路由发生变化 |
请关注该IP的业务情况。 |
一般情况下业务不受影响。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
ELB |
SYS.ELB |
健康检查异常 |
healthCheckUnhealthy |
重要 |
一般是由于后端服务器服务离线导致。事件上报一定次数后,不再上报。 |
检查后端服务器的服务运行状态。 |
ELB不会往异常的后端转发流量,如果云服务器组下只有一个后端,则业务会中断。 |
健康检查恢复正常 |
healthCheckRecovery |
次要 |
后端服务器健康检查恢复正常。 |
无需处理。 |
负载均衡器到后端服务器流量恢复正常。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
CBR |
SYS.CBR |
创建备份失败 |
backupFailed |
紧急 |
创建备份失败 |
尝试手动创建备份或者联系技术支持 |
可能造成数据丢失 |
使用备份恢复资源失败 |
restorationFailed |
紧急 |
使用备份恢复资源失败 |
尝试使用其他备份恢复或者联系技术支持 |
可能造成数据丢失 |
||
备份删除失败 |
backupDeleteFailed |
紧急 |
备份删除失败 |
稍后重试删除或者联系技术支持 |
可能造成计费异常 |
||
存储库删除失败 |
vaultDeleteFailed |
紧急 |
储存库删除失败 |
稍后重试或联系技术支持 |
可能造成计费异常 |
||
复制失败 |
replicationFailed |
紧急 |
备份复制失败 |
稍后重试或联系技术支持 |
可能造成数据丢失 |
||
创建备份成功 |
backupSucceeded |
重要 |
创建备份成功 |
无 |
无 |
||
使用备份恢复资源成功 |
restorationSucceeded |
重要 |
使用备份恢复资源成功 |
观察数据是否已成功恢复。 |
无 |
||
备份删除成功 |
backupDeletionSucceeded |
重要 |
备份删除成功 |
无 |
无 |
||
存储库删除成功 |
vaultDeletionSucceeded |
重要 |
存储库删除成功 |
无 |
无 |
||
复制成功 |
replicationSucceeded |
重要 |
备份复制成功 |
无 |
无 |
||
客户端离线 |
agentOffline |
紧急 |
客户端离线 |
请确保客户端状态正常且能够正常连接华为云。 |
可能造成备份任务失败。 |
||
客户端上线 |
agentOnline |
重要 |
客户端上线 |
无。 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
RDS |
SYS.RDS |
创建实例业务失败 |
createInstanceFailed |
重要 |
创建实例失败产生的事件,一般是磁盘个数,配额大小不足,底层资源耗尽导致。 |
所选资源规格不足,请选择其他可用规格重试。 |
创建实例失败。 |
实例全量备份失败 |
fullBackupFailed |
重要 |
单次全量备份失败产生的事件,不影响以前成功备份的文件,但会对“恢复到指定时间点”的功能有一些影响,导致“恢复到指定时间点”时增量备份的恢复时间延长。 |
全量备份失败,请重新进行操作。 |
全量备份失败,影响备份恢复。 |
||
主备切换异常 |
activeStandBySwitchFailed |
重要 |
主备切换异常是由于网络、物理机有某种故障导致备机没有接管主机的业务,短时间内会恢复到原主机继续提供服务。 |
主备切换失败,请在业务低峰期重新进行操作。 |
主备切换失败。 |
||
复制状态异常 |
abnormalReplicationStatus |
重要 |
出现”复制状态异常“事件通常有两种情况: 1、主机与备机或只读实例之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。 2、主机与备机或只读实例之间的网络中断,导致主机与备机或只读实例复制异常。 |
数据库复制状态异常,正在进行修复,修复后会第一时间通知您,谢谢。 |
复制状态异常。 |
||
复制状态异常已恢复 |
replicationStatusRecovered |
重要 |
即复制时延已回到正常范围内,或者主备之间的网络通信恢复。 |
数据库复制状态已恢复正常,请确认业务是否正常运行。 |
复制状态异常恢复。 |
||
实例运行状态异常 |
faultyDBInstance |
重要 |
由于灾难或者物理机故障导致单机或者主实例故障时会上报本事件,属于关键告警事件。 |
实例状态异常,正在进行修复,修复后会第一时间通知您,谢谢。 |
实例状态异常。 |
||
实例运行状态异常已恢复 |
DBInstanceRecovered |
重要 |
RDS单机实例灾难或物理机故障恢复,主备实例自动进行主备故障切换,完成后会上报本事件。 |
实例状态已恢复正常,请确认业务是否正常运行。 |
实例状态异常恢复。 |
||
单实例转主备实例失败 |
singleToHaFailed |
重要 |
创建备机时或备机创建完成后主备机之间配置同步发生故障时会产生此事件,一般是由于备节点所在数据中心资源不足导致。 |
单转主备实例失败,正在进行自动重试。 |
单实例转主备实例失败。 |
||
数据库进程重新启动 |
DatabaseProcessRestarted |
重要 |
一般是内存不足、负载过高导致数据库进程停止 |
数据库重启完成,请确认业务是否正常运行。 |
主节点数据库重启,业务短暂影响。 |
||
实例磁盘满 |
instanceDiskFull |
重要 |
一般是由于数据空间占用过大导致。 |
实例磁盘满,请进行扩容操作。 |
实例磁盘空间打满,影响业务继续写入。 |
||
实例磁盘满恢复 |
instanceDiskFullRecovered |
重要 |
实例磁盘状态恢复正常。 |
磁盘可用空间恢复正常,请确认业务是否正常运行。 |
实例磁盘空间可用量恢复正常。 |
||
kafka连接失败 |
kafkaConnectionFailed |
重要 |
一般是由于网络波动或kafka服务端出现异常等原因导致。 |
检查业务是否受到影响。 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
---|---|---|---|---|---|
RDS |
SYS.RDS |
重置数据库管理员密码 |
resetPassword |
重要 |
重置数据库管理员密码。 |
集群扩容等操作 |
instanceAction |
重要 |
磁盘扩容、规格变更。 |
||
删除集群下的实例 |
deleteInstance |
次要 |
删除集群下的实例。 |
||
修改备份策略 |
setBackupPolicy |
次要 |
修改备份策略。 |
||
修改参数组 |
updateParameterGroup |
次要 |
修改参数组。 |
||
删除参数组 |
deleteParameterGroup |
次要 |
删除参数组。 |
||
重置参数组 |
resetParameterGroup |
次要 |
重置参数组。 |
||
修改数据库端口号 |
changeInstancePort |
重要 |
修改数据库端口号。 |
||
实例主备切换 |
PrimaryStandbySwitched |
重要 |
实例主备切换。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DDS |
SYS.DDS |
创建实例业务失败 |
DDSCreateInstanceFailed |
重要 |
创建文档数据库实例失败产生的事件,一般是由于磁盘个数、配额不足,底层资源耗尽导致。 |
检查磁盘个数、配额大小是否满足需求,并考虑释放资源后重新创建实例。 |
无法创建数据库实例。 |
复制状态异常 |
DDSAbnormalReplicationStatus |
重要 |
出现”复制状态异常“事件通常有两种情况: 1、主机与备机或只读实例之间复制时延太大(一般在写入大量数据或执行大事务的时候出现),在业务高峰期容易出现阻塞。 2、主机与备机或只读实例之间的网络中断,导致主机与备机或只读实例复制异常。 |
提交工单。 |
不会导致原来实例的读写中断,客户的应用是无感知的。 |
||
复制状态异常已恢复 |
DDSReplicationStatusRecovered |
重要 |
复制时延已回到正常范围内,或者主备之间的网络通信恢复。 |
不需要处理。 |
无 |
||
实例运行状态异常 |
DDSFaultyDBInstance |
重要 |
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 |
提交工单。 |
可能导致数据库服务不可用。 |
||
实例运行状态异常已恢复 |
DDSDBInstanceRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
节点运行状态异常 |
DDSFaultyDBNode |
重要 |
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 |
检查数据库服务是否可以正常使用,并提交工单。 |
可能导致数据库服务不可用。 |
||
节点运行状态异常已恢复 |
DDSDBNodeRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
实例主备切换 |
DDSPrimaryStandbySwitched |
重要 |
在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 |
不需要处理。 |
无 |
||
数据盘空间不足 |
DDSRiskyDataDiskUsage |
重要 |
数据盘空间不足,产生此告警。 |
请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。 |
实例被设为只读模式,数据无法写入。 |
||
数据盘空间已扩容并恢复可写 |
DDSDataDiskUsageRecovered |
重要 |
数据盘空间已扩容并恢复可写,产生此事件。 |
无需处理。 |
无影响。 |
||
用户计划删除KMS密钥 |
DDSplanDeleteKmsKey |
重要 |
一般是由于用户计划删除kms的key导致。 |
计划删除kms的key后,及时恢复kms的key或者及时解密数据。 |
kms的key被删除后用户无法进行磁盘加密。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
NoSQL |
SYS.NoSQL |
创建实例业务失败 |
NoSQLCreateInstanceFailed |
重要 |
一般是由于实例配额不足或底层资源不足等原因导致。 |
先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。 |
无法创建数据库实例。 |
变更规格失败 |
NoSQLResizeInstanceFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试规格变更操作。 |
业务中断。 |
||
添加节点失败 |
NoSQLAddNodesFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 |
无 |
||
删除节点失败 |
NoSQLDeleteNodesFailed |
重要 |
一般是由于底层释放资源失败导致。 |
重新尝试删除节点。 |
无 |
||
扩卷失败 |
NoSQLScaleUpStorageFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试扩卷操作。 |
如果磁盘满,会导致业务中断。 |
||
重置密码失败 |
NoSQLResetPasswordFailed |
重要 |
一般是由于重置密码命令超时导致。 |
重新尝试重置密码操作。 |
无 |
||
修改参数组失败 |
NoSQLUpdateInstanceParamGroupFailed |
重要 |
一般是由于修改参数组命令超时导致。 |
重新尝试修改参数组操作。 |
无 |
||
设置备份策略失败 |
NoSQLSetBackupPolicyFailed |
重要 |
一般是由于数据库连接异常导致。 |
重新重试设置备份策略操作。 |
无 |
||
创建手动备份失败 |
NoSQLCreateManualBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
创建自动备份失败 |
NoSQLCreateAutomatedBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
实例运行状态异常 |
NoSQLFaultyDBInstance |
重要 |
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 |
提交工单。 |
可能导致数据库服务不可用。 |
||
实例运行状态异常已恢复 |
NoSQLDBInstanceRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
节点运行状态异常 |
NoSQLFaultyDBNode |
重要 |
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 |
检查数据库服务是否可以正常使用,并提交工单。 |
可能导致数据库服务不可用。 |
||
节点运行状态异常已恢复 |
NoSQLDBNodeRecovered |
重要 |
针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
实例主备切换 |
NoSQLPrimaryStandbySwitched |
重要 |
在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。 |
不需要处理。 |
无 |
||
出现热点分区键 |
HotKeyOccurs |
重要 |
客观上是因为主键设置不合理,使得热点数据集中分布在一个分区。客户端不合理的应用程序设计,造成对某一key的频繁读写。 |
1. 选择合理的分区键。 2. 业务增加缓存,业务应用先从缓存中读取热点数据。 |
影响业务请求成功率,存在影响集群性能及稳定性的风险。 |
||
出现超大分区键 |
BigKeyOccurs |
重要 |
主键设计不合理,单个分区的记录数或数据量过大,引起了节点负载不均。 |
1. 选择合理的分区键 2. 基于现有分区键,增加分区键散列。 |
随着数据量增长,集群稳定性会下降。 |
||
数据盘空间不足 |
NoSQLRiskyDataDiskUsage |
重要 |
数据盘空间不足,产生此告警。 |
请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。 |
实例被设为只读模式,数据无法写入。 |
||
数据盘空间已扩容并恢复可写 |
NoSQLDataDiskUsageRecovered |
重要 |
数据盘空间已扩容并恢复可写,产生此事件。 |
无需处理。 |
无 |
||
创建索引失败 |
NoSQLCreateIndexFailed |
重要 |
业务负载超过实例规格瓶颈,此时再创建索引会耗费更多实例资源,导致响应变慢甚至卡顿,最终超时,引起索引创建失败。 |
1、根据业务负载,选择匹配的实例规格 2、在业务低峰期创建索引 3、使用后台方式创建索引 4、索引字段,结合业务进行合理选择。 |
索引创建失败或不完整,导致索引无效,需要删掉索引重新创建。 |
||
发生写入降速 |
NoSQLStallingOccurs |
重要 |
写入速度快,接近集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 |
1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 |
影响业务的请求的成功率 |
||
发生写入停止 |
NoSQLStoppingOccurs |
重要 |
写入速度过快,达到集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况 |
1. 根据业务的最大写请求速率,调整集群规模或者节点规格 2. 衡量业务的最大写请求速率,分散业务写峰值速率 |
影响业务的请求的成功率 |
||
重启数据库失败 |
NoSQLRestartDBFailed |
重要 |
一般是由于实例状态异常等原因导致。 |
提交工单让运维处理。 |
数据库实例状态可能存在异常。 |
||
恢复到新实例失败 |
NoSQLRestoreToNewInstanceFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源,重新尝试添加新节点。 |
无法恢复到新的数据库实例。 |
||
恢复到已有实例失败 |
NoSQLRestoreToExistInstanceFailed |
重要 |
一般是由于备份文件下载或恢复失败等原因导致。 |
提交工单让运维处理。 |
当前数据库实例可能处于不可用状态。 |
||
删除备份文件失败 |
NoSQLDeleteBackupFailed |
重要 |
一般是由于备份文件从obs删除失败导致。 |
重新尝试删除备份文件。 |
无 |
||
切换慢日志明文开关失败 |
NoSQLSwitchSlowlogPlainTextFailed |
重要 |
一般是由于引擎不支持切换等原因导致。 |
请查阅NoSQL用户指南,确认引擎支持打开慢日志明文开关。提交工单让运维处理。 |
无 |
||
绑定EIP失败 |
NoSQLBindEipFailed |
重要 |
一般是由于节点状态不正常,节点已经绑定EIP或EIP非法等原因导致。 |
检查节点是否正常,EIP是否合法。 |
无法通过公网访问数据库实例。 |
||
解绑EIP失败 |
NoSQLUnbindEipFailed |
重要 |
一般是由于节点状态不正常,节点已经未绑定EIP等原因导致。 |
检查节点和EIP状态是否正常。 |
无 |
||
修改参数失败 |
NoSQLModifyParameterFailed |
重要 |
一般是由于参数取值非法等原因导致。 |
排查参数值是否符合在合法范围内,提交工单让运维处理。 |
无 |
||
参数组应用失败 |
NoSQLApplyParameterGroupFailed |
重要 |
一般是由于实例状态异常导致参数组无法应用等原因导致。 |
提交工单让运维处理。 |
无 |
||
开启或关闭SSL失败 |
NoSQLSwitchSSLFailed |
重要 |
一般是由于修改SSL命令超时导致。 |
重新提交一次或者提交工单处理,并先保持切换之前使用SSL的连接方式。 |
是否使用SSL连接。 |
||
单行数据量太大 |
LargeRowOccurs |
重要 |
用户单行数据量过大,可能会导致查询超时,进而节点OOM异常退出等各种故障发生。 |
1. 对每列和每行的写入长度做限制,遵从规范,使得单行的的key和value长度和不超过阈值。 2. 排查业务是否出现异常写入和异常编码,导致写入大row。 |
过大的单行记录,随着数据量增长,集群稳定性会下降。 |
||
用户计划删除KMS密钥 |
NoSQLplanDeleteKmsKey |
重要 |
一般是由于用户计划删除kms的key导致。 |
计划删除kms的key后,及时恢复kms的key或者及时解密数据。 |
kms的key被删除后用户无法进行磁盘加密。 |
||
查询墓碑数过多 |
TooManyQueryTombstones |
重要 |
查询墓碑数过多,可能会导致查询超时,影响查询性能。 |
使用合理的查询删除方式,避免大批次的范围查询 |
可能会导致查询超时,影响查询性能。 |
||
超大集合列 |
TooLargeCollectionColumn |
重要 |
当集合列元素个数太多时,会出现集合列查询失败。 |
|
会出现集合列查询失败。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
GaussDB(for MySQL) |
SYS.GAUSSDB |
实例增量备份业务失败 |
TaurusIncrementalBackupInstanceFailed |
重要 |
实例增量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例备份环境异常。 |
提交工单。 |
无法完成实例备份业务操作。 |
添加只读节点失败 |
addReadonlyNodesFailed |
重要 |
创建实例只读节点失败产生的事件,一般是底层资源耗尽导致。 |
检查并释放资源后重新创建。 |
无法创建数据库实例只读节点。 |
||
创建实例业务失败 |
createInstanceFailed |
重要 |
创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 |
检查配额大小,释放资源后重新创建。 |
无法创建数据库实例。 |
||
主备切换异常 |
activeStandBySwitchFailed |
重要 |
主备切换异常主要是由于网络、物理机有某种故障导致只读节点没有接管主节点的业务,短时间内会恢复到原主节点继续提供服务。 |
提交工单。 |
无法完成主备切换(只读升主)。 |
||
规格变更业务失败 |
flavorAlterationFailed |
重要 |
规格变更失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 |
提交工单。 |
无法完成规格变更。 |
||
实例运行状态异常 |
TaurusInstanceRunningStatusAbnormal |
重要 |
实例运行状态异常产生的事件,可能原因是实例进程故障,或者实例到DFV存储间通信问题。 |
提交工单。 |
实例异常,业务可能受损。 |
||
实例运行状态异常已恢复 |
TaurusInstanceRunningStatusRecovered |
重要 |
实例运行状态异常后恢复产生的事件。 |
观察业务运行情况。 |
无。 |
||
节点运行状态异常 |
TaurusNodeRunningStatusAbnormal |
重要 |
运行节点状态异常产生的事件,可能原因是节点进程故障,或者节点到DFV存储间通信问题。 |
观察实例状态和业务运行情况。 |
节点异常,可能触发只读升主。 |
||
节点运行状态异常已恢复 |
TaurusNodeRunningStatusRecovered |
重要 |
节点运行状态异常后恢复产生的事件。 |
观察业务情况。 |
无。 |
||
删除只读节点失败 |
TaurusDeleteReadOnlyNodeFailed |
重要 |
删除只读节点失败产生的事件,可能原因是管理面到实例节点通信异常或者请求IaaS删除虚机失败。 |
提交工单。 |
无法完成删除只读节点操作。 |
||
实例重置密码失败 |
TaurusResetInstancePasswordFailed |
重要 |
实例重置密码失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常件。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例重置密码操作。 |
||
实例重启失败 |
TaurusRestartInstanceFailed |
重要 |
实例重启失败产生的事件,可能原因是管理面到实例通信异常或者实例状态异常件。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例重启操作。 |
||
恢复到新实例失败 |
TaurusRestoreToNewInstanceFailed |
重要 |
恢复到新实例失败产生的事件,一般是新创建实例配额大小不足,底层资源耗尽导致或者数据恢复逻辑出错。 |
如果是新创建实例失败,检查配额大小,释放资源后重新恢复到新实例,其他情况提交工单。 |
无法完成恢复到新实例。 |
||
实例绑定EIP失败 |
TaurusBindEIPToInstanceFailed |
重要 |
实例绑定EIP失败产生的事件,绑定任务执行错误。 |
提交工单。 |
无法完成绑定EIP操作。 |
||
实例解绑EIP失败 |
TaurusUnbindEIPFromInstanceFailed |
重要 |
实例解绑EIP失败产生的事件,绑定任务执行错误。 |
提交工单。 |
无法完成解绑EIP操作。 |
||
实例修改参数失败 |
TaurusUpdateInstanceParameterFailed |
重要 |
实例修改参数失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例修改参数操作。 |
||
实例参数组应用失败 |
TaurusApplyParameterGroupToInstanceFailed |
重要 |
实例参数组应用失败产生的事件,一般是管理节点到实例网络异常,或者实例状态异常。 |
检查确认实例状态后重试,未解决则提交工单。 |
无法完成实例参数组应用操作。 |
||
实例全量备份业务失败 |
TaurusBackupInstanceFailed |
重要 |
实例全量备份失败产生的事件,一般是管理节点到实例网络或者实例到OBS存储的网络异常,或者实例备份环境异常。 |
提交工单。 |
无法完成实例备份业务操作。 |
||
实例发生主备倒换 |
TaurusActiveStandbySwitched |
重要 |
实例发生主备倒换,主要是由于主节点的网络,物理机以及数据库运行出现故障时,GaussDB HA系统会按照倒换优先级将1个只读节点升为主机,以持续提供服务。 |
|
倒换时业务连接会短时间中断,升主完成后可重新连接数据库。 |
||
数据库设置为只读模式 |
NodeReadonlyMode |
重要 |
数据库设置为只读状态,只支持查询类操作。 |
提交工单。 |
数据库设置只读状态后,所有写业务返回失败。 |
||
数据库设置为读写模式 |
NodeReadWriteMode |
重要 |
数据库设置为读写状态 |
提交工单。 |
无 |
||
实例容灾切换 |
DisasterSwitchOver |
重要 |
实例故障不可用,通过主备切换保证数据库继续对外提供服务。 |
联系技术支持团队处理。 |
访问数据库的业务出现闪断,高可用服务通过切换机制保证新机器升主继续对外提供服务。 |
||
数据库进程重新启动 |
TaurusDatabaseProcessRestarted |
重要 |
一般是内存不足、负载过高导致数据库进程停止。 |
通过 云监控 的数据,查看是否有内存飙升、CPU长期过高等的情况,可以选择提升CPU内存规格或者优化业务逻辑。 |
数据库进程挂掉的时候,该节点业务中断。高可用服务会自动拉起进程,尝试恢复业务。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
GaussDB |
SYS.GAUSSDBV5 |
进程状态告警 |
ProcessStatusAlarm |
重要 |
GaussDB关键进程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。 |
等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。 |
主机进程故障,在主机上进行的业务将中断回滚。备机进程故障不影响业务。 |
组件状态告警 |
ComponentStatusAlarm |
重要 |
GaussDB关键组件无响应,包括:CMA、ETCD、GTM、CN、DN。 |
等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。 |
主机进程无响应,在主机上进行的业务将无响应。备机进程故障不影响业务。 |
||
集群状态告警 |
ClusterStatusAlarm |
重要 |
集群状态异常,包括: 集群只读、ETCD多数派故障、集群分布不均衡。 |
联系SRE。 |
集群只读: 业务只读。 ETCD多数派故障:集群不可用。 集群分布不均衡:集群性能/可靠性降低。 |
||
硬件资源告警 |
HardwareResourceAlarm |
重要 |
集群中出现严重的硬件故障,包括:磁盘损坏、GTM网络通信故障。 |
联系SRE。 |
业务部分/全部受损。 |
||
状态转换告警 |
StateTransitionAlarm |
重要 |
集群出现如下重要事件:DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。 |
等待自动恢复,观察业务是否恢复。如果业务未恢复,联系SRE。 |
部分业务受损。 |
||
其他异常告警 |
OtherAbnormalAlarm |
重要 |
磁盘使用阈值告警等。 |
关注业务变化,及时计划扩容。 |
超过使用阈值,将无法扩容。 |
||
实例运行状态异常 |
TaurusInstanceRunningStatusAbnormal |
重要 |
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。 |
提交工单。 |
可能导致数据库服务不可用。 |
||
实例运行状态异常已恢复 |
TaurusInstanceRunningStatusRecovered |
重要 |
针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
节点运行状态异常 |
TaurusNodeRunningStatusAbnormal |
重要 |
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。 |
检查数据库服务是否可以正常使用,并提交工单。 |
可能导致数据库服务不可用。 |
||
节点运行状态异常已恢复 |
TaurusNodeRunningStatusRecovered |
重要 |
针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。 |
不需要处理。 |
无 |
||
创建实例业务失败 |
GaussDBV5CreateInstanceFailed |
重要 |
创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。 |
先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。 |
无法创建数据库实例。 |
||
添加节点失败 |
GaussDBV5ExpandClusterFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。 |
无 |
||
存储扩容失败 |
GaussDBV5EnlargeVolumeFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试扩容操作。 |
如果磁盘满,会导致业务中断。 |
||
重启失败 |
GaussDBV5RestartInstanceFailed |
重要 |
一般是由于网络问题等原因导致 |
重试重启操作或提交工单让运维处理。 |
可能导致数据库服务不可用。 |
||
全量备份失败 |
GaussDBV5FullBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
差量备份失败 |
GaussDBV5DifferentialBackupFailed |
重要 |
一般是备份文件导出失败或上传失败等原因导致。 |
提交工单让运维处理。 |
无法备份数据。 |
||
删除备份失败 |
GaussDBV5DeleteBackupFailed |
重要 |
无需实现。 |
- |
- |
||
绑定EIP失败 |
GaussDBV5BindEIPFailed |
重要 |
弹性公网IP已被占用或IP资源等原因导致。 |
提交工单让运维处理。 |
导致实例无法使用公网链接或访问 |
||
解绑EIP失败 |
GaussDBV5UnbindEIPFailed |
重要 |
网络故障或公网EIP服务故障等原因导致。 |
重新解绑Ip或提交工单让运维处理。 |
可能导致IP资源残留 |
||
参数组应用失败 |
GaussDBV5ApplyParamFailed |
重要 |
一般是由于修改参数组命令超时导致。 |
重新尝试修改参数组操作。 |
无 |
||
参数修改失败 |
GaussDBV5UpdateInstanceParamGroupFailed |
重要 |
一般是由于修改参数组命令超时导致。 |
重新尝试修改参数组操作。 |
无 |
||
备份恢复失败 |
GaussDBV5RestoreFromBcakupFailed |
重要 |
一般是由底层资源不足或备份文件下载失败等原因导致 |
提交工单。 |
可能导致在恢复失败期间数据库服务不可用 |
||
升级热补丁失败 |
GaussDBV5UpgradeHotfixFailed |
重要 |
一般是内核升级时报错导致。 |
查看工作流报错信息,重做跳过等。 |
无 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DDM |
SYS.DDM |
创建实例失败 |
createDdmInstanceFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
释放资源后重新创建。 |
无法创建DDM实例。 |
变更规格失败 |
resizeFlavorFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
请工单联系运维在后台协调资源再重试规格变更操作。 |
部分节点业务中断 |
||
节点扩容失败 |
enlargeNodeFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
请工单联系运维后台协调资源,删除添加失败的节点,重新尝试添加节点 |
节点扩容失败 |
||
节点缩容失败 |
reduceNodeFailed |
重要 |
一般是由于底层释放资源失败等原因导致。 |
请工单联系运维后台处理资源。 |
节点缩容失败 |
||
重启实例失败 |
restartInstanceFailed |
重要 |
一般是由于底层关联数据库实例异常等原因导致。 |
建议先排查底层数据库实例是否异常,如果无异常请工单联系运维进行排查。 |
部分节点业务中断 |
||
创建逻辑库失败 |
createLogicDbFailed |
重要 |
一般是由于以下几种原因导致的: 1、数据库实例账号密码错误;2、DDM实例与底层数据库实例安全组设置错误,导致无法通信。 |
请排查: 1、数据库实例账号密码是否错误;2、DDM实例与底层数据库实例安全组是否设置正确等问题。 |
业务无法正常运行 |
||
绑定弹性公网IP失败 |
bindEipFailed |
重要 |
一般是由于EIP服务繁忙。 |
稍后重试,紧急情况下请联系运维排查问题。 |
无法通过公网访问服务 |
||
逻辑库扩容失败 |
migrateLogicDbFailed |
重要 |
一般是由于底层处理失败。 |
请工单联系运维处理。 |
无法实现逻辑库扩容 |
||
逻辑库扩容重试失败 |
retryMigrateLogicDbFailed |
重要 |
一般是由于底层处理失败。 |
请工单联系运维处理。 |
无法实现逻辑库扩容 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
CPH |
SYS.CPH |
主机关机 |
cphServerOsShutdown |
重要 |
云手机服务器关机。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
异常关机 |
cphServerShutdown |
重要 |
云手机服务器异常关机。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
主机重启 |
cphServerOsReboot |
重要 |
云手机服务器重启。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断 |
||
异常重启 |
cphServerReboot |
重要 |
云手机服务器异常重启。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
网络中断 |
cphServerlinkDown |
重要 |
云手机服务器网络中断。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
业务中断。 |
||
PCIE异常 |
cphServerPcieError |
重要 |
云手机服务器PCIe设备硬件故障。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
影响网络或硬盘读写业务 |
||
硬盘故障 |
cphServerDiskError |
重要 |
云手机服务器磁盘故障。包括:
|
业务应用做成高可用。 云手机服务器恢复后,确认业务是否自动恢复。 |
影响数据读写业务或主机无法启动 |
||
云存储连接异常 |
cphServerStorageError |
重要 |
云手机服务器云硬盘连接异常。包括:
|
业务应用做成高可用。 主机恢复后,确认业务是否自动恢复。 |
影响数据读写业务或主机无法启动 |
||
显卡掉线 |
cphServerGpuOffline |
重要 |
云手机服务器GPU显卡松动掉线 |
云手机服务器进行一次关机、开机操作 |
显卡掉线涉及的云手机出现运行故障,重启重置手机无法恢复 |
||
显卡TimeOut |
cphServerGpuTimeOut |
重要 |
云手机服务器GPU显卡TimeOut |
重启云手机服务器 |
显卡Timeout涉及的云手机出现运行故障,重启重置手机无法恢复 |
||
磁盘空间满 |
cphServerDiskFull |
重要 |
云手机服务器磁盘空间满 |
客户需要清理云手机里的业务数据,释放空间 |
云手机亚健康,容易出现故障无法启动 |
||
磁盘变只读 |
cphServerDiskReadOnly |
重要 |
云手机服务器磁盘变成只读 |
重启云手机服务器 |
云手机亚健康,容易出现故障无法启动 |
||
云手机元数据损坏 |
cphPhoneMetaDataDamage |
重要 |
云手机的容器元数据损坏 |
联系运维处理 |
云手机重启重置无法恢复 |
||
GPU故障 |
gpuAbnormal |
致命 |
GPU发生故障 |
提交工单转运维处理 |
业务中断 |
||
GPU恢复正常 |
gpuNormal |
提示 |
GPU从故障中恢复正常 |
无需处理 |
无 |
||
内核崩溃 |
kernelCrash |
致命 |
内核崩溃crash |
提交工单转运维处理 |
crash期间业务中断 |
||
内核OOM |
kernelOom |
重要 |
内核日志提示out of memory |
提交工单转运维处理 |
业务中断 |
||
硬件故障 |
hardwareError |
致命 |
内核日志报Hardware Error |
提交工单转运维处理 |
业务中断 |
||
PCIE故障 |
pcieAer |
致命 |
内核日志报PCIE Bus Error |
提交工单转运维处理 |
业务中断 |
||
SCSI故障 |
scsiError |
致命 |
内核日志报SCSI error |
提交工单转运维处理 |
业务中断 |
||
镜像存储只读故障 |
partReadOnly |
致命 |
镜像存储分区挂载属性变为readonly |
提交工单转运维处理 |
业务中断 |
||
镜像存储超级块损坏故障 |
badSuperBlock |
致命 |
镜像存储分区相关文件系统超级块损坏 |
提交工单转运维处理 |
业务中断 |
||
镜像存储sharedpath只读故障 |
isuladMasterReadOnly |
致命 |
镜像存储的/.sharedpath/master挂载属性只读 |
提交工单转运维处理 |
业务中断 |
||
云手机数据盘只读故障 |
cphDiskReadOnly |
致命 |
云手机数据盘挂载属性变为readonly |
提交工单转运维处理 |
业务中断 |
||
云手机数据盘超级块损坏故障 |
cphDiskBadSuperBlock |
致命 |
云手机数据盘相关文件系统超级块损坏 |
提交工单转运维处理 |
业务中断 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
L2CG |
SYS.ESW |
IP地址冲突 |
IPConflict |
重要 |
一般是由于线上(本端子网)与线下(远端网段)存在相关IP地址的主机导致。 |
通过查看ARP、交换机信息等措施,排查出具体IP冲突的主机,根据业务场景调整IP避免冲突。 |
可能导致冲突IP相关网络通信异常。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|---|
弹性公网IP和带宽 |
SYS.VPC |
删除VPC |
deleteVpc |
重要 |
修改VPC |
modifyVpc |
次要 |
||
删除Subnet |
deleteSubnet |
次要 |
||
修改Subnet |
modifySubnet |
次要 |
||
修改带宽 |
modifyBandwidth |
次要 |
||
删除VPN |
deleteVpn |
重要 |
||
修改VPN |
modifyVpn |
次要 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
EVS |
SYS.EVS |
更新磁盘 |
updateVolume |
次要 |
更新一个云硬盘的名称和描述。 |
无需处理。 |
无。 |
扩容磁盘 |
extendVolume |
次要 |
对云硬盘进行扩容。 |
无需处理。 |
无。 |
||
删除磁盘 |
deleteVolume |
重要 |
删除一个云硬盘。 |
无需处理。 |
删除的磁盘将不能被恢复。 |
||
磁盘性能达到QoS上限 |
reachQoS |
重要 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大。 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格。 |
磁盘性能频繁达到该规格的QoS上限,从而触发流控,导致IO访问时延变大,意味该类型的磁盘可能无法满足当前业务需求,建议提升磁盘规格 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|---|
SYS.IAM |
用户登录 |
login |
次要 |
|
用户登出 |
logout |
次要 |
||
登录重置密码 |
changePassword |
重要 |
||
创建用户 |
createUser |
次要 |
||
删除用户 |
deleteUser |
重要 |
||
修改用户 |
updateUser |
次要 |
||
创建用户组 |
createUserGroup |
次要 |
||
删除用户组 |
deleteUserGroup |
重要 |
||
修改用户组 |
updateUserGroup |
次要 |
||
创建idp |
createIdentityProvider |
次要 |
||
删除idp |
deleteIdentityProvider |
重要 |
||
修改idp |
updateIdentityProvider |
次要 |
||
更新metadata |
updateMetadata |
次要 |
||
更新账号登录策略 |
updateSecurityPolicies |
重要 |
||
创建AK/SK |
addCredential |
重要 |
||
删除AK/SK |
deleteCredential |
重要 |
||
创建project |
createProject |
次要 |
||
更新project |
updateProject |
次要 |
||
冻结项目 |
suspendProject |
重要 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|---|
KMS |
SYS.KMS |
禁用密钥 |
disableKey |
重要 |
计划删除密钥 |
scheduleKeyDeletion |
次要 |
||
退役授权 |
retireGrant |
重要 |
||
撤销授权 |
revokeGrant |
重要 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
---|---|---|---|---|
OBS |
SYS.OBS |
删除桶 |
deleteBucket |
重要 |
删除桶policy配置 |
deleteBucketPolicy |
重要 |
||
设置桶的ACL |
setBucketAcl |
次要 |
||
设置桶的策略 |
setBucketPolicy |
次要 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
---|---|---|---|---|---|---|
Cloud Eye |
SYS. CES |
插件故障事件 |
agentHeartbeatInterrupted |
重要 |
监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 |
|
插件已恢复 |
agentResumed |
提示 |
客户端插件已恢复运行。 |
不需要处理。 |
||
插件已故障 |
agentFaulty |
重要 |
客户端插件运行故障,上报对应状态。 |
Agent进程故障,先尝试重启Agent。如果重启后状态还是故障,可能Agent相关文件被破坏,请尝试重新安装Agent。 请将Agent更新为最新版本。 |
||
插件已断联 |
agentDisconnected |
重要 |
监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 |
查看Agent域名是否无法解析。 查看账号是否欠费。 Agent进程故障,先尝试重启Agent。如果重启后状态还是故障,可能Agent相关文件被破坏,请尝试重新安装Agent。 查看服务器内部时间和本地标准时间不一致。 使用的DNS非华为云DNS,请通过执行dig+目标域名获取到agent.ces.myhuaweicloud.com在华为云内网DNS下解析到的IP后再添加对应的hosts。请将Agent更新为最新版本。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
Data Space |
SYS.HWDS |
新增修订版本 |
newRevision |
次要 |
数据产品发布了新的修订版本。 |
收到事件通知后根据需要导出新的修订版本数据。 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
ESW |
SYS.ESW |
IP地址冲突 |
IPConflict |
重要 |
L2互联场景:一般是由于线上(本端子网)与线下(远端网段)存在相关IP地址的主机导致。 |
通过查看ARP、交换机信息等措施,排查出具体IP冲突的主机,根据业务场景调整IP避免冲突。 |
可能导致冲突IP相关网络通信异常。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
C SMS |
SYS.CSMS |
操作待删除凭据 |
operateDeletedSecret |
重要 |
用户调用接口操作计划删除状态凭据。 |
用户可以考虑取消删除该凭据。 |
到期删除的凭据无法恢复。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DCS |
SYS.DCS |
在线迁移发生全量重试 |
migrationFullResync |
次要 |
在线迁移在重试时,因无法进行增量同步,而触发了全量同步。 |
确认是否发生反复的全量重试,需要检查到源端的网络连接是否正常,是否源端压力过大。如果反复全量重试,联系运维人员处理。 |
迁移任务与源实例发生中断,重新触发了全量同步,可能导致源实例CPU冲高。 |
实例主备切换(故障切换) |
masterStandbyFailover |
次要 |
Redis主节点异常,触发主从倒换机制,备节点升主。 |
检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 |
实例长连接会中断。 |
||
Memcached主从倒换 |
memcachedMasterStandbyFailover |
次要 |
Memcached主节点异常,触发主从倒换机制,备节点升主。 |
检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 |
实例长连接会中断。 |
||
Redis节点状态异常 |
redisNodeStatusAbnormal |
重要 |
Redis节点状态异常。 |
检查业务是否受影响 ,如果影响联系运维人员处理。 |
节点状态异常,主节点异常会自动主备切换。从节点异常,如果客户端直连从节点进行读写分离,读操作会出现异常。 |
||
Redis节点状态恢复正常 |
redisNodeStatusNormal |
重要 |
Redis节点从异常恢复正常。 |
检查业务是否恢复。如果应用未重连,需要重启应用进行恢复。 |
异常恢复事件。 |
||
数据迁移同步失败 |
migrateSyncDataFail |
重要 |
执行在线迁移任务时,迁移任务失败。 |
重新配置迁移任务重试迁移。如果仍然失败,联系运维人员处理。 |
数据迁移失败。 |
||
Memcached实例状态异常 |
memcachedInstanceStatusAbnormal |
重要 |
Memcached节点状态异常。 |
检查业务是否受影响 ,如果影响联系运维人员处理。 |
Memcached实例状态异常,实例可能无法访问。 |
||
Memcached实例状态异常恢复 |
memcachedInstanceStatusNormal |
重要 |
Memcached节点从异常恢复正常。 |
检查业务是否恢复。如果应用未重连,需要重启应用进行恢复。 |
异常恢复事件。 |
||
实例备份失败 |
instanceBackupFailure |
重要 |
DCS实例备份失败,一般可能是由于访问OBS失败等原因导致。 |
手动备份进行重试。 |
自动备份失败。 |
||
实例节点异常重启 |
instanceNodeAbnormalRestart |
重要 |
一般是由于DCS实例节点异常后重启导致。 |
检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 |
实例长连接会中断。 |
||
终止超时lua脚本 |
scriptsStopped |
提醒 |
一般是由于lua脚本运行时间过长,自动终止脚本运行。 |
优化lua脚本,防止执行超时。 |
lua脚本执行时间超长,被强制中断。lua脚本执行时间过长,会阻塞整个实例。 |
||
节点自动重启 |
nodeRestarted |
提醒 |
一般是由于lua脚本运行时间过长,并且已执行写操作,自动重启节点终止脚本运行。 |
检查业务是否自愈。如果应用未恢复,需要重启应用进行恢复。 |
实例长连接会中断。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
ICA |
SYS.ICA |
BGP peer连接中断 |
BgpPeerDisconnection |
重要 |
BGP peer连接中断 |
登录网关设备,排查bgp peer断连原因 |
业务流量有可能会中断 |
BGP peer连接成功 |
BgpPeerConnectionSuccess |
重要 |
BGP peer连接成功 |
无 |
无 |
||
GRE隧道状态异常 |
AbnormalGreTunnelStatus |
重要 |
GRE隧道状态异常 |
登录网关设备,排查gre隧道状态异常原因 |
业务流量有可能会中断 |
||
GRE隧道状态正常 |
NormalGreTunnelStatus |
重要 |
GRE隧道状态正常 |
无 |
无 |
||
设备wan口上线 |
EquipmentWanGoingOnline |
重要 |
设备wan口上线 |
无 |
无 |
||
设备wan口下线 |
EquipmentWanGoingOffline |
重要 |
设备wan口下线 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
||
智能企业网关设备上线 |
IntelligentEnterpriseGatewayGoingOnline |
重要 |
智能企业网关设备上线 |
无 |
无 |
||
智能企业网关设备下线 |
IntelligentEnterpriseGatewayGoingOffline |
重要 |
智能企业网关设备下线 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
MAS |
SYS.MAS |
数据库状态异常 |
dbError |
重要 |
一般是由于MAS监控到用户数据库实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
数据库状态恢复 |
dbRecovery |
重要 |
数据库实例状态从异常恢复正常。 |
无。 |
业务中断 |
||
Redis状态异常 |
redisError |
重要 |
一般是由于MAS监控到用户Redis实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
Redis状态恢复 |
redisRecovery |
重要 |
Redis实例状态从异常恢复正常。 |
无。 |
业务中断 |
||
MongoDB状态异常 |
mongodbError |
重要 |
一般是由于MAS监控到用户MongoDB实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
MongoDB状态恢复 |
mongodbRecovery |
重要 |
API状态从异常恢复正常。 |
无。 |
业务中断 |
||
Elasticsearch状态异常 |
esError |
重要 |
一般是由于MAS监控到用户ElasticSearch实例状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
Elasticsearch状态恢复 |
esRecovery |
重要 |
ElasticSearch实例状态从异常恢复正常。 |
无。 |
业务中断 |
||
API接口状态异常 |
apiError |
重要 |
一般是由于MAS监控到用户API状态导致的。 |
用户登录MAS控制台查看原因及处理异常。 |
业务中断 |
||
API接口状态恢复 |
apiRecovery |
重要 |
API状态从异常恢复正常。 |
无。 |
业务中断 |
||
多活分区状态发生变化 |
netChange |
重要 |
MAS服务多活管理中心探测到多活分区状态发生变化 |
用户登录MAS控制台查看原因及处理异常。 |
可能导致多活分区网络的状态改变。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
Config |
SYS. RMS |
配置不合规通知 |
configurationNoncomplianceNotification |
重要 |
审计规则执行结果为不合规。 |
修改资源不合规的配置项,使其合规。 |
无。 |
配置合规通知 |
configurationComplianceNotification |
提示 |
审计规则执行结果变为合规。 |
无。 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
SecMaster |
SYS.SecMaster |
独享引擎创建失败 |
createEngineFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
提交工单让运维在后台协调资源再重试。 |
无法创建独享引擎。 |
独享引擎运行异常 |
engineException |
紧急 |
一般是由于流量过大或者恶意流程,插件导致。 |
|
无法执行实例。 |
||
剧本实例执行失败 |
playbookInstanceExecFailed |
一般 |
一般是由于剧本,流程配置出错导致。 |
通过实例监控查看失败原因,修改剧本,流程配置。 |
无。 |
||
剧本实例突增 |
playbookInstanceIncreaseSharply |
一般 |
一般是由于剧本,流程配置出错导致。 |
通过实例监控查看突增原因,修改剧本,流程配置。 |
无。 |
||
日志消息突增 |
logIncrease |
重要 |
上游服务产生大量日志,导致消息快速增加。 |
需要排查上游服务业务是否正常。 |
无。 |
||
日志消息突减 |
logsDecrease |
重要 |
上游服务产生日志突然变小。 |
需要排查上游服务业务是否正常 |
无。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
KPS |
SYS.KPS |
删除密钥对 |
KPSDeleteKeypair |
提示 |
成功删除密钥对,此操作不可逆。 |
当短时间内大量触发此事件时,要检查是否出现恶意删除的情况。 |
被删除密钥对无法恢复。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
HSS |
SYS.HSS |
企业主机安全服务Agent异常离线 |
hssAgentAbnormalOffline |
重要 |
一般是由于Agent与服务器通信异常,主机中的Agent进程异常等原因导致。 |
排查网络故障,待网络恢复正常后,若长时间Agent状态仍为“离线”,可能是Agent进程异常,需要登录主机,重启Agent进程。 |
业务中断。 |
企业主机安全服务Agent防护状态异常 |
hssAgentAbnormalProtection |
重要 |
一般是由于底层资源不足造成Agent工作模式异常等原因导致。 |
登录主机检查资源,如发现内存或者其他系统资源过高等情况,建议优先扩容处理。如果资源够用,重启Agent进程后还是异常,提交工单让运维处理 |
业务中断。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
IMS |
SYS.IMS |
创建镜像 |
createImage |
重要 |
用户创建私有镜像 |
无 |
镜像创建完成后,可使用该镜像创建云服务器。 |
更新镜像 |
updateImage |
重要 |
用户更新私有镜像元数据 |
无 |
更新镜像关键元数据可能导致该镜像创建云服务器失败。 |
||
删除镜像 |
deleteImage |
重要 |
用户删除私有镜像 |
无 |
不能使用该镜像创建云服务器。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
---|---|---|---|---|---|
CSG |
SYS.CSG |
网关进程状态异常 |
gatewayProcessStatusAbnormal |
重要 |
当云存储网关进程状态异常时,则触发进程状态异常事件。 |
网关连接状态异常 |
gatewayToServiceConnectAbnormal |
重要 |
当云存储网关连续5个周期无状态上报时,则触发连接异常事件。 |
||
网关与OBS连接状态异常 |
gatewayToObsConnectAbnormal |
重要 |
当云存储网关无法连接到OBS时,则触发该事件。 |
||
文件系统只读 |
gatewayFileSystemReadOnly |
重要 |
当云存储网关上的分区文件系统只读时,则触发该事件。 |
||
文件共享只读 |
gatewayFileShareReadOnly |
重要 |
当文件共享因缓存盘存储空间不足,文件共享只读时,则触发该事件。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
GA |
SYS.GA |
AIP封堵 |
blockAIP |
紧急 |
带宽超过5GB就会封堵,相当于把流量直接丢弃。带宽严重超限或受到攻击,一般是受到了DDoS攻击。 |
查看事件中的封堵原因,进行相应处理。 |
业务受影响。 |
AIP解封 |
unblockAIP |
紧急 |
AIP封堵已被解封。 |
查看加速资源是否可用。 |
无。 |
||
终端节点健康状态异常 |
healthCheckError |
重要 |
通过健康检查探测终端节点状态异常。 |
根据终端节点的健康检查结果异常如何排查?文档排查原因,未解决则提交工单。 |
当健康检查探测到您的终端节点异常时,不再向异常的终端节点转发流量,直到健康检查检测到终端节点恢复正常时,才会继续转发流量。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
EC |
SYS.EC |
设备wan口上线 |
EquipmentWanGoesOnline |
重要 |
设备wan口上线 |
无 |
无 |
设备wan口下线 |
EquipmentWanGoesOffline |
重要 |
设备wan口下线 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
||
BGP peer连接中断 |
BgpPeerDisconnection |
重要 |
BGP peer连接中断 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
||
BGP peer连接成功 |
BgpPeerConnectionSuccess |
重要 |
BGP peer连接成功 |
无 |
无 |
||
GRE隧道状态异常 |
AbnormalGreTunnelStatus |
重要 |
GRE隧道状态异常 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
||
GRE隧道状态正常 |
NormalGreTunnelStatus |
重要 |
GRE隧道状态正常 |
无 |
无 |
||
智能企业网关设备上线 |
IntelligentEnterpriseGatewayGoesOnline |
重要 |
智能企业网关设备上线 |
无 |
无 |
||
智能企业网关设备下线 |
IntelligentEnterpriseGatewayGoesOffline |
重要 |
智能企业网关设备下线 |
检查是否为人为操作或设备故障 |
设备无法正常使用 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
SYS.MRS |
DBServer主备倒换 |
dbServerSwitchover |
次要 |
DBServer主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致。 |
连续触发主备倒换可能影响Hive服务正常使用,导致Hive服务不可用。 |
|
Flume Channel溢出 |
flumeChannelOverflow |
次要 |
Flume Channel溢出 |
确认flume的channel配置是否合理,业务量是否有突增。 |
Flume任务无法正常写入数据到后端。 |
||
NameNode主备倒换 |
namenodeSwitchover |
次要 |
NameNode主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致。 |
连续触发主备倒换可能影响HDFS服务正常使用,读写HDFS文件可能失败。 |
||
ResourceManager主备倒换 |
resourceManagerSwitchover |
次要 |
ResourceManager主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响Yarn服务正常使用,导致任务出现异常甚至失败 |
||
JobHistoryServer主备倒换 |
jobHistoryServerSwitchover |
次要 |
JobHistoryServer主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响MapReduce服务正常使用,导致任务日志读取异常 |
||
HMaster主备倒换 |
hmasterFailover |
次要 |
HMaster主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响HBase服务正常使用 |
||
Hue发生主备切换 |
hueFailover |
次要 |
Hue发生主备切换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
主备倒换可能影响HUE服务正常使用,导致页面无法使用等问题 |
||
Impala HaProxy服务发生主备切换 |
impalaHaProxyFailover |
次要 |
Impala HaProxy服务发生主备切换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响Impala服务正常使用 |
||
Impala StateStoreCatalog服务发生主备切换 |
impalaStateStoreCatalogFailover |
次要 |
Impala StateStoreCatalog服务发生主备切换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响Impala服务正常使用 |
||
LdapServer主备倒换 |
ldapServerFailover |
次要 |
LdapServer主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
连续触发主备倒换可能影响LdapServer服务正常使用 |
||
Loader主备倒换 |
loaderSwitchover |
次要 |
Loader主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
主备倒换可能影响Loader服务正常使用 |
||
Manager主备倒换 |
managerSwitchover |
提示 |
Manager主备倒换 |
主备倒换需要和运维人员确认是否为正常操作导致 |
Manager主备倒换可能导致Manager页面无法正常访问,部分监控可能出现异常数值 |
||
作业执行失败 |
jobRunningFailed |
提示 |
作业执行失败 |
查看作业管理页面,确认失败任务是否有异常 |
作业执行过程出现失败 |
||
作业被终止 |
jobkilled |
提示 |
作业被终止 |
确认任务是否人为下发终止命令 |
作业执行过程被终止 |
||
Oozie工作流执行失败 |
oozieWorkflowExecutionFailure |
次要 |
Oozie工作流执行失败 |
查看Oozie日志,确认任务失败原因 |
Oozie工作流执行失败 |
||
Oozie定时任务执行失败 |
oozieScheduledJobExecutionFailure |
次要 |
Oozie定时任务执行失败 |
查看Oozie日志,确认任务失败原因 |
Oozie定时任务执行失败 |
||
ClickHouse服务不可用 |
clickHouseServiceUnavailable |
紧急 |
ClickHouse服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-45425 ClickHouse服务不可用”章节。 |
ClickHouse服务异常,无法通过 FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。 |
||
DBService服务不可用 |
dbServiceServiceUnavailable |
紧急 |
DBService服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-27001 DBService服务不可用”章节。 |
数据库服务不可用,无法对上层服务提供数据入库、查询等功能,使部分服务异常。 |
||
DBService主备节点间心跳中断 |
dbServiceHeartbeatInterruptionBetweentheActiveAndStandbyNodes |
重要 |
DBService主备节点间心跳中断 |
请参考《MapReduce服务用户指南》的“ALM-27003 DBService主备节点间心跳中断”章节。 |
DBService主备间心跳中断时只有一个节点提供服务,一旦该节点故障,再无法切换到备节点,就会服务不可用。 |
||
DBService主备数据不同步 |
dataInconsistencyBetweenActiveAndStandbyDBServices |
紧急 |
DBService主备数据不同步 |
请参考《MapReduce服务用户指南》的“ALM-27004 DBService主备数据不同步”章节。 |
主备DBServer数据不同步,如果此时主实例异常,则会出现数据丢失或者数据异常的情况。 |
||
数据库进入只读模式 |
databaseEnterstheReadOnlyMode |
紧急 |
数据库进入只读模式 |
请参考《MapReduce服务用户指南》的“ALM-27007 数据库进入只读模式”章节。 |
数据库进入只读模式,业务数据丢失。 |
||
Flume服务不可用 |
flumeServiceUnavailable |
紧急 |
Flume服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-24000 Flume服务不可用”章节。 |
当Flume服务不可用时,Flume不能正常工作,数据传输业务中断。 |
||
Flume Agent异常 |
flumeAgentException |
重要 |
Flume Agent异常 |
请参考《MapReduce服务用户指南》的“ALM-24001 Flume Agent异常”章节。 |
产生告警的Flume Agent实例无法正常启动,定义在该实例下的数据传输任务暂时中断,对于实时数据传输,会丢失实时数据。 |
||
Flume Client连接中断 |
flumeClientDisconnected |
重要 |
Flume Client连接中断 |
请参考《MapReduce服务用户指南》的“ALM-24003 Flume Client连接中断”章节。 |
产生告警的Flume Client无法与Flume Server端进行通信,Flume Client端的数据无法传输到Flume Server端。 |
||
Flume读取数据异常 |
exceptionOccursWhenFlumeReadsData |
重要 |
Flume读取数据异常 |
请参考《MapReduce服务用户指南》的“ALM-24004 Flume读取数据异常”章节。 |
如果数据源有数据,Flume Source持续读取不到数据,数据采集会停止。 |
||
Flume传输数据异常 |
exceptionOccursWhenFlumeTransmitsData |
重要 |
Flume传输数据异常 |
请参考《MapReduce服务用户指南》的“ALM-24005 Flume传输数据异常”章节。 |
Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 |
||
Flume 证书文件非法或已损坏 |
flumeCertificateFileIsinvalid |
重要 |
Flume 证书文件非法或已损坏 |
请参考《MapReduce服务用户指南》的“ALM-24010 Flume证书文件非法或已损坏”章节。 |
Flume证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 |
||
Flume 证书文件即将过期 |
flumeCertificateFileIsAboutToExpire |
重要 |
Flume 证书文件即将过期 |
请参考《MapReduce服务用户指南》的“ALM-24011 Flume证书文件即将过期”章节。 |
Flume证书文件即将失效,对系统目前运行无影响。 |
||
Flume 证书文件已过期 |
flumeCertificateFileIsExpired |
重要 |
Flume 证书文件已过期 |
请参考《MapReduce服务用户指南》的“ALM-24012 Flume证书文件已过期”章节。 |
Flume证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 |
||
Flume MonitorServer证书文件失效 |
flumeMonitorServerCertificateFileIsInvalid |
重要 |
Flume MonitorServer证书文件失效 |
请参考《MapReduce服务用户指南》的“ALM-24013 Flume MonitorServer证书文件非法或已损坏”章节。 |
MonitorServer证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 |
||
Flume MonitorServer证书文件即将过期 |
flumeMonitorServerCertificate FileIsAboutToExpire |
重要 |
Flume MonitorServer证书文件即将过期 |
请参考《MapReduce服务用户指南》的“ALM-24014 Flume MonitorServer证书文件即将过期”章节。 |
MonitorServer证书文件即将失效,对系统目前运行无影响。 |
||
Flume MonitorServer证书文件已过期 |
flumeMonitorServerCertificateFileIsExpired |
重要 |
Flume MonitorServer证书文件已过期 |
请参考《MapReduce服务用户指南》的“ALM-24015 Flume MonitorServer证书文件已过期”章节。 |
MonitorServer证书文件已过期,功能受限,Flume客户端将无法访问Flume服务端。 |
||
HDFS服务不可用 |
hdfsServiceUnavailable |
紧急 |
HDFS服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-14000 HDFS服务不可用”章节。 |
无法为基于HDFS服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 |
||
NameService服务异常 |
nameServiceServiceUnavailable |
重要 |
NameService服务异常 |
请参考《MapReduce服务用户指南》的“ALM-14010 NameService服务异常”章节。 |
无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。 |
||
DataNode数据目录配置不合理 |
datanodeDataDirectoryIsNotConfiguredProperly |
重要 |
DataNode数据目录配置不合理 |
请参考《MapReduce服务用户指南》的“ALM-14011 DataNode数据目录配置不合理”章节。 |
如果将DataNode数据目录挂载在根目录等系统关键目录,长时间运行后会将根目录写满,导致系统故障。 不合理的DataNode数据目录配置,会造成HDFS的性能下降。 |
||
Journalnode数据不同步 |
journalnodeIsOutOfSynchronization |
重要 |
Journalnode数据不同步 |
请参考《MapReduce服务用户指南》的“ALM-14012 Journalnode数据不同步”章节。 |
当一个JournalNode节点工作状态异常时,其数据就会与其他JournalNode节点的数据不同步。如果超过一半的JournalNode节点的数据不同步时,NameNode将无法工作,导致HDFS服务不可用。 |
||
NameNode FsImage文件更新失败 |
failedToUpdateTheNameNodeFsImageFile |
重要 |
NameNode FsImage文件更新失败 |
请参考《MapReduce服务用户指南》的“ALM-14013 NameNode FsImage文件更新失败”章节。 |
如果主NameNode数据目录的FsImage没有更新,则说明HDFS元数据合并功能异常,需要修复。如不修复,HDFS在运行一段时间后,Editlog会一直增长。此时如果重启HDFS,由于要加载非常多的Editlog,会导致启动非常耗时。另外,该告警的产生也说明备NameNode功能异常,导致NameNode的HA机制失效。一旦主NameNode故障,则整个HDFS服务将不可用。 |
||
DataNode磁盘故障 |
datanodeDiskFault |
重要 |
DataNode磁盘故障 |
请参考《MapReduce服务用户指南》的“ALM-14027 DataNode磁盘故障”章节。 |
上报DataNode磁盘故障告警时,表示该DataNode节点上存在故障的磁盘分区,可能会导致已写入的文件丢失。 |
||
Yarn服务不可用 |
yarnServiceUnavailable |
紧急 |
Yarn服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-18000 Yarn服务不可用”章节。 |
集群无法提供Yarn服务。用户无法执行新的application。已提交的application无法执行。 |
||
NodeManager心跳丢失 |
nodemanagerHeartbeatLost |
重要 |
NodeManager心跳丢失 |
请参考《MapReduce服务用户指南》的“ALM-18002 NodeManager心跳丢失”章节。 |
丢失的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 |
||
NodeManager不健康 |
nodemanagerUnhealthy |
重要 |
NodeManager不健康 |
请参考《MapReduce服务用户指南》的“ALM-18003 NodeManager不健康”章节。 |
故障的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。 |
||
Yarn 任务执行超时 |
yarnApplicationTimeout |
次要 |
Yarn 任务执行超时 |
请参考《MapReduce服务用户指南》的“ALM-18020 Yarn任务执行超时”章节。 |
任务执行超时后的运行时间内,该告警一直存在,但任务仍继续正常执行,没有任何影响。 |
||
Mapreduce服务不可用 |
mapreduceServiceUnavailable |
紧急 |
Mapreduce服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-18021 Mapreduce服务不可用”章节。 |
集群无法提供Mapreduce服务,如无法通过Mapreduce查看任务日志,无法提供Mapreduce服务的日志归档功能等。 |
||
Yarn队列资源不足 |
insufficientYarnQueueResources |
次要 |
Yarn队列资源不足 |
请参考《MapReduce服务用户指南》的“ALM-18022 Yarn队列资源不足”章节。 |
应用任务结束时间变长。 新应用提交后长时间无法运行。 |
||
HBase服务不可用 |
hbaseServiceUnavailable |
紧急 |
HBase服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-19000 HBase服务不可用”章节。 |
无法进行数据读写和创建表等操作。 |
||
HBase系统表目录或文件丢失 |
systemTablePathOrFileOfHBaseIsMissing |
紧急 |
HBase系统表目录或文件丢失 |
请参考《MapReduce服务用户指南》的“ALM-19012 HBase系统表目录或文件丢失”章节。 |
HBase服务重启/启动失败。 |
||
Hive服务不可用 |
hiveServiceUnavailable |
紧急 |
Hive服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-16004 Hive服务不可用”章节。 |
Hive无法提供数据加载,查询,提取服务。 |
||
Hive 数据仓库 被删除 |
hiveDataWarehouseIsDeleted |
紧急 |
Hive数据仓库被删除 |
请参考《MapReduce服务用户指南》的“ALM-16045 Hive数据仓库被删除”章节。 |
Hive默认数据仓库被删除,会导致在默认数据仓库中创建库、创建表失败,影响业务正常使用。 |
||
Hive数据仓库权限被修改 |
hiveDataWarehousePermissionIsModified |
紧急 |
Hive数据仓库权限被修改 |
请参考《MapReduce服务用户指南》的“ALM-16046 Hive数据仓库权限被修改”章节。 |
Hive默认数据仓库的权限被修改,会影响当前用户,用户组,其他用户在默认数据仓库中创建库、创建表等操作的操作权限范围。会扩大或缩小权限。 |
||
HiveServer已从Zookeeper注销 |
hiveServerHasBeenDeregisteredFromZookeeper |
重要 |
HiveServer已从Zookeeper注销 |
请参考《MapReduce服务用户指南》的“ALM-16047 HiveServer已从Zookeeper注销”章节。 |
当无法在Zookeeper上读取到Hive的配置,将会导致HiveServer不可用。 |
||
tez或者spark库路径不存在 |
tezlibOrSparklibIsNotExist |
重要 |
tez或者spark库路径不存在 |
请参考《MapReduce服务用户指南》的“ALM-16048 Tez或者Spark库路径不存在”章节。 |
Tez或者Spark库路径不存在,会影响Hive on Tez,Hive on Spark的功能。 |
||
Hue服务不可用 |
hueServiceUnavailable |
紧急 |
Hue服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-20002 Hue服务不可用”章节。 |
系统无法提供数据加载,查询,提取服务。 |
||
Impala服务不可用 |
impalaServiceUnavailable |
紧急 |
Impala服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-29000 Impala服务不可用”章节。 |
Impala服务异常,无法通过FusionInsight Manager对Impala进行集群操作,无法使用Impala服务功能。 |
||
Kafka服务不可用 |
kafkaServiceUnavailable |
紧急 |
Kafka服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-38000 Kafka服务不可用”章节。 |
集群无法对外提供Kafka服务,用户无法执行新的Kafka任务。 |
||
Kafka默认用户状态异常 |
statusOfKafkaDefaultUserIsAbnormal |
紧急 |
Kafka默认用户状态异常 |
请参考《MapReduce服务用户指南》的“ALM-38007 Kafka默认用户状态异常”章节。 |
Kafka默认用户状态异常,会影响Broker之间的元数据同步,以及Kafka与ZooKeeper之间的交互,进而影响业务生产、消费和Topic的创建、删除等操作。 |
||
Kafka数据目录状态异常 |
abnormalKafkaDataDirectoryStatus |
重要 |
Kafka数据目录状态异常 |
请参考《MapReduce服务用户指南》的“ALM-38008 Kafka数据目录状态异常”章节。 |
Kafka数据目录状态异常,会导致该数据目录上所有Partition的当前副本下线,多个节点同时出现数据目录状态异常,可能会导致部分Partition不可用。 |
||
存在单副本的Topic |
topicsWithSingleReplica |
警告 |
存在单副本的Topic |
请参考《MapReduce服务用户指南》的“ALM-38010 存在单副本的Topic”章节。 |
单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 |
||
KrbServer服务不可用 |
krbServerServiceUnavailable |
紧急 |
KrbServer服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-25500 KrbServer服务不可用”章节。 |
告警发生时,不能对集群中的组件KrbServer进行任何操作。其它组件的KrbServer认证将受影响。集群中依赖KrbServer的组件运行状态将为故障。 |
||
Kudu服务不可用 |
kuduServiceUnavailable |
紧急 |
Kudu服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-29100 Kudu服务不可用”章节。 |
用户无法使用Kudu服务。 |
||
LdapServer服务不可用 |
ldapServerServiceUnavailable |
紧急 |
LdapServer服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-25000 LdapServer服务不可用”章节。 |
告警发生时,不能对集群中的KrbServer和LdapServer用户进行任何操作。例如,无法在FusionInsight Manager页面添加、删除或修改任何用户、用户组或角色,也无法修改用户密码。集群中原有的用户验证不受影响。 |
||
LdapServer数据同步异常 |
abnormalLdapServerDataSynchronization |
紧急 |
LdapServer数据同步异常 |
请参考《MapReduce服务用户指南》的“ALM-25004 LdapServer数据同步异常”章节。 |
LdapServer数据不一致时,有可能是Manager上的LdapServer数据损坏,也有可能是集群上的LdapServer数据损坏,此时数据损坏的LdapServer进程将无法对外提供服务,影响Manager和集群的认证功能。 |
||
Nscd服务异常 |
nscdServiceIsAbnormal |
重要 |
Nscd服务异常 |
请参考《MapReduce服务用户指南》的“ALM-25005 Nscd服务异常”章节。 |
nscd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到Ldap中的数据,影响上层业务。 |
||
Sssd服务异常 |
sssdServiceIsAbnormal |
重要 |
Sssd服务异常 |
请参考《MapReduce服务用户指南》的“ALM-25006 Sssd服务异常”章节。 |
sssd服务异常时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到ldap中的数据,影响上层业务。 |
||
Loader服务不可用 |
loaderServiceUnavailable |
紧急 |
Loader服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-23001 Loader服务不可用”章节。 |
如果Loader服务不可用,数据加载,导入,转换的功能也不可用。 |
||
Oozie服务不可用 |
oozieServiceUnavailable |
紧急 |
Oozie服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-17003 Oozie服务不可用”章节。 |
无法使用Oozie服务提交作业。 |
||
Ranger服务不可用 |
rangerServiceUnavailable |
紧急 |
Ranger服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-45275 Ranger服务不可用”章节。 |
当Ranger服务不可用时,Ranger无法正常工作,Ranger原生UI无法访问。 |
||
RangerAdmin状态异常 |
abnormalRangerAdminStatus |
重要 |
RangerAdmin状态异常 |
请参考《MapReduce服务用户指南》的“ALM-45276 RangerAdmin状态异常”章节。 |
当存在单个RangerAdmin状态异常时,不影响Ranger原生UI访问;当两个RangerAdmin状态异常时,Ranger原生UI无法访问,无法执行创建、修改、删除策略等操作。 |
||
Spark2x服务不可用 |
spark2xServiceUnavailable |
紧急 |
Spark2x服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-43001 Spark2x服务不可用”章节。 |
用户提交的Spark任务执行失败。 |
||
Storm服务不可用 |
stormServiceUnavailable |
紧急 |
Storm服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-26051 Storm服务不可用”章节。 |
集群无法对外提供Storm服务,用户无法执行新的Storm任务。 |
||
ZooKeeper服务不可用 |
zooKeeperServiceUnavailable |
紧急 |
ZooKeeper服务不可用 |
请参考《MapReduce服务用户指南》的“ALM-13000 ZooKeeper服务不可用”章节。 |
ZooKeeper无法为上层组件提供协调服务,依赖ZooKeeper的组件可能无法正常运行。 |
||
ZooKeeper中组件顶层目录的配额设置失败 |
failedToSetTheQuotaOfTopDirectoriesOfZooKeeperComponent |
次要 |
ZooKeeper中组件顶层目录的配额设置失败 |
请参考《MapReduce服务用户指南》的“ALM-13005 ZooKeeper中组件顶层目录的配额设置失败”章节。 |
组件可以向对应的ZooKeeper顶层目录中写入大量数据,导致Zookeeper服务不可用。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
CCM |
SYS.CCM |
吊销证书 |
CCMRevokeCertificate |
重要 |
证书发起吊销,吊销后证书将不可使用 |
检查吊销证书是否在预期内,可以终止吊销行为。 |
证书吊销后,会导致业务中断。 |
自动部署证书失败 |
CCMAutoDeploymentFailure |
重要 |
自动部署证书任务发生失败 |
及时关注并且检查被替换证书的服务资源是否正常。 |
证书过期后未部署新证书,会导致业务中断。 |
||
证书过期 |
CCMCertificateExpiration |
重要 |
SSL证书过期 |
及时购买新证书。 |
证书过期后未部署新证书,会导致业务中断。 |
||
证书即将过期 |
CCMcertificateAboutToExpiration |
重要 |
SSL证书即将过期,与当前时间相隔一周,一个月,两个月的证书定义为即将到期的证书 |
及时续费或者购买新证书。 |
证书过期后未部署新证书,会导致业务中断。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
Workspace |
SYS.Workspace |
桌面心跳异常 |
desktopStatusAbnormal |
重要 |
一般是由于桌面网络不通、密钥丢失等原因。 |
|
桌面无法接入使用。 |
桌面池分配桌面失败 |
desktopPoolAssignFailed |
重要 |
一般是由于策略等原因导致。 |
|
无法分配新的桌面。 |
||
桌面接入失败 |
desktopAccessFailed |
重要 |
一般是由于关机重启、接入网关异常、网络故障等原因。 |
|
桌面无法接入使用。 |
||
桌面开机失败 |
desktopStartFailed |
重要 |
一般是由于底层资源不足等原因导致。 |
等待一段时间后尝试重新开机。 |
桌面无法接入使用。 |
||
桌面池自动扩容失败 |
desktopPoolExpandFailed |
重要 |
一般是由于实例配额不足或底层资源不足等原因导致。 |
|
无法扩容新的桌面。 |
||
专属主机桌面迁移失败 |
desktopMigrateFailed |
重要 |
一般是由于主机异常导致 |
|
桌面可能无可用专属主机调度。 |
事件来源 |
命名空间 |
事件名称 |
事件ID |
事件级别 |
事件说明 |
处理建议 |
事件影响 |
---|---|---|---|---|---|---|---|
DBPROXY |
SYS.DBPROXY |
数据库代理与数据库连通性异常 |
proxy_connection_failure_to_db |
重要 |
数据库代理与主库建立新连接失败,与只读库可能存在建立新连接失败。一般是由于数据库/数据库代理压力过大,或代理与数据库间网络异常 |
观察数据库与数据库代理压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理 |
通过代理访问的业务流量中断 |
数据库代理与数据库只读库连通性异常 |
proxy_connection_failure_to_replica |
一般 |
数据库代理与只读库建立新连接失败。一般是由于只读库压力过大,或代理与只读库间网络异常 |
观察只读库压力指标后(连接数、活跃连接数、CPU使用率)调整相应参数,压力指标正常情况下提工单处理 |
通过代理访问的业务读流量部分中断 |
||
数据库安全组未放通数据库代理地址 |
proxy_connection_failure_cause_security_group |
重要 |
一般是由于数据库安全组未放通代理地址导致 |
修改数据库所使用安全组规则放通代理地址 |
通过代理访问的业务流量中断 |