GaussDB告警事件列表
事件名称
事件ID
事件级别
事件说明
处理建议
事件影响
进程状态告警
ProcessStatusAlarm
重要
GaussDB关键进程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。
等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。
主机进程故障,在主机上进行的业务将中断回滚。备机进程故障不影响业务。
组件状态告警
ComponentStatusAlarm
重要
GaussDB关键组件无响应,包括:CMA、ETCD、GTM、CN、DN。
等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。
主机进程无响应,在主机上进行的业务将无响应。备机进程故障不影响业务。
集群状态告警
ClusterStatusAlarm
重要
集群状态异常,包括:集群只读、ETCD多数派故障、集群分布不均衡。
联系SRE。
集群只读: 业务只读。
ETCD多数派故障:集群不可用。
集群分布不均衡:集群性能/可靠性降低。
硬件资源告警
HardwareResourceAlarm
重要
集群中出现严重的硬件故障,包括:磁盘损坏、GTM网络通信故障。
联系SRE。
业务部分/全部受损。
状态转换告警
StateTransitionAlarm
重要
集群出现如下重要事件:DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。
等待自动恢复,观察业务是否恢复。如果业务未恢复,联系SRE。
部分业务受损。
其他异常告警
OtherAbnormalAlarm
重要
磁盘使用阈值告警等。
关注业务变化,及时计划扩容。
超过使用阈值,将无法扩容。
实例运行状态异常
TaurusInstanceRunningStatusAbnormal
重要
由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。
提交工单。
可能导致数据库服务不可用。
实例运行状态异常已恢复
TaurusInstanceRunningStatusRecovered
重要
针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。
不需要处理。
无
节点运行状态异常
TaurusNodeRunningStatusAbnormal
重要
由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。
检查数据库服务是否可以正常使用,并提交工单。
可能导致数据库服务不可用。