应用运维管理 AOM-通过告警降噪清除告警风暴:解决方案

时间:2024-06-25 11:11:10

解决方案

AOM 通过设置告警规则,实时监控环境中主机、组件等资源使用情况。当产品自身或外部服务存在异常情况时,立即触发告警。并提供告警降噪功能,支持发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,帮助用户快速识别重点问题,避免产生告警风暴。

告警降噪功能分为分组、去重、抑制、静默四部分:

  • 使用分组规则,您可以从告警中筛选出满足条件的告警子集,然后按分组条件对告警子集分组,告警触发时同组告警会被汇聚在一起发送一条通知。
  • 使用抑制规则,您可以抑制或阻止与某些特定告警相关的其他告警通知。例如:当严重级别的告警产生时,可以抑制与其相关的低级别的告警。或当节点故障发生时,抑制节点上的进程或者容器的所有其他告警。
  • 使用静默规则,您可以在指定时间段屏蔽告警通知,静默规则一旦创建完成,即刻生效。
  • 去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。

下面以监控ELB业务层全量指标为例说明。

support.huaweicloud.com/bestpractice-aom2/aom_05_0005.html