云运维中心 COC-运维态势感知:监控告警

时间:2024-11-07 20:39:46

监控告警

监控告警将告警信息以直观的图表形式展示,使运维人员快速掌握服务的整体状况,监控告警中含告警分析、告警成本、告警质量三个模块,体现告警管理核心指标。告警分析中提供告警总量、告警级别、Top10应用、告警降量和告警趋势等指标,运维主管可通过对历史告警数据的分析,了解服务告警的趋势和模式,发现潜在的性能问题或故障隐患。告警成本统计告警人力情况和自动化处理率,运维主管可以利用告警成本有效控制变更的人力成本。告警质量统计事件单和WarRoom的告警发现率,帮助运维主管评估当前告警的有效性,并及时进行告警配置的优化。指标详情可查看表4

图6 监控告警
表4 监控告警数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

告警分析

告警总量

告警管理

统计所有告警的数量

选择时间范围内,所有告警的数量

天/月

告警级别

告警管理

统计各个级别的告警的数量

选择时间范围内,各个级别的告警的数量

天/月

告警趋势

告警管理

选择时间范围内,各级别告警的数量趋势变化

选择时间范围内,各个级别的告警的数量

天/月

告警成本

告警参与人数

告警管理

统计参与处理告警的人数

去重计算集成告警的责任人数量

天/月

人均告警处理量

告警管理

统计人均处理的告警数量

选择时间范围内,告警总数量/告警参与人数

天/月

告警自动化处理率

告警管理

统计告警的自动化处理情况

选择时间范围内,自动化处理告警/告警总数*100%

天/月

百分比

告警质量

故障告警发现率

事件管理

统计所有事件单中,由告警发现的事件单数量

选择时间范围内,告警转事件单数量/事件单总数量*100%

天/月

百分比

WarRoom告警发现率

WarRoom

统计所有WarRoom中,由告警发现的WarRoom数量

选择时间范围内,告警转事件拉起的WarRoom数量/WarRoom

总数量*100%

天/月

百分比

告警冒泡

告警冒泡

告警管理

按照应用维度,展示告警的风险冒泡情况

按照应用下告警的级别和数量进行加权计算并排序

天/月

不涉及

support.huaweicloud.com/usermanual-coc/coc_um_02_06.html