云运维中心 COC-运维态势感知:运维总览

时间:2024-09-14 17:36:50

运维总览

运维总览包含总览数据、风险冒泡、PRR评审汇总(生产准备度评估)、TOP5事件四个模块。总览数据可以全局视角观测运维态势情况,辅助运维优化改进和洞察决策。风险冒泡通过P3+事件单、WarRoom、变更导致故障以及紧急告警呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1

图3 运维总览
表1 运维总览数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

总览数据

事件数量

事件中心

统计事件单的数量趋势

选择时间周期内,所有事件单的数量

天/月

告警数量

告警中心

统计告警的数量趋势

选择时间周期内,所有告警的数量

天/月

WarRoom数量

WarRoom

统计WarRoom的数量趋势

选择时间周期内,所有WarRoom的数量

天/月

监控发现率

告警中心

发生的事件单中,有相关告警的事件单占比

符合过滤条件有相关告警的事件数/符合过滤条件总的事件数

天/月

百分比

变更数量

变更管理

统计变更单的数量趋势

选择时间周期内,所有变更单的数量

天/月

服务SLO

SLO管理

统计服务SLO实际值的变化趋势

SLO实际值 = 1 - (服务不可用时长 / 云服务总时长)*100%

天/月

百分比

风险冒泡

变更导致事件数

事件管理

统计变更问题引发事件单数量

事件类型为变更操作问题的事件单数量

天/月

7天紧急告警数

告警中心

统计近7天紧急告警数量

近7天的紧急告警数量

近7天

P3+事件

事件管理

统计发生的P3+事件单数量

P1、P2、P3级别的所有事件单的数量,包括未完成状态的事件单

天/月

Warroom数量

告警中心

统计Warroom数量

选择时间周期内,WarRoom的数量

天/月

PRR评审汇总

PRR评审服务

PRR评审

统计参与PRR评审的服务数量

参与PRR评审的服务数量

天/月

PRR评审通过情况

PRR评审

统计在PRR各阶段中,通过与未通过的服务数量

PRR各阶段,通过与未通过的服务数量

天/月

TOP5事件

TOP5事件

事件管理

统计严重性最高的事件Top5

根据选择时间范围,统计已完成的P3+事件,并先按事件级别排序,再按照中断时长排序,排列TOP5事件

天/月

事件信息

support.huaweicloud.com/usermanual-coc/coc_um_02_06.html