云运维中心 COC-运维态势感知:运维总览
运维总览
运维总览包含总览数据、风险冒泡、PRR评审汇总(生产准备度评估)、TOP5事件四个模块。总览数据可以全局视角观测运维态势情况,辅助运维优化改进和洞察决策。风险冒泡通过P3+事件单、WarRoom、变更导致故障以及紧急告警呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。
模块 |
指标名称 |
数据来源 |
指标定义 |
计算规则 |
统计周期 |
度量单位 |
---|---|---|---|---|---|---|
总览数据 |
事件数量 |
事件中心 |
统计事件单的数量趋势 |
选择时间周期内,所有事件单的数量 |
天/月 |
个 |
告警数量 |
告警中心 |
统计告警的数量趋势 |
选择时间周期内,所有告警的数量 |
天/月 |
个 |
|
WarRoom数量 |
WarRoom |
统计WarRoom的数量趋势 |
选择时间周期内,所有WarRoom的数量 |
天/月 |
个 |
|
监控发现率 |
告警中心 |
发生的事件单中,有相关告警的事件单占比 |
符合过滤条件有相关告警的事件数/符合过滤条件总的事件数 |
天/月 |
百分比 |
|
变更数量 |
变更管理 |
统计变更单的数量趋势 |
选择时间周期内,所有变更单的数量 |
天/月 |
个 |
|
服务SLO |
SLO管理 |
统计服务SLO实际值的变化趋势 |
SLO实际值 = 1 - (服务不可用时长 / 云服务总时长)*100% |
天/月 |
百分比 |
|
风险冒泡 |
变更导致事件数 |
事件管理 |
统计变更问题引发事件单数量 |
事件类型为变更操作问题的事件单数量 |
天/月 |
个 |
7天紧急告警数 |
告警中心 |
统计近7天紧急告警数量 |
近7天的紧急告警数量 |
近7天 |
个 |
|
P3+事件 |
事件管理 |
统计发生的P3+事件单数量 |
P1、P2、P3级别的所有事件单的数量,包括未完成状态的事件单 |
天/月 |
个 |
|
Warroom数量 |
告警中心 |
统计Warroom数量 |
选择时间周期内,WarRoom的数量 |
天/月 |
个 |
|
PRR评审汇总 |
PRR评审服务 |
PRR评审 |
统计参与PRR评审的服务数量 |
参与PRR评审的服务数量 |
天/月 |
个 |
PRR评审通过情况 |
PRR评审 |
统计在PRR各阶段中,通过与未通过的服务数量 |
PRR各阶段,通过与未通过的服务数量 |
天/月 |
个 |
|
TOP5事件 |
TOP5事件 |
事件管理 |
统计严重性最高的事件Top5 |
根据选择时间范围,统计已完成的P3+事件,并先按事件级别排序,再按照中断时长排序,排列TOP5事件 |
天/月 |
事件信息 |