云运维中心 COC-运维态势感知:故障管理
故障管理
故障管理包含事件统计、WarRoom、回溯改进三个模块,呈现事件管理全流程核心指标。事件统计中包含数量、闭环率、处理耗时、受损应用等指标,通过环比、趋势图和Top /Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3。

模块 |
指标名称 |
数据来源 |
指标定义 |
计算规则 |
统计周期 |
度量单位 |
---|---|---|---|---|---|---|
事件统计 |
事件总量 |
事件管理 |
统计所有事件单数量 |
选择时间范围内,所有事件单的数量 |
天/月 |
个 |
事件级别 |
事件管理 |
统计各个类型和级别的事件单的数量 |
选择时间范围内,各个类型和级别的事件单的数量 |
天/月 |
个 |
|
事件闭环率 |
事件管理 |
统计事件单的闭环情况 |
选择时间范围内,闭环状态的事件单数量/事件单总量*100% |
天/月 |
百分比 |
|
平均事件耗时 |
事件管理 |
统计事件单平均处理时长 |
已闭环事件单的处理时间求和/已闭环的事件单数量*100% |
天/月 |
ddhhmm |
|
受损应用 |
事件管理 |
统计事件单受损应用数量 |
去重计算事件单的受损应用数量(包含已删除应用) |
天/月 |
个 |
|
WarRoom |
WarRoom |
WarRoom |
统计所有WarRoom数量 |
选择时间范围内,所有WarRoom数量 |
天/月 |
个 |
事件级别 |
事件管理 |
WarRoom关联的事件单级别分布 |
统计WarRoom关联的各级别事件单的数量 |
天/月 |
个 |
|
受损应用 |
WarRoom |
统计WarRoom中受损应用的数量 |
去重计算WarRoom的受损应用数量 |
天/月 |
个 |
|
平均处理时长 |
WarRoom |
统计WarRoom平均处理时长 |
选择时间范围内,已关闭的WarRoom处理时间总和/已关闭WarRoom数量 |
天/月 |
ddhhmm |
|
受理时间窗分布 |
WarRoom |
统计WarRoom在各个时间窗内的拉起次数 |
统计各个时间窗范围内,WarRoom的拉起次数 |
天/月 |
个 |
|
问题改进 |
问题总数 |
问题管理 |
所有的问题单数量 |
统计时间周期内,所有的问题单数量 |
天/月 |
个 |
问题完成率 |
问题管理 |
统计问题单的闭环情况 |
闭环率=已完成问题单数量/问题单总量*100% |
天/月 |
百分比 |
|
改进总数 |
改进管理 |
所有的改进单数量 |
统计时间周期内,所有的改进单数量 |
天/月 |
个 |
|
改进完成率 |
改进管理 |
统计改进单的闭环情况 |
闭环率=已完成改进单数量/改进单总量*100% |
天/月 |
百分比 |