云运维中心 COC-运维态势感知:故障管理

时间:2025-02-12 15:04:06

故障管理

故障管理包含事件统计、WarRoom、回溯改进三个模块,呈现事件管理全流程核心指标。事件统计中包含数量、闭环率、处理耗时、受损应用等指标,通过环比、趋势图和Top /Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3

图5 故障管理
表3 事件管理数据字典

模块

指标名称

数据来源

指标定义

计算规则

统计周期

度量单位

事件统计

事件总量

事件管理

统计所有事件单数量

选择时间范围内,所有事件单的数量

天/月

事件级别

事件管理

统计各个类型和级别的事件单的数量

选择时间范围内,各个类型和级别的事件单的数量

天/月

事件闭环率

事件管理

统计事件单的闭环情况

选择时间范围内,闭环状态的事件单数量/事件单总量*100%

天/月

百分比

平均事件耗时

事件管理

统计事件单平均处理时长

已闭环事件单的处理时间求和/已闭环的事件单数量*100%

天/月

ddhhmm

受损应用

事件管理

统计事件单受损应用数量

去重计算事件单的受损应用数量(包含已删除应用)

天/月

WarRoom

WarRoom

WarRoom

统计所有WarRoom数量

选择时间范围内,所有WarRoom数量

天/月

事件级别

事件管理

WarRoom关联的事件单级别分布

统计WarRoom关联的各级别事件单的数量

天/月

受损应用

WarRoom

统计WarRoom中受损应用的数量

去重计算WarRoom的受损应用数量

天/月

平均处理时长

WarRoom

统计WarRoom平均处理时长

选择时间范围内,已关闭的WarRoom处理时间总和/已关闭WarRoom数量

天/月

ddhhmm

受理时间窗分布

WarRoom

统计WarRoom在各个时间窗内的拉起次数

统计各个时间窗范围内,WarRoom的拉起次数

天/月

问题改进

问题总数

问题管理

所有的问题单数量

统计时间周期内,所有的问题单数量

天/月

问题完成率

问题管理

统计问题单的闭环情况

闭环率=已完成问题单数量/问题单总量*100%

天/月

百分比

改进总数

改进管理

所有的改进单数量

统计时间周期内,所有的改进单数量

天/月

改进完成率

改进管理

统计改进单的闭环情况

闭环率=已完成改进单数量/改进单总量*100%

天/月

百分比

support.huaweicloud.com/usermanual-coc/coc_um_02_06.html