检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
概述 事件管理是对应用的所有事件进行管理,包含事件的受理、驳回、转单、处理到闭环整个生命周期管理。事件来源包含流转规则产生的事件、通过告警创建的事件及人工创建的事件。 事件管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。 事件处理流程: 事件被创建后状态为“未受理
修改故障信息 操作场景 WarRoom的故障信息,主要是为了记录该故障的发生时间、恢复时间,故障带来的影响及故障原因,便于后续回溯防止故障再次发生。 在WarRoom启动、故障定界和恢复、故障已恢复过程都可以修改故障信息。 修改故障信息 登录云运维中心。 在左侧导航栏选择“故障管理
处理告警 操作场景 当汇聚告警生成后,用户可以通过云运维中心快速处理,执行响应方案,支持作业、脚本两种方式。 注意事项 只有责任人可以处理当前告警。 处理告警 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 单击“汇聚告警 > 当前告警”。 选择需要处理的告警,单击操作列“更多
挂起问题 操作场景 问题单受理后,在定位阶段若需要创单人协助提供数据或其他信息;问题实施阶段变更需要审批等场景。支持问题处理人挂起问题单,问题单挂起后默认需创建人审批,若需修改先审批流程,可参考流程管理。 挂起问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。
撤销问题 操作场景 问题单创建后,发现提交的问题属于非问题或其他原因问题处理人可撤销问题单。撤销问题单前需要先驳回问题,已受理的问题单不可撤销。 撤销问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“撤销”。
Warroom是什么? 为快速恢复业务的运作机制,支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议。已受理的事件可以启动Warroom,具体参考启动WarRoom。 Warroom使用指导,请参考WarRoom管理。 父主题: 故障管理常见问题
发现应用韧性方面存在的风险点;评估的类型有:节点、集群、网络、容灾、容器、业务和数据。 查看报告:提供应用的评估结果,展示评估过程中的涉及到的评估项以及存在的风险项,并给出优化建议。 使用前提 使用应用韧性评估需要您对服务进行授权,授权步骤请参考MAS。 支持场景 创建应用韧性评
概述 排班管理为云运维中心提供了统一的、多维度、多形式、可自定义的人员管理模式。您可以在排班管理对排班场景进行管理,并将“人员管理”中的人员添加到排班中完成排班的设置。 在需要设置排班人员、获取排班人员时,您直接前往排班管理页面进行配置、查询。 已创建的排班可直接在流转规则、事件
仅业务是否中断选择“是”时需要设置。 请填写故障的恢复时间。 备注 可选参数。请填写备注。 备注支持中文字符、英文字母、数字及特殊字符,长度不超过100个字符。 从故障发生到故障恢复所需时间称为业务中断时间。云运维中心支持将清除告警填写的业务中断时间自动计入对应应用的SLO中断记录。具体操作步骤如下: 创建SLA
原始告警 操作场景 原始告警是由多个现有或第三方等监控系统(比如CES、AOM、Prometheus),将业务下分散的告警信息进行统一收集生成的告警。原始告警列表展示告警源名称、告警状态、告警级别、告警来源、关联应用等信息。 通过流转规则可以将一条或多条原始告警汇聚成单条汇聚告警,一条原始告警可以触发多个流转规则。
与会成员 操作场景 与会成员主要是为了快速恢复故障,将参与故障恢复的人员拉入群组,或通过电话或短信及时通知故障恢复人员响应并处理故障。将与会人员加入群组后,可以设置管理员、恢复责任人、恢复成员。 与会成员默认管理员为创建WarRoom设置的WarRoom管理员。 添加与会成员 登录云运维中心。
驳回问题 操作场景 若创建人提交的问题属于非问题或其他原因可驳回问题单,驳回后创建人可重新编辑提交或撤销问题,重新提交后需问题处理人继续定位解决。 驳回问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。
公共预案 操作场景 您可以对公共预案进行克隆,从而创建自定义的应急预案,在故障发生后可以参考应急预案进行故障紧急恢复。 查看公共预案详情 登录COC。 在左侧菜单栏选择“韧性中心 > 应急预案”页面,选择“公共预案”页签。 单击公共预案表格第一列“应急预案”名称,查看应急预案。 图1
查询WarRoom信息 功能介绍 查询warroom信息 URI POST /v1/external/warrooms/list 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 limit 否 Long limit 最小值:0 最大值:1000 缺省值:0 offset
创建排班 使用场景 事件、变更等场景需获取排班中的人员作为责任人,可通过创建排班场景及角色进行人员管理。 操作步骤 登录COC。 在左侧导航栏选择“基础配置 > 排班管理”页面,单击右上角的“创建排班”。 图1 排班管理页面 进入“创建排班”页面,可以填写排班场景信息,并添加排班
演练报告 操作场景 演练报告包含创建、编辑、改进事项以及故障记录的查看,以便用户全面地记录和管理演练活动及其结果。 创建演练报告 演练结束后可以创建演练报告 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。 图1 演练任务列表
查看历史告警 操作场景 历史告警显示的是被清除的汇聚告警。当汇聚告警被清除后,您可以在历史告警页签中继续查看汇聚告警的相关信息和处理记录。 注意事项 告警数据留存期为31天,逾期将自动清除。 查看历史告警 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 单击“汇聚告警
故障模式 操作场景 故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备
转发事件 操作场景 事件单处理过程发现该事件属于其他应用,或运维专家处理,可转发事件单给对应的责任人。 转发事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“转发责任人”。 设置“转发责任人”。
验证事件 操作场景 事件单处理完成后,通过故障是否恢复或达到预计效果,在验证关闭事件中填写验证结果,选择未解决可以驳回事件,驳回后需事件处理人重新定位并处理该故障。 验证事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。