检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
WarRoom状态 操作场景 WarRoom启动后,在处理故障过程中需查看、更新WarRoom状态,便于记录故障恢复的时间节点,同时了解故障当前的进展。WarRoom状态包含启动WarRoom、故障定界和恢复、故障已恢复和关闭。 WarRoom状态 登录云运维中心。 在左侧导航栏选择“故障管理
概述 待办中心用于记录和跟踪日常待办事务,并提供提醒功能。 在COC待办中心,您可以创建待办任务给指定人员处理,设置截止时间,填写待办任务的推荐方案,创建待办后可通过短信、邮件等方式通知责任人。 除了上述功能外,创建待办任务时还支持设置标签和添加附件。 待办任务创建成功后,责任人可以在待办中心受理和闭环待办任务。
变更管控 操作场景 通过变更管控,您可以根据具体的使用场景,配置是否开启工单提权,当前支持事件、WarRoom和变更单提权。 前提条件 开启变更管控需要申请IAM权限,具体的actionID如下: IAM v3版本权限: "iam:roles:listRoles", "iam:p
修改脚本 功能介绍 修改作业脚本:自定义脚本 约束条件: 脚本名称:同一租户下,脚本名称不能重复,最大字符64个字符,支持中文+字母+数字+下划线。 脚本内容最大4096个字符。 脚本参数个数最多20个。 脚本描述:最大256个字符。 单个参数的参数名称 64个字符,只支持字母+数字+下划线。
集成管理 支持用户自主接入告警数据 功能介绍 支持租户将自开发的监控系统按照标准化集成至COC,集成后告警会按照标准格式上报至COC告警中心 URI POST /v1/event/huawei/custom/{integration_key} 表1 路径参数 参数 是否必选 参数类型
添加备注 使用场景 事件处理过程,若存在事件需要添加额外的备注信息,可使用添加备注的功能。 前提条件 事件受理后才能添加备注。 添加备注 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“... >
处理告警 操作场景 当汇聚告警生成后,用户可以通过云运维中心快速处理,执行响应方案,支持作业、脚本两种方式。 注意事项 只有责任人可以处理当前告警。 处理告警 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 单击“汇聚告警 > 当前告警”。 选择需要处理的告警,单击操作列“更多
修改故障信息 操作场景 WarRoom的故障信息,主要是为了记录该故障的发生时间、恢复时间,故障带来的影响及故障原因,便于后续回溯防止故障再次发生。 在WarRoom启动、故障定界和恢复、故障已恢复过程都可以修改故障信息。 修改故障信息 登录云运维中心。 在左侧导航栏选择“故障管理
撤销问题 操作场景 问题单创建后,发现提交的问题属于非问题或其他原因问题处理人可撤销问题单。撤销问题单前需要先驳回问题,已受理的问题单不可撤销。 撤销问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“撤销”。
概述 SLO(服务级别目标,Service Level Object)为业界通用指标,SLO实际值=1-(应用不可用时长/应用总时长)*100%,通常代表服务/应用的质量水平。 在云运维中心COC中,WarRoom、告警、事件(“业务是否中断”属性为“是”的事件单)等运维工单,会
概述 流转规则可将接收的原始告警进行去重操作,通过配置触发规则和触发条件,将原始告警转成汇聚告警或事件。每个流转规则配置时支持分配给排班或者多个责任人,从而实现更准确的通知,同时转事件支持故障自愈。 父主题: 流转规则
概述 排班管理为云运维中心提供了统一的、多维度、多形式、可自定义的人员管理模式。您可以在排班管理对排班场景进行管理,并将“人员管理”中的人员添加到排班中完成排班的设置。 在需要设置排班人员、获取排班人员时,您直接前往排班管理页面进行配置、查询。 已创建的排班可直接在流转规则、事件
创建脚本 功能介绍 创建作业脚本:自定义脚本 脚本有标签属性,表示是高危脚本。创建时候不需要对脚本进行是否是高危的二次校验。 进行租户隔离;北向接口创建的脚本,审批人字段不填写,默认不需要审批 约束条件: 脚本名称:同一租户下,脚本名称不能重复,最大字符64个字符,支持中文+字母+数字+下划线。
约束与限制 更详细的限制请参见具体API的说明。 父主题: 使用前必读
验证问题 操作场景 问题单处理完成后,需要问题创建人验证问题是否已解决,若未解决可不通过,问题处理人重新定位处理,已解决可直接闭环。 验证问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“验证”。
创建排班 使用场景 事件、变更等场景需获取排班中的人员作为责任人,可通过创建排班场景及角色进行人员管理。 创建排班 登录云运维中心。 在左侧导航栏选择“基础配置 > 排班管理”。 单击右上方“创建排班”。 设置“排班场景”。 选择已有:选择当前已有的排班场景,在原有基础上增加新的排班角色,支持查看场景下的角色。
改进管理 操作场景 事件、Warrroom、混沌演练、PRR评审创建改进单进行受理,并在期望时间内完成改进任务,处理改进单过程若发现责任人不是本人支持转发责任人,改进项完成后需验收人验收通过才能闭环。 前提条件 需要通过事件、Warrroom、混沌演练、PRR评审创建改进单。 处理改进单
演练报告 操作场景 演练报告包含创建、修改、改进事项以及故障记录的查看,以便用户全面地记录和管理演练活动及其结果。 创建演练报告 演练结束后可以创建演练报告。 登录云运维中心。 在左侧菜单栏选择“韧性中心 > 混沌演练”。 单击左上方“演练任务”。 选择需要查看的演练任务,单击操作列“演练记录”。
转发事件 操作场景 事件单处理过程发现该事件属于其他应用,或运维专家处理,可转发事件单给对应的责任人。 转发事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“转发责任人”。 设置“转发责任人”。
起会规则 操作场景 起会规则是在启动WarRoom时,根据区域、应用、事件级别匹配到对应的规则,将规则中相关的人员拉入群组,关注故障恢复的人员在第一时间可以接收到故障,并响应故障。 新增起会规则 登录云运维中心。 在左侧导航栏选择“故障管理 > WarRoom”。 单击“起会规则”。