检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SLO管理 SLO管理概述 查看SLO SLO指标配置 SLO中断记录 父主题: 基础配置
WarRoom 概述 WarRoom状态 修改故障信息 影响应用管理 与会成员 进展通告 起会规则 父主题: 故障管理
流程管理 概述 事件流程 问题流程 变更场景 父主题: 基础配置
PRR评审 概述 PRR模板管理 PRR评审管理 父主题: 韧性中心
待办中心 概述 待办中心用于记录和跟踪日常待办事务,并提供提醒功能。 在COC待办中心,您可以创建待办任务给指定人员处理,设置截止时间,填写待办任务的推荐方案,创建待办后可通过短信、邮件等方式通知责任人。 除了上述功能外,创建待办任务时还支持设置标签和添加附件。 待办任务创建成功
创建脚本 功能介绍 创建作业脚本:自定义脚本 脚本有标签属性,表示是高危脚本。创建时候不需要对脚本进行是否是高危的二次校验。 进行租户隔离;北向接口创建的脚本,审批人字段不填写,默认不需要审批 约束条件: 脚本名称:同一租户下,脚本名称不能重复,最大字符64个字符,支持中文+字母+数字+下划线。
约束与限制 更详细的限制请参见具体API的说明。 父主题: 使用前必读
基本概念 账号 用户注册时的账号,账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用用户进行日常管理工作。 用户 由账号在IAM中创建的用户,是云服务的
事件管理 创建事件单 受理事件单 提交事件单解决方案 验证事件处理结果 查询事件单详情 事件相关枚举信息 父主题: 故障管理
创建排班 使用场景 事件、变更等场景需获取排班中的人员作为责任人,可通过创建排班场景及角色进行人员管理。 操作步骤 登录COC。 在左侧导航栏选择“基础配置 > 排班管理”页面,单击右上角的“创建排班”。 图1 排班管理页面 进入“创建排班”页面,可以填写排班场景信息,并添加排班
任人,改进项完成后需验收人验收通过才能闭环。 前提条件 需要通过事件、Warrroom、混沌演练、PRR评审创建改进单。 处理改进单 登录云运维中心。 在左侧导航栏选择“故障管理 > 改进管理”。 在“待处理的”页签,选择需要处理的改进单,单击改进单标题。 单击右上方“处理”。 设置“改进处理”。
问题管理支持设置通知提醒,需要在通知管理中配置通知规则,具体操作详情参考通知管理,通知类型需要选择“问题通知”。 前提条件 需要先在应用管理中创建您的应用。 创建问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 单击右上方“创建问题单”。 设置“创建问题单”。 表1 创建问题单参数说明 参数 说明
演练报告 操作场景 演练报告包含创建、编辑、改进事项以及故障记录的查看,以便用户全面地记录和管理演练活动及其结果。 创建演练报告 演练结束后可以创建演练报告 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。 图1 演练任务列表
创建事件 操作场景 云运维中心提供了多种方式生成事件来记录故障。如果汇聚告警工单转事件和原始告警触发自动生成事件两种被动生成事件的方式不满足您的业务需求,您还可以通过手动创建事件功能来记录。 前提条件 需要先在应用管理中创建您的应用。 注意事项 确认事件单的内容,并如实填写事件等级。
自定义集成最多只能接入5个监控系统,若对接错误,禁用后删除即可。 启用、禁用集成 登录云运维中心。 在左侧导航栏选择“故障管理 > 集成管理”。 单击监控源的“启用/禁用”。 对接入源进行启用或者禁用操作。 更新集成标识 登录云运维中心。 在左侧导航栏选择“故障管理 > 集成管理”。 单击需要更新的监控源。
故障模式 操作场景 故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备
变更管理常见问题 常规变更&紧急变更的区别? 变更级别的定义?
操作场景 问题单处理完成后,需要问题创建人验证问题是否已解决,若未解决可不通过,问题处理人重新定位处理,已解决可直接闭环。 验证问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“验证”。 设置“验证”。
转发事件 操作场景 事件单处理过程发现该事件属于其他应用,或运维专家处理,可转发事件单给对应的责任人。 转发事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“转发责任人”。 设置“转发责任人”。
、应用、事件级别匹配到对应的规则,将规则中相关的人员拉入群组,关注故障恢复的人员在第一时间可以接收到故障,并响应故障。 新增起会规则 登录云运维中心。 在左侧导航栏选择“故障管理 > WarRoom”。 单击“起会规则”。 单击右上方“创建起会规则”。 设置“创建起会规则”。 表1