检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
启动WarRoom 操作场景 事件处理过程中,初步定位发现该故障为重大故障或群体性故障,可启动WarRoom攻关,协同各应用专家,可快速恢复故障。 启动WarRoom 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
gEndUserFullAccessPolicy策略。 启动产品 登录云运维中心。 在左侧导航栏选择“资源管理 > 服务目录”。 单击“产品”。 选择需要启动的产品,单击操作列“启动产品”。 设置“启动产品”。 表1 启动产品参数说明 参数 说明 实例名称 根据命名规则,自定义实例的名称。
Warroom是什么? 为快速恢复业务的运作机制,支撑运维、研发、运营联合作战,保障业务快速恢复而组建的会议。已受理的事件可以启动Warroom,具体参考启动WarRoom。 Warroom使用指导,请参考WarRoom管理。 父主题: 故障管理常见问题
WarRoom状态 操作场景 WarRoom启动后,在处理故障过程中需查看、更新WarRoom状态,便于记录故障恢复的时间节点,同时了解故障当前的进展。WarRoom状态包含启动WarRoom、故障定界和恢复、故障已恢复和关闭。 WarRoom状态 登录云运维中心。 在左侧导航栏选择“故障管理
命中流转规则时,创建事件/告警,并根据排班管理通知对应责任人。责任人可对告警进行处理或转事件,定位恢复后,清除告警。对于无法清除的告警,可以转事件进行升级或启动WarRoom处理。形成规范性告警处理流程,避免告警处理异常。 标准化事件处理流程包含以下步骤: 集成管理接入原始告警数据;
次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 熔断策略: 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,支持精确到小数点后一位。 跳过步骤8,执行步骤9。 设置“执行作业”。
全旅程混沌工程方案 实践场景 某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在
无法找到应用管理层级说明页面? 若您未创建应用,您可在“应用管理”页面中找到应用管理层级说明,如图1应用管理层级说明。您在创建应用后,将不再展示应用管理层级说明。 图1 应用管理层级说明 父主题: 资源管理常见问题
在弹框中单击“确认”,即可删除演练任务。 图4 删除演练任务 启动演练 对已经创建的演练任务,启动演练。 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。 在演练任务列表的“操作”列,单击“启动演练”,进入“演练记录详情”页面。 图5 启动演练 在“演练详情”页面
服务目录 概述 管理产品组合 管理产品 启动产品 管理实例 父主题: 资源管理
移动应用管理用于管理事件启动WarRoom时,创建企业微信WarRoom作战室必要的企业微信配置信息,用户可通过移动应用管理页面管理企业微信的配置信息。 查看移动应用 登录COC。 在左侧导航树中选择“基础配置 > 移动应用管理”页面。当该租户已绑定企业微信时,会展示绑定的信息。当该租户未绑定企业微信时,会展示新增企业微信密钥界面。
单击是否开启列按钮。 完成故障复盘规则开启或关闭。 修改规则 仅管理账号可修改复盘规则。 默认规则: 启动Warroom的事件单,P1, P2, P3, P4, P5均需复盘; 未启动Warroom的事件单,P1, P2, P3, P4需进行复盘。 登录COC。 在左侧导航栏选择“基础配置
次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 熔断策略: 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,支持精确到小数点后一位。 单击“提交”并“确定”。 对于工单执行是否完成,支持以下操作:
删除实例 操作场景 启动产品生成实例后,如果需要删除,请按如下操作进行。 前提条件 确保您登录的账号拥有终端用户的权限,终端用户权限账号需加入COCServiceCatalogEndUserFullAccessPolicy策略。 删除实例 登录云运维中心。 在左侧导航栏选择“资源管理
WarRoom的故障信息,主要是为了记录该故障的发生时间、恢复时间,故障带来的影响及故障原因,便于后续回溯防止故障再次发生。 在WarRoom启动、故障定界和恢复、故障已恢复过程都可以修改故障信息。 修改故障信息 登录云运维中心。 在左侧导航栏选择“故障管理 > WarRoom”。 单击需要修改的WarRoom标题。
可选参数。选择排班角色,其中的排班人员在启动WarRoom时会被自动加入到第三方移动应用群组。 配置排班详细操作请参考排班管理,移动应用需要配置详细操作请参考移动应用管理。 单击“确定”。 完成起会规则创建。起会规则命中逻辑:根据事件启动warroom的区域、应用、事件级别,匹配
、docx、txt、pdf,上传文件不能超过10MB。 长期方案(如何避免再次发生) 请填写故障的长期方案。 单击“添加文件”上传长期方案相关附件。 支持最多上传10个文件,支持文件类型:jpg、png、docx、txt、pdf,上传文件不能超过10MB。 应用韧性相关规划和分析
事件管理 概述 创建事件 驳回事件 重新开启事件 转发事件 受理事件 升降级 添加备注 启动WarRoom 处理事件 验证事件 事件创建改进单 故障复盘 应用诊断 事件历史记录 父主题: 故障管理
管理员为终端用户授予产品的启动和访问权限。 终端用户查询并启动产品。启动产品后,将生成一个资源栈,便于管理产品相关的云资源。 终端用户在服务目录控制台按需管理云资源。 基本概念 概念 说明 管理员 管理员负责创建、管理和授权产品。 终端用户 终端用户可以查询、启动被授权后的产品,生成云资源。
若需拉起WarRoom群组,需在移动应用管理接入钉钉、企业微信或飞书。 处理流程 Warroom处理流程如下: 启动Warroom:在事件管理处理事件页面启动WarRoom。 故障定界和恢复:分析故障影响范围,恢复所有受影响应用。 若分析还有其他应用受影响,使用新增影响应用增加。