检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在弹框中单击“确认”,即可删除演练任务。 图21 删除演练任务 启动演练 对已经创建的演练任务,启动演练。 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。 在演练任务列表的“操作”列,单击“启动演练”,进入“演练记录详情”页面。 图22 启动演练 在“演
混沌演练”页面,选择“风险管理 > 演练规划”页签。 图1 演练规划页面 单击“创建演练规划”,选择故障模式,执行人,区域和计划演练时间 ,单击“确认”,即可完成演练规划的创建。 图2 创建演练规划 演练规划指定的执行人在演练规划列表操作项里单击“接单”,进入创建演练任务页面,演练任务关联选择的故障
演练报告 创建演练报告 演练结束后可以创建演练报告 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签,查看演练任务列表。 图1 演练任务列表 找到需要查看的演练任务,单击“操作”列“演练记录”,进入“演练记录”列表。在演练记录列表“操作”列,单击
应急预案 操作场景 您可以对系统可能发生的故障建立对应的应急预案,在故障发生后可以参考应急预案进行故障紧急恢复。 创建应急预案 登录COC。 在左侧菜单栏选择“韧性中心 > 应急预案”页面,选择“自定义预案”页签。 图1 应急预案页面 单击“创建应急预案”,填写应急预案基本信息。
障、服务器异常下电、网络设备单板故障等)通过提前制定快速恢复应急预案进行应对。 COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。
混沌演练是什么? 混沌演练是通过主动在系统中模拟软件或硬件故障,并根据系统在各种压力下的表现行为确定优化策略的一种系统韧性保障手段。一个完整的混沌演练包括前期的故障模式分析,中期的故障注入和后期的复盘改进。 父主题: 韧性中心常见问题
故障模式资源所属的企业项目,默认为default 所属应用 演练目标所属的应用 事件级别评估 参考事件中心事件级别定义 来源 包括主动分析,已有故障 是否有应急预案 是或者否,默认为是 应急预案名称 下拉搜索选择对应的应急预案,如果没有,可以创建应急预案,具体参考应急预案章节 场景分类 故障属于哪种场景,包括冗余、容灾、过载、配置、依赖
混沌演练 概述 故障模式 演练规划 演练任务 自定义故障 演练报告 父主题: 韧性中心
单击“完成配置”,完成演练任务创建。 步骤四:启动演练 在左侧导航栏选择“韧性中心 > 混沌演练”页面,进入混沌演练页面。 单击“演练任务”页签,进入演练任务页面。 找到步骤三中创建的演练任务,单击操作列“启动演练”。 图7 启动演练 了解风险提示后,单击“确认”,进入演练记录详情页面。
演练报告有哪些内容? 演练报告包括演练过程的基本信息、服务恢复能力评分和复盘改进措施,并且能够生成复盘改进工单,确保演练中发现的问题能够落实改进。 父主题: 韧性中心常见问题
故障模式和演练任务的关系? 故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
演练规划主要做什么? 演练规划能够帮助演练管理人员对故障模式进行演练排期,管理演练进展,是故障模式能够通过演练进行实战检验的管理保障。 父主题: 韧性中心常见问题
inject_fault 演练操作动作,系统后台在演练不同阶段会自动设置对应的值。可以选择: inject_fault:表示演练处于故障注入阶段 check_fault_status:表示演练处于故障查询阶段 rollback:表示演练处于取消正在注入故障的阶段 clean:表示演练处于清理环境阶段
单击“完成配置”,即可完成演练任务的创建。 图18 完成配置 步骤五:演练报告 演练结束后可以创建演练报告 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,可以查看演练任务列表。 图19 演练任务列表 找到需要查看的演练任务,单击“操作”列“演练记录”,进入演练记录列表。在演练记录列表
改进管理 前提条件 需要通过事件/Warrroom/演练/PRR创建改进单。 处理改进单 登录COC。 在左侧菜单栏选择“故障管理 > 改进管理”,选择“待处理的”页签,单击改进标题进入“改进单详情”页面。 图1 改进列表 单击右上角的“处理”或“转发” ,进入处理或转发页面 图2
候,可创建应急预案、脚本或作业。 图2 事件处理执行响应预案 若响应预案为“作业”和“脚本”,核实作业和脚本信息后,单击“提交”。 图3 执行作业或脚本页面 若响应预案选择了应急预案,应急预案为自动化预案,需要单击步骤中的“执行”执行脚本或作业,完成后单击“提交”;应急预案为文本
韧性中心 混沌演练 应急预案 PRR评审
沉淀经验。 图4 标准化故障管理 智能化混沌演练 全旅程混沌工程解决方案,快速评估应用潜在韧性风险,持续看护应用架构。 端到端混沌工程方案:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、演练复盘4个维度,提供端到端混沌演练能力。 故障模式库:首创基于容错视角的故障场景
为云多年沉淀的动态清零风险管理经验使能用户。 使能主动运维:通过性能压测、应急演练/混沌工程、韧性评估等主动运维手段提升客户关键业务的质量和韧性。 丰富的故障演练武器:沉淀华为云实践经验,内置50个+演练攻击武器,赋能客户模拟复杂多样的业务受损场景并制定应对策略。 提升应用高可用能力:PRR(Production
配置和应用流转规则 标准化事件管理流程 集成告警 WarRoom机制 可用性分析 混沌演练 02 入门 以快捷执行作业及快捷混沌演练为例,帮助您快速了解COC在典型场景下的操作方法。 快速入门 快捷执行作业 快捷混沌演练 04 API 您可以使用本文档提供的API对COC进行相关操作,例如脚本