检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
一个完整的混沌演练包括前期的故障模式分析,中期的故障注入和后期的复盘改进。 父主题: 韧性中心常见问题
故障模式是对云应用面临的潜在风险进行分析和评估的结果,混沌演练平台预置华为云多年积累的故障模式数据,使用FT-FMEA故障分析法帮助您分析云应用存在的潜在风险。 父主题: 韧性中心常见问题
图1 全旅程混沌工程 风险分析:分析应用架构,找出风险点。 应急预案:针对风险点,制定应急预案。 故障演练:针对风险分析的结果和应急预案,制定演练方案,进行故障演练。 复盘改进:演练完成后,对演练进行复盘总结,输出演练报告和改进事项。
故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
根因分析 请输入问题的根因分析。 限制长度1-1000个字符。 解决方案 请输入问题的解决方案。 限制长度1-1000个字符。 是否需要现网变更 可选项“需要”、“不需要”。 需要:工单走到待现网实施阶段,需要关联变更单。 不需要:工单会走到待验证状态。 单击“提交”。
受理事件 操作场景 事件创建后,事件责任人分析事件实际情况,若属实则事件责任人受理事件并进行后续处理,完成事件的闭环。 受理事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“受理”。
设置“根因分析”。 表3 根因分析参数说明 参数 说明 根因分析 请填写故障的根因分析。 单击“添加文件”上传根因分析件相关附件。 支持最多上传10个文件,支持文件类型:jpg、png、docx、txt、pdf,上传文件不能超过10MB。 设置“监控告警”。
通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。
受理问题 操作场景 问题单创建后,问题责任人分析问题实际情况,若属实则问题责任人受理问题并进行后续处理,完成问题的闭环。 受理问题 登录云运维中心。 在左侧导航栏选择“故障管理 > 问题管理”。 在“待我处理”页签,选择需要处理的问题单,单击问题单标题。 单击右上方“受理”。
审计与日志 审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。
评估报告详情中,给出了识别到的风险项,并给出优化建议。 2. 若您认为部分风险项可以不进行优化,则可在查看评估报告详情中,点击“忽略风险”按钮,将其忽略。 父主题: 应用韧性评估
故障处理过程中如果识别到一些产品、运维或管理改进事项,可以创建改进单,并通过改进管理处理。 前提条件 需要有正在处理的事件单,在事件处理页面启动WarRoom。 父主题: WarRoom
端到端混沌工程方案:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、演练复盘4个维度,提供端到端混沌演练能力。 故障模式库:首创基于容错视角的故障场景分析方法,沉淀华为云SRE多年的故障模式库,用户开箱即用。 图5 智能化混沌演练
概述 改进管理主要是故障处理过程识别到一些产品、运维或管理改进事项,可通过改进单进行跟踪闭环。运维改进事项如某应用未配置某个场景的告警规则,需补充告警规则及时发现软件产品异常。改进单来源包含事件、Warrroom、混沌演练、PRR评审。 图1 改进管理流程 父主题: 改进管理
故障模式:融合专业风险分析方法和专家知识库,积累故障模式库,帮助客户分析云应用存在的潜在风险、传承运维经验。 韧性中心优化 全生命周期风险管理:覆盖部署态和运行态两部分的风险治理,贯穿应用和资源全生命周期,将华为云多年沉淀的动态清零风险管理经验使能用户。
COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。
支持场景 创建应用韧性评估任务,在评估时会自动关联应用下的资源进行分析并给出评估报告。在评估报告中会给出识别到的风险和优化建议。 1. 当前应用韧性评估,允许评估一个应用下最多100个资源实例。若资源数量超出限制,则会评估失败,并给出相应报错。 2.
通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生的故障点进行分析,通过描述故障发生的条件、故障发生的现象、客户影响等字段建立故障模式,并将该故障模式应用于日常的混沌演练。
列出组织的可信服务列表 organizations:trustedServices:list 跨账号场景下,查询当前组织已开通的可信服务列表 列出组织的根 organizations:roots:list 跨账号场景下,查询当前组织的root 修改或删除委托权限 若开通COC后,识别到存在委托权限过大或权限不足的情况
每种该工单的状态校验如下: 事件单状态校验: (1)P1、P2、P3、P4已受理状态的事件单; (2)提权应用必需与事件单分析处理阶段的当前责任应用一致; (3)提权操作人必需与事件分析处理阶段的当前责任人一致; (4)提权区域必需与事件单的区域一致。