检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
运维总览 资源总览 运维沙盘 人员与排班 人员管理 排班管理 资源管理与运维 资源管理 应用管理 补丁扫描与修复 自动化运维 脚本管理 作业模板与执行 定时运维 故障管理 配置和应用流转规则 标准化事件管理流程 集成告警 WarRoom机制 可用性分析 混沌演练 02 入门 以快捷执行作业及快捷混沌演练为例
问题定位出方案中 操作场景 问题单受理后,需要对该问题进行定位分析,并给出定位结果和解决方案。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。
一个完整的混沌演练包括前期的故障模式分析,中期的故障注入和后期的复盘改进。 父主题: 韧性中心常见问题
图1 全旅程混沌工程 风险分析:分析应用架构,找出风险点。 应急预案:针对风险点,制定应急预案。 故障演练:针对风险分析的结果和应急预案,制定演练方案,进行故障演练。 复盘改进:演练完成后,对演练进行复盘总结,输出演练报告和改进事项。
故障模式是对云应用面临的潜在风险进行分析和评估的结果,混沌演练平台预置华为云多年积累的故障模式数据,使用FT-FMEA故障分析法帮助您分析云应用存在的潜在风险。 父主题: 韧性中心常见问题
通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。
问题管理 问题管理主要是对应用的所有问题单进行管理,通过识别故障的实际和潜在原因、管理规避方案和已知错误,来降低故障再次发生的可能性和影响性。包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。
审计与日志 审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。
list 查询文档列表 √ x x x coc:document:delete 删除文档 √ x x x coc:document:update 修改文档 √ x x x coc:document:get 查看文档 √ x x x coc:document:analyzeRisk 分析文档风险
故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
故障模式:融合专业风险分析方法和专家知识库,积累故障模式库,帮助客户分析云应用存在的潜在风险、传承运维经验。 韧性中心优化 全生命周期风险管理:覆盖部署态和运行态两部分的风险治理,贯穿应用和资源全生命周期,将华为云多年沉淀的动态清零风险管理经验使能用户。
端到端混沌工程方案:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、演练复盘4个维度,提供端到端混沌演练能力。 故障模式库:首创基于容错视角的故障场景分析方法,沉淀华为云SRE多年的故障模式库,用户开箱即用。 图5 智能化混沌演练
评估报告详情中,给出了识别到的风险项,并给出优化建议。 2. 若您认为部分风险项可以不进行优化,则可在查看评估报告详情中,点击“忽略风险“按钮,将其忽略。 父主题: 应用韧性评估
点击问题单名称进入问题详情页面,单击右上角“受理”,受理后可对问题单进行分析定位。 父主题: 处理问题
列出组织的可信服务列表 organizations:trustedServices:list 跨账号场景下,查询当前组织已开通的可信服务列表 列出组织的根 organizations:roots:list 跨账号场景下,查询当前组织的root 修改或删除委托权限 若开通COC后,识别到存在委托权限过大或权限不足的情况
改进管理 改进管理主要是故障处理过程识别到一些改进事项可通过改进单进行跟踪闭环。改进来源包含事件/Warrroom/演练/PRR。 改进管理 父主题: 故障管理
COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。
支持场景 创建应用韧性评估任务,在评估时会自动关联应用下的资源进行分析并给出评估报告。在评估报告中会给出识别到的风险和优化建议。 1. 当前应用韧性评估,允许评估一个应用下最多100个资源实例。若资源数量超出限制,则会评估失败,并给出相应报错。 2.
每种该工单的状态校验如下: 事件单状态校验: (1)P1、P2、P3、P4已受理状态的事件单; (2)提权应用必需与事件单分析处理阶段的当前责任应用一致; (3)提权操作人必需与事件分析处理阶段的当前责任人一致; (4)提权区域必需与事件单的区域一致。
通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景 您可以对应用可能发生的故障点进行分析,通过描述故障发生的条件、故障发生的现象、客户影响等字段建立故障模式,并将该故障模式应用于日常的混沌演练。