检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在左侧菜单栏选择“韧性中心 > 应急预案”页面,选择“自定义预案”页签,单击“创建应急预案”。 图4 应急预案页面 填写应急预案基本信息。 图5 创建应急预案 表2 应急预案参数说明 参数名 参数说明 应急预案名称 用户自定义此次演练的应急预案名 所属应用 演练目标主机或容器的所属应用 应急预案概述 描述应急预案主要信息
应急预案 操作场景 您可以对系统可能发生的故障建立对应的应急预案,在故障发生后可以参考应急预案进行故障紧急恢复。 创建应急预案 登录COC。 在左侧菜单栏选择“韧性中心 > 应急预案”页面,选择“自定义预案”页签。 图1 应急预案页面 单击“创建应急预案”,填写应急预案基本信息。
问题定位出方案中 操作场景 问题单受理后,需要对该问题进行定位分析,并给出定位结果和解决方案。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“定位出方案”,跳转至填写问题原因及解决方案页面,填写信息后点击提交。
提交事件单解决方案 功能介绍 HandleCocIncident 处理事件单 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致。 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num
候,可创建应急预案、脚本或作业。 图2 事件处理执行响应预案 若响应预案为“作业”和“脚本”,核实作业和脚本信息后,单击“提交”。 图3 执行作业或脚本页面 若响应预案选择了应急预案,应急预案为自动化预案,需要单击步骤中的“执行”执行脚本或作业,完成后单击“提交”;应急预案为文本
网问题发生前识别系统的薄弱点(软件Bug、方案设计不足之处、故障恢复流程卡点等),及早发现系统可用性的问题进行解决,持续提升应用韧性,建立运维信心。对于无法避免的场景(硬件故障、服务器异常下电、网络设备单板故障等)通过提前制定快速恢复应急预案进行应对。 COC混沌演练为用户提供一
实施及闭环变更单 操作场景 变更单审批后,按照变更方案在规定时间窗内实施变更。 操作步骤 登录COC。 在左侧菜单栏选择“变更管理 > 变更中心”,进入“变更中心”页面,待处理的变更单列表,点变更标题或操作类“处理”,进入变更详情,点“变更开始”。若变更方案关联的作业,<需先执行作业;若是变更指导书,按照变更指导书步骤实施变更。
受理事件单 功能介绍 受理事件 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致。 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号,示
问题待现网实施 操作场景 解决该问题需要涉及变更实施操作。 前提条件 问题定位出解决方案详情页面,“是否需要变更”填写“需要变更”,问题单会走到待现网实施阶段。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进
全方位变更管理 方案评审:支持变更方案标准化(Standard Operating Procedure,简称SOP),将变更方案明确并电子化,经评审后归档。支持规则和流程解耦,保证变更执行过程不走样,同时将变更方案沉淀。 变更审批:按照预设审批流程审批变更单,保障变更方案可靠性、时间合理性、流程合规性。
验证事件处理结果 功能介绍 验证事件单 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号
问题流程 问题被创建后状态为“未受理”,未受理状态可对问题单受理、驳回或转发责任人。 问题受理后状态为“定位出方案中”,定位出方案中状态可对问题单填写问题定位结果信息、转发责任人、升降级和挂起。 问题单挂起后需要创建单人审核,审批通过后状态为“挂起”,挂起后问题单可手动解除挂起或到达设定的解除挂起时间自动解除挂起。
COC服务提供了3级可靠性架构,通过AZ内(Availability Zone,可用区)实例容灾、多AZ容灾、数据定期备份技术方案,保障服务的持久性和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容灾,快速剔除故障节点,保障COC实例持续提供服务。
恢复,未知故障沉淀经验。 图4 标准化故障管理 智能化混沌演练 全旅程混沌工程解决方案,快速评估应用潜在韧性风险,持续看护应用架构。 端到端混沌工程方案:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、演练复盘4个维度,提供端到端混沌演练能力。 故障模式库:首创基于容错
事故处理流程、无明确故障恢复协同作战阵型、无应急响应预案。同类型故障场景重复出现,无运维经验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程,实现规范性处理。 解决方案 端到端事件流程:明确标准化事件处理流程,通
演练目标所属的应用 事件级别评估 参考事件中心事件级别定义 来源 包括主动分析,已有故障 是否有应急预案 是或者否,默认为是 应急预案名称 下拉搜索选择对应的应急预案,如果没有,可以创建应急预案,具体参考应急预案章节 场景分类 故障属于哪种场景,包括冗余、容灾、过载、配置、依赖 发生条件 故障可能发生的条件
支持哪些攻击场景? 支持对华为云ECS实例、RDS实例、CCE集群和Pod等多个云服务的常见故障场景的模拟,支持对多个故障场景的自由编排和组合。 父主题: 韧性中心常见问题
图1 创建演练任务 填写演练任务基本信息,包括演练任务名称和期望恢复时长,单位为分钟。 期望恢复时长:在故障注入之后,应用自恢复或在执行应急预案时恢复到正常状态的期望时间,该时间不会对演练任务产生影响。 图2 演练任务基本信息 选择攻击任务,默认有1个攻击任务组,单击“添加新的
审计与日志 审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CT
韧性中心 混沌演练 应急预案 PRR评审