检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES12-03 定期应急恢复演练 定期测试突发事件应急恢复处理,以便在出现问题后能进行高效的恢复处理。 风险等级 高 关键策略 每年至少进行一次应急恢复演练;通过演练可提升操作人员的熟练程度。 演练期间严格按照应急预案进行恢复,以检验应急预案的准确性。 演练结束后需要对恢复过程进行回溯,并优化应急预案。
RES11-04 灾难演练 通过容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 灾难演练着重测试服务跨AZ或跨Region故障转移能力,验证系统的容灾能力以及面对灾难时的应对能力,涉及到多个团队间配合,通常
维度设计演练场景,先测试、后攻防、再突袭逐步递进式的开展演练。通过持续演练,对架构高可用、监控、PRR 等能力做“在线验证”,实现持续性的动态风险治理。混沌演练和高可用设计共同成为系统稳定性的“双引擎”。 系统风险消减、业务快速恢复:分析系统潜在风险(故障场景),制定应急预案,验
组件或关键依赖项运维责任人:负责问题定位和应急恢复处理。 制定应急恢复管理方案:所有应急恢复团队人员都需要进行应急恢复培训,熟悉应急恢复处理流程和恢复方法。 父主题: RES12 应急恢复处理
SEC10-04 安全事件演练 安全事件演练是一种模拟性的活动,旨在让组织成员在一个模拟的安全事件场景下进行实际操作和应对,以测试和提高其应对安全事件的能力。通过安全事件演练,组织可以评估其安全事件响应计划的有效性,发现潜在的问题并进行改进,提高团队的准备性和反应能力。 风险等级
RES12-02 制定应急预案 针对常见问题现象,提供标准化的应急恢复指导,以便在出现问题后,可以有序的完成恢复操作,避免操作失误。 风险等级 高 关键策略 需要覆盖常用典型场景。 应急恢复需要有标准的操作流程和动作,确保在事件发生时,相关干系人都能够明确自身职责和所需要采取的措施。
RES12-05 应急恢复回溯 在业务进行应急恢复处理后,需要对事件进行回溯并进行优化,以避免故障的再次发生。 风险等级 高 关键策略 对问题进行定位和修复,优化产品能力,减少同类事件的发生。 针对应急恢复过程进行总结,优化恢复过程。 父主题: RES12 应急恢复处理
RES04-04 定期进行容灾演练,以检查恢复能否满足容灾目标 通过定期的容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 每年至少进行一次容灾演练;通过演练可提升操作人员的熟练程度。 演练期间需要对恢复过程计时,
RES12 应急恢复处理 应用系统无论如何精心设计,仍可能会出现无法恢复的故障,当此类故障发生后,需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05
部署过程中出现问题时自动回滚。 应急恢复处理 制定应急处理机制,指定应急恢复人员,以便在突发事件后能快速决策和恢复;并提供常见应用、数据库问题以及升级部署失败的相关解决方案,以便在出现问题后可以及时恢复;定期进行演练,及时发现问题。 根据以上方案,典型部署架构如下: 该架构的主要特点包括:
理的诉求。客户会把所有工作负载部署在一个账号内。以下是一个单账号的工作负载级的安全参考架构。 该架构主要的安全设计如下: 网络安全 防DDoS攻击使用AAD服务 Web类攻击采用WAF防护 采用SSL证书进行通信加密 互联网边界、VPC之间采用云防火墙 运行环境安全 企业主机安全服务保护主机安全和容器安全
蓝军从第三方角度发掘各类脆弱点,并向业务所依赖的各种软硬件注入故障,不断验证业务系统的可靠性;而红军则需要按照预先定义的故障响应和应急流程进行处置。 演练结束后,建议针对故障中的发现、响应、恢复三个阶段的时长和操作内容进行复盘,并梳理改进点进行优化,提升业务系统的稳定性。 父主题:
和修复处理流程,以减少业务中断时间。 组织协调:故障发生后,应急恢复主席需要迅速组织相关人员快速恢复业务。 应急恢复处理:系统发生故障后需要快速问题分析并按照事先制定的应急预案进行恢复处理。 父主题: RES12 应急恢复处理
部署过程中出现问题时自动回滚。 应急恢复处理 制定应急处理机制,指定应急恢复人员,以便在突发事件后能快速决策和恢复;并提供常见应用、数据库问题以及升级部署失败的相关解决方案,以便在出现问题后可以及时恢复;定期进行演练,及时发现问题。 根据以上方案,典型部署架构如下: 该架构的主要特点包括:
部署过程中出现问题时自动回滚。 应急恢复处理 制定应急处理机制,指定应急恢复人员,以便在突发事件后能快速决策和恢复;并提供常见应用、数据库问题以及升级部署失败的相关解决方案,以便在出现问题后可以及时恢复;定期进行演练,及时发现问题。 根据以上方案,典型部署架构如下: 该架构的主要特点包括:
部署过程中出现问题时自动回滚。 应急恢复处理 制定应急处理机制,指定应急恢复人员,以便在突发事件后能快速决策和恢复;并提供常见应用、数据库问题以及升级部署失败的相关解决方案,以便在出现问题后可以及时恢复;定期进行演练,及时发现问题。 根据以上方案,典型部署架构如下: 该架构的主要特点包括:
的可靠性评估测试、压力负荷测试、CHAOS随机故障注入、生产环境故障演练等能力。 云运维中心 COC:支持混沌演练,为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端的演练流程。 父主题: RES11 可靠性测试
击目标、攻击策略进行故障注入,支持添加背景流量和资源监控,同时在故障注入能力的基础上,通过体系化的流程和规范来创建故障演练,从而验证和提升系统可靠性和技术团队应急响应能力。 父主题: 卓越运营云服务介绍
全方位变更管理 方案评审:支持变更方案标准化(Standard Operating Procedure,简称SOP),将变更方案明确并电子化,经评审后归档。支持规则和流程解耦,保证变更执行过程不走样,同时将变更方案沉淀。 变更审批:按照预设审批流程审批变更单,保障变更方案可靠性、时间合理性、流程合规性。
RES011 您如何进行可靠性测试? 混沌测试 压力负载测试 长稳测试 灾难演练 红蓝攻防 RES012 您如何进行应急恢复处理? 组建应急恢复团队 制定应急预案 定期应急恢复演练 出现问题后尽快恢复业务 应急恢复回溯 RES013 您如何进行过载保护以适应流量变化? 采用自动弹性扩缩容