检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RTO与RPO 灾难场景通常采用RTO和RPO目标定义: 恢复时间目标RTO:指灾难发生后应用不可用的最长时间。RTO决定了应用容灾整体架构,是采用数据备份,还是冷备、温备、热备。 恢复点目标RPO:指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式,是在线备
RES04-01 定义应用系统的容灾目标RPO与RTO 在进行容灾设计前,需要根据应用系统的重要性,明确其容灾目标,通常以RPO和RTO指标来定义: RPO:允许的数据丢失量,与数据的周期性复制周期或连续性复制延时相关。 RTO:允许的业务恢复时长,即业务中断时长,与灾备端业务的部署与切换方式相关。
RES03-04 支持容灾管理 提供容灾管理功能,实现容灾状态及RPO监控,及异常场景下的业务切换。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。 支持应用级数据校验,比较AZ间数据同步差异,监控及PO指标。 典型确定性故障场景下自动容灾或切换,无需人工接入,业务不受影响,满足RPO/RTO指标。
RES04-04 定期进行容灾演练,以检查恢复能否满足容灾目标 通过定期的容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 每年至少进行一次容灾演练;通过演练可提升操作人员的熟练程度。 演练期间需要对恢复过程
灾难演练 通过容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 灾难演练着重测试服务跨AZ或跨Region故障转移能力,验证系统的容灾能力以及面对灾难时的应对能力,涉及到多个团队间配合,通常作为专项开展。容灾演练可以
RES04-03 容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。
RES04-02 部署容灾系统以满足容灾目标 针对不同应用系统的容灾目标,需要综合考虑中断概率、容灾成本等因素,来决定采用什么样的容灾方案来实现这些目标。 风险等级 高 关键策略 面向跨Region/跨云容灾场景,可基于不同的可用性目标要求,采用不用的容灾方案,如远程备份、主备容灾、双活容灾
对于跨云容灾场景,当应用系统已部署在IDC或其他云中,可以在华为云中另外部署一套系统并将数据从IDC或其他云复制到华为云中,以便在发生整IDC或整朵云服务中断或数据丢失时可以进行灾难恢复。 RES04-01 定义应用系统的容灾目标RPO与RTO RES04-02 部署容灾系统以满足容灾目标
跨云容灾方案 当重要应用系统已经在IDC或其他云上部署,并需要容灾到华为云,以提供高可用的容灾方案。假定应用系统在IDC或其他云上可以达到99.9%的可用性,则在容灾到华为云后,能提供99.99%的可用性。 跨云应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用
RES03-03 对接容灾仲裁,支持自动切换 针对有状态的主备类型业务,在跨AZ部署并支持自动切换时,需要对接容灾仲裁,以避免出现双主或双备,从而在AZ间链路中断的情况下,业务能自动切换到一个AZ提供服务而不受影响;对于集群类业务不涉及。 风险等级 高 关键策略 面向有状态主备类
Z之间复制数据、负载均衡和跨AZ故障切换,从而使应用系统具备应对可用区故障的能力。 RES03-01 集群跨AZ部署 RES03-02 跨AZ数据同步 RES03-03 对接容灾仲裁,支持自动切换 RES03-04 支持容灾管理 父主题: 高可用设计
由应用层进行数据复制;如存在有状态数据的BMS实例。 相关云服务和工具 存储容灾服务 SDRS 弹性云服务器 ECS 云数据库 RDS 分布式缓存服务 DCS 对象存储服务 OBS 父主题: RES03 跨AZ容灾
对于有状态ECS实例,或BMS实例,建议从应用层实现跨AZ容灾,支持跨AZ自动切换或通过容灾管理工具实现自动化容灾切换,减少灾难发生时的人工操作。 对于已部署的应用系统改造为跨AZ实例的实施步骤: 确定应用系统的关键组件;所谓关键组件是指一旦故障,会导致整个应用系统或其中的关键功能受损。
定义应用系统的容灾目标RPO与RTO 部署容灾系统以满足容灾目标 容灾恢复过程自动化 定期进行容灾演练,以检查恢复能否满足容灾目标 RES05 您如何保证网络高可用? 网络连接高可用 避免暴露不必要的网络地址 不同流量模型业务的网络共享带宽隔离 预留IP资源以便扩展和高可用 RES06您如何进行故障检测处理?
软硬件故障等场景,能够快速将数据恢复到备份点。 由于容灾通常对数据采用实时复制且没有多备份点,在主数据被误删或误改的情况下,错误数据会同步到备端,从而无法达到数据备份的效果,因此通常不能使用容灾来代替备份。 备份恢复时的RPO指标(即数据丢失量),与最近一个备份时间点相关;不同类
CS、BMS)基于快照的备份和恢复能力,SFS Turbo文件系统备份,云服务器部署的MySQL或SAP HANA等数据库备份,以及云上同步和管理线下备份软件OceanStor BCManager和VMware虚拟机的备份数据。CBR支持一次性备份和周期性备份两种配置方式。目前备
RES02-01 识别和备份应用中所有需要备份的关键数据 不同数据的重要性不一样,针对应用系统内的所有数据,需要明确其重要性及对应的RPO/RTO指标要求。比如对于重要数据,通常允许数据丢失的时间会比较少,从而需要更频繁的备份;对于一般的数据,允许数据丢失的时间比较长,可以使用较
RES02-03 定期进行备份数据恢复 通过定期恢复测试,可以验证备份数据的完整性与恢复处理过程是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 定期执行备份数据恢复,以验证备份的完整性。 为了避免备份恢复对生产业务造成影响,可以构建一个测试环境,并使用已有的备份数据进行恢复处理。
可用性目标定义 可用性是衡量可靠性和韧性的综合性指标。 可用度及SLO RTO与RPO 数据持久度 父主题: 基本概念
995%,远高于传统架构。详见“OBS的持久性和可用性如何?”。 数据备份和恢复 OBS支持多版本控制,可以在一个桶中保留多个版本的对象,以便方便地检索和还原各个版本,在意外操作或应用程序故障时快速恢复数据。 跨AZ容灾 在创建桶时,数据冗余存储策略可选择多AZ存储,数据将冗余存储至多个AZ中,可靠性更高。