检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES02-03 定期进行备份数据恢复 通过定期恢复测试,可以验证备份数据的完整性与恢复处理过程是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 定期执行备份数据恢复,以验证备份的完整性。 为了避免备份恢复对生产业务造成影响,可以构建一
S、DDS、DCS等具备原生的创建备份功能;云商店也有不少备份软件可以支持各种数据的备份。 华为云云服务提供了备份工作负载数据的功能,典型的备份有: 云备份CBR服务:CBR提供对磁盘(EVS)、服务器(ECS、HECS、BMS)基于快照的备份和恢复能力,SFS Turbo文件系
RES14-03 变更前数据备份 通过配置数据事前备份与恢复设计,确保在出现配置错误时能够快速恢复到正确的配置数据状态。 风险等级 高 关键策略 进行全量数据备份,以防变更过程中数据被破坏,影响业务。 异常回滚时,可使用备份数据进行恢复。 父主题: RES14 配置防差错
RES12-05 应急恢复回溯 在业务进行应急恢复处理后,需要对事件进行回溯并进行优化,以避免故障的再次发生。 风险等级 高 关键策略 对问题进行定位和修复,优化产品能力,减少同类事件的发生。 针对应急恢复过程进行总结,优化恢复过程。 父主题: RES12 应急恢复处理
告警:应用系统在检测到故障后需要及时告警,并能通过短消息、邮件等方式发送给所有相关人员,确保使相关人第一时间得知故障信息,以便快速组织应急响应。 预测:维护团队需要根据系统运行现状,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。 在进行应急恢复处理时,通常需要尽快缓解或恢复业务,快速结束
可靠性功能 数据备份和恢复 使用CBR云备份服务可对ECS的备份保护服务,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复ECS数据。详见“云备份概述”。 故障自愈 当ECS支持自动恢复时,可以开启自动恢复能力,当物理服务器损坏时以冷迁移方式重启ECS实例,使弹性
RES12 应急恢复处理 应用系统无论如何精心设计,仍可能会出现无法恢复的故障,当此类故障发生后,需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05
RES12-03 定期应急恢复演练 定期测试突发事件应急恢复处理,以便在出现问题后能进行高效的恢复处理。 风险等级 高 关键策略 每年至少进行一次应急恢复演练;通过演练可提升操作人员的熟练程度。 演练期间严格按照应急预案进行恢复,以检验应急预案的准确性。 演练结束后需要对恢复过程进行回溯,并优化应急预案。
定期进行容灾演练,以检查恢复能否满足容灾目标 通过定期的容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 每年至少进行一次容灾演练;通过演练可提升操作人员的熟练程度。 演练期间需要对恢复过程计时,以确定应用系统的RPO与RTO目标能否满足。
故障快速恢复 当应用系统采用华为云服务的高可用设计时,在云服务实例发生故障后,云服务能自动检测和恢复;但对于应用系统本身的故障,需要应用系统自身进行检测和快速恢复处理,以保证系统能够正常运行,从而提高系统的可靠性和稳定性。 RES08 依赖减少与降级 RES09 故障重试 RES10
可靠性功能 数据备份和恢复 使用CBR云备份服务可对BMS的所有云硬盘(系统盘和数据盘)进行备份,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复裸金属服务器数据,最大限度保障用户数据的安全性和正确性,确保业务安全。详见“备份裸金属服务器”。 集群HA 配合共享云
RES12-01 组建应急恢复团队 为了应对紧急故障场景,需要组建应急恢复团队,明确责任人,并进行培训。 风险等级 高 关键策略 组建应急恢复团队:其中包括应急恢复主席及所有组件及关键依赖项的恢复责任人。 应急恢复主席:在出现问题后及时组织应急恢复团队进行快速恢复处理。 组件或关键依赖
场景不同可能为其他云或IDC或华为云Region: 远程备份:生产站点内的重要数据,备份到异地华为云灾备Region,当生产站点发生灾难时,需要在异地灾备Region新部署一套业务系统并使用最新备份数据恢复数据,并恢复业务。 主备容灾:生产站点与华为云灾备Region各部署一套业
r集群实例,通过节点冗余方式实现实例容灾,当检测到主节点故障后,快速切换到备节点并自动恢复,在异常检测和恢复期间,可能会影响业务,时间在半分钟内。 数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储到OBS中,以便在缓存实例发生异常后能够从备份数据进行恢复。DCS实例
RES10-01 应用控制平面与数据平面隔离 通常应用的数据平面处理业务,比较重要,可用性要求比较高,而控制平面不直接处理业务,因此其故障时不应该影响业务系统。 风险等级 高 关键策略 应用控制平面与数据平面隔离,避免控制系统故障影响业务。 数据平面所在业务系统的故障恢复可不依赖控制平面,避
实践的检验,建议选取生态相同的关系型数据库服务进行平替,避免出现数据库层与应用层不兼容或数据库切换对业务架构中其他组件产生负面影响。 场景二:基于场景评估 如果是在云上新建业务系统或基于同数据库不同服务中选取时,建议结合业务的实际需要选取合适的数据库服务,如考虑性能、安全性等因素
识别工作负载内的数据 通过业务流程、数据流动方向、数据分布、数据的所有者等维度,对照合规要求评估数据的敏感度,对数据分级分类。 风险等级 高 关键策略 遵循以下步骤梳理、识别数据: 业务流程分析。 了解业务流程,对照业务流程图,明确在各个环节中产生、处理和存储的数据类型和用途。
务中断的影响、数据转移效率),这是具体实施业务上云过程中的重点关切。 业务应用场景的评估:如果是在云上新建业务系统,则要通过业务的实际需要进行云数据库的选型,它的评估与数据库是否建立在云上无关,而是根据实际业务系统的特点来决定的。如电商系统,考虑选型MySQL满足用户信息管理、买
BMS实例或挂载的磁盘或数据被意外删除 检测:NA 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务对BMS云硬盘进行定期备份,在数据被删除时使用备份数据快速恢复。 BMS实例物理服务器或本地盘故障 检测:应用层检测物理服务器和本地盘运行状态 恢复:应用层
ECS实例或挂载的磁盘或数据被意外删除 检测:NA 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务对ECS进行定期备份,在数据被删除时使用备份数据快速恢复。 ECS实例使用本地盘时本地盘故障 检测:应用层检测本地盘运行状态。 恢复:应用层采用RA