检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
关键策略 不同的业务系统重要性不一样,针对应用系统内的各种业务,需要明确其重要性及对应的RPO/RTO指标要求。比如对于核心业务,通常需要保障业务的连续性,允许业务中断的时间会比较少,从而需要保障故障场景下的业务快速恢复,可采用双活/多活容灾;对于重要业务,允许一定的业务中断时间,
SEC04-02 控制网络流量的访问 控制网络流量以确保网络分区之间的流量是可预期的、允许的。依据零信任原则,需在网络级别验证所有的流量出入。确保网络设备的业务能力、网络每个部分的带宽满足业务高峰期的需要。 风险等级 高 关键策略 在设计网络拓扑时,仔细检查每个组件的连接要求,例如是否需要互
当应用组件对应的云服务实例不支持跨AZ高可用实例,但提供了同步服务进行跨AZ数据同步时,可利用该服务进行跨AZ数据同步;如存在有状态数据的ECS实例不支持跨AZ高可用,但可通过SDRS服务进行跨AZ数据同步。 当应用组件对应的云服务实例不支持跨AZ高可用实例,且不支持跨AZ数据同步
RES04 跨Region/跨云容灾 为了预防区域级灾难发生,或业务跨云容灾需求,需要构建容灾系统提供较为完善的数据保护与灾难恢复能力,以便在站点级灾难发生时,可以保证生产系统的数据尽可能少的丢失,业务系统能在最短时间内由灾备中心接替,恢复业务系统的正常运行,将损失降到最小。 对
需要新申请跨AZ高可用实例替换原来的单AZ高可用实例。 若云服务实例为单节点实例,如ECS,则通过申请多个AZ的多个实例承载相同业务,并利用跨AZ的ELB实现跨AZ的负载均衡和自动故障切换,或由应用层实现跨AZ多实例的自动故障切换能力,来实现跨AZ高可用。 相关云服务和工具 华为
物理服务器上,以避免由于单台物理服务器故障而导致所有业务不可用的场景。 若ECS通过AS进行弹性伸缩时,则需要AS配置云服务器组反亲和,以避免AS自动创建的ECS运行在同一个物理服务器上。 若CCE集群节点或节点池采用弹性云服务器ECS时,建议配置云服务器组反亲和,以避免CCE集
SEC02-03 网络访问权限最小化 确保只有必要的人员或组件可以访问特定的网络资源。 风险等级 高 关键策略 通过配置安全组和网络访问控制列表(ACL),控制进出云资源的网络流量,确保只有授权的流量能够访问特定的服务和端口。根据业务实际情况优化每个网络区域的ACL,并保证访问控制规则数量最小化。
RES03 跨AZ容灾 为了预防单可用区故障,可借助华为云多可用区(Availability Zone,简称AZ)能力,应用可以用较小成本来完成容灾架构部署。应用系统可设计为使用分布在多个可用区中的资源池,并利用云服务实例本身具备或应用自身支持的跨AZ数据复制与切换能力,在多个A
伸缩;对于有状态应用,通过SDRS服务实现跨云的虚拟机数据复制与容灾切换,并可通过CBR服务进行自动数据备份。 中间件层:Redis、Kafka集群跨可用区高可用部署。 数据层:MySQL数据库高可用,通过DRS数据复制服务实现跨云的数据库复制与容灾切换;并可定期自动备份数据,在数据丢失时快速恢复业务。
中间件层:Redis、Kafka集群跨可用区高可用部署。 数据层:MySQL数据库跨可用区高可用,通过DRS数据复制服务实现跨云的数据库复制与容灾切换。 为了保证数据的可靠性,数据库的数据定期自动备份,在数据丢失时可以快速恢复。 父主题: 跨云场景典型部署架构(99.99%)
ECS弹性云服务器 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后,就可以像使用自己的本地PC或物理服务器一样,在云上使用弹性云服务器。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
选择另一个Region作为灾备Region,部署一套相同的应用系统,包括工作负载、数据库实例等。 针对应用系统内的关键数据,利用云服务或应用系统自身实现跨Region的数据复制。 若云服务实例支持跨Region容灾,则配置生产站点与灾备Region之间的复制,如对于RDS数据库实例,需申请DRS实例对主Region与
支持应用级数据校验,比较AZ间数据同步差异,监控及PO指标。 灾难场景下的一键式自动切换,减少人工干预,满足RPO/RTO指标。 支持容灾恢复流程编排、容灾演练等功能。 相关云服务和工具 多活高可用服务 MAS 父主题: RES04 跨Region/跨云容灾
跨云场景典型部署架构(99.99%) 跨云容灾方案 跨云双活方案 父主题: 参考架构
定期进行容灾演练,以检查恢复能否满足容灾目标 通过定期的容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 每年至少进行一次容灾演练;通过演练可提升操作人员的熟练程度。 演练期间需要对恢复过程计时,以确定应用系统的RPO与RTO目标能否满足。
考“故障重试”。 当ECS由于过载导致网络限制时,可参考“ECS的CPU /内存/磁盘容量/磁盘IOPS使用率过高”的处理。 ECS实例不可用或运行异常 检测:配置ELB弹性负载均衡器的后端服务器健康检查,以便定期检查后端服务器的运行状态。健康检查应检查关键功能是否能正确响应。
COST07-03 考虑不同的云资源技术选型 风险等级 中 关键策略 定期咨询专家或 华为 合作伙伴,以便确定哪些服务和功能的成本更低。查看华为博客和其他信息源。如在非计算密集型场景,使用华为云的云耀系列服务器取代普通ECS服务器 父主题: COST07 管理和优化资源
典型亚健康故障场景,支持业务降级或主动切换,业务不持续受损。 相关云服务和工具 多活高可用服务 MAS 父主题: RES03 跨AZ容灾
使用CBR云备份服务可对ECS的备份保护服务,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复ECS数据。详见“云备份概述”。 故障自愈 当ECS支持自动恢复时,可以开启自动恢复能力,当物理服务器损坏时以冷迁移方式重启ECS实例,使弹性云服务器具备高可靠性和强大的动态迁移
消息至服务器地址等多种方式实时通知用户,让用户能够实时掌握云资源运行状态变化。 监控面板:为用户提供在一个监控面板跨服务、跨维度查看监控数据,将用户关注的重点服务监控指标集中呈现,既能满足您总览云服务的运行概况,又能满足排查故障时查看监控详情的需求。 OBS转储:云监控服务各监控