检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主备切换时,会导致连接中断,需要客户端重试。 实例由于故障重启可能会导致通信中断,如ECS所在物理服务器由于硬件原因故障时,ECS重启或在其他物理服务器中自动恢复,恢复过程中与ECS的通信会中断,需要重试。 实例由于过载导致无法及时响应,需要重试。 RES09-01 API及命令调用需要设计为可重试
赖。 应用系统应尽可能减少关键依赖项,即减少由于该依赖项不可用而导致服务中断的组件。 RES08-01 减少强依赖项 RES08-02 依赖松耦合 RES08-03 减少被依赖项故障的影响 父主题: 故障快速恢复
防,故障发生时及时应对,故障恢复后回归验证。基于故障本身打造分布式系统韧性,持续提升软件质量,增强团队对软件生产运行的信心,减少业务运行中出现类似问题。 为了保证测试的有效性,测试环境需要与生产环境保持一致。 华为云提供了MAS-CAST故障注入服务、CodeArts PerfT
云服务可靠性介绍 概述 ECS弹性云服务器 BMS裸金属服务 CCE云容器引擎 ELB弹性负载均衡 AS弹性伸缩 DCS分布式缓存服务 DMS分布式消息服务 RDS云数据库 GaussDB(for MySQL)云数据库 OBS对象存储服务 父主题: 韧性支柱
无需进行额外的测试或编码。 风险等级 高 关键策略 可观测体系是围绕确定性恢复命题展开的,决定了确定性恢复能力构建与 SLO 达成。可观测体系能够直接决定一些故障的恢复时长,如下图所示,MTTR 平均恢复时长由平均发现时长、平均定界时长和平均处置时长三部分构成,而可观测能决定的是发现时长和定界时长(经验值占比
时只会对内部员工造成影响,可以承受一定的恢复时间和恢复点,其可用性目标通常要求达到99.95%,即每年故障时长可以为4.38小时。 假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中断4次,每次应急恢复决策时长为20分钟,恢复处理时长为10分钟,则每年故障中断时长为120分钟。
降低成本。 相关服务和工具 华为云以Serverless形态存在的产品,存储类的对象存储服务(Object Storage Service,OBS),应用类的云应用引擎(Cloud Application Engine, CAE),容器类的云容器实例(Cloud Container
风险等级 高 关键策略 云服务实例具备跨AZ高可用实例时,优先使用云服务实例自身的跨AZ高可用实例。 云服务实例只支持发放单AZ实例,不支持跨AZ高可用实例时,需要借助其他云服务或应用层实现跨AZ容灾;以ECS为例: 对于无状态ECS实例,可利用AS弹性伸缩服务的跨AZ伸缩能力,或E
示。 相关云服务和工具 华为云服务的安全特性:在云服务模式下,如何保障云上安全,成为大多数企业和客户的首要关注问题。华为云致力于保障其所提供的IaaS、PaaS和SaaS各类各项云服务自身的安全及基础设施安全,同时也为致力于为客户提供先进、稳定、可靠、安全的产品及服务。文档中说明
应该监控加密和解密密钥的使用,并根据数据用途、类型和分类来选择不同的加密密钥。 相关云服务和工具 数据加密服务 DEW:DEW与OBS、云硬盘(EVS)、镜像服务(IMS)等服务集成,可以通过密钥管理服务(KMS)管理这些服务的密钥,并对云服务中的数据进行加密,还可以通过KMS API完成本地数据的加密。
应用性能管理(APM) 华为云应用性能管理服务(Application Performance Management,简称APM)帮助运维人员快速发现应用的性能瓶颈,以及故障根源的快速定位,为用户体验保驾护航。 您无需修改代码,只需为应用安装一个APM Agent,就能够对该应用
清晰的了解自己业务成本,加强团队成本意识,在构建方案时追求性能、可靠性和成本的平衡。 相关服务和工具 华为云支持您按照组织规划的方式分配成本。随着云服务的使用,规划的组织方式也会随着云服务的费用生成,体现在账单管理、成本分析等可视化工具的数据中。 您还可以使用成本单元,综合多种条
风险等级 高 关键策略 当应用组件对应的云服务实例支持跨AZ高可用实例时,可采用云服务实例自身的跨AZ数据同步;如RDS数据库、DCS实例、OBS桶等。 当应用组件对应的云服务实例不支持跨AZ高可用实例,但提供了同步服务进行跨AZ数据同步时,可利用该服务进行跨AZ数据同步;如存在有状态数
ECS弹性云服务器 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后,就可以像使用自己的本地PC或物理服务器一样,在云上使用弹性云服务器。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
考量(避免迁移上云后,数据库层与应用层不兼容),上云过程中采用云上同样生态的数据库进行平替,是首要的决策依据。 可迁移性:针对数据库上云迁移,解决方案要具备平滑迁移的能力;结合数据库迁移服务所提供的能力,评估迁移上云过程中,数据库的切换对业务系统中其他组件的影响(如服务中断的影响
egion,以便在发生地区级服务中断或数据丢失时可进行灾难恢复。 对于跨云容灾场景,当应用系统已部署在IDC或其他云中,可以在华为云中另外部署一套系统并将数据从IDC或其他云复制到华为云中,以便在发生整IDC或整朵云服务中断或数据丢失时可以进行灾难恢复。 RES04-01 定义应用系统的容灾目标RPO与RTO
侵、人为误删除、软硬件故障等场景,能够快速将数据恢复到备份点。 由于容灾通常对数据采用实时复制且没有多备份点,在主数据被误删或误改的情况下,错误数据会同步到备端,从而无法达到数据备份的效果,因此通常不能使用容灾来代替备份。 备份恢复时的RPO指标(即数据丢失量),与最近一个备份时
CCE云容器引擎 云容器引擎(Cloud Container Engine,简称CCE)提供高度可扩展的、高性能的企业级Kubernetes集群,支持运行Docker容器。借助云容器引擎,可以在云上轻松部署、管理和扩展容器化应用程序。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
防止现网故障的发生,其中如何防止异常行为导致的事件是安全生产的重要目标。 故障快速恢复 故障快恢是以故障模式库为基础,建立应急预案,提升故障恢复效率、降低故障恢复时长,结合混沌工程演练把不确定的恢复时长做到确定的。 资源生命周期管理 指的资源的申请、创建、交付、运维以及最终的销毁释放过程。
韧性支柱 韧性支柱简介 基本概念 设计原则 问题和检查项 高可用设计 故障全面检测 故障快速恢复 过载控制 变更防差错 参考架构 云服务可靠性介绍