检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当应用系统采用华为云服务的高可用设计时,在云服务实例发生故障后,云服务能自动检测和恢复;但对于应用系统本身的故障,需要应用系统自身进行检测和快速恢复处理,以保证系统能够正常运行,从而提高系统的可靠性和稳定性。 RES08 依赖减少与降级 RES09 故障重试 RES10 故障隔离 RES11 可靠性测试 RES12
节进行详细描述。 问题 检查项/最佳实践 RES01 您如何使用冗余技术确保应用系统的高可用? 应用组件高可用部署 应用组件多位置部署 云服务器反亲和 RES02 您如何备份应用程序中的关键数据? 识别和备份应用中所有需要备份的关键数据 自动数据备份 定期进行备份数据恢复 RES03
n容灾等高可用能力的基础设施与云服务,便于客户构建高可靠的系统。例如: EVS云硬盘、OBS对象存储采用分布式存储,可避免单个硬盘、单个服务器或单个机架等硬件故障的影响。 RDS数据库提供自动数据备份、跨AZ和跨Region的数据复制与切换。 不过,即使应用系统利用云平台能力具有
性能测试 性能测试是一种软件测试形式,通过性能测试工具模拟正常、峰值及异常负载等状态下对系统的各项性能指标进行测试的活动,它关注运行系统在特定负载下的性能,可帮助你评估系统负载在各种方案中的功能,涉及系统在负载下的响应时间、吞吐量、资源利用率和稳定性,以帮助确保系统性能满足基线要
数量。 故障恢复时长提升率:对应故障场景经过混沌工程演练,平均恢复速度提升的比率。 故障数量相比上年减少数量:本年度故障数量相比上年度减少多少。 相关云服务和工具 MAS 混沌工程 COC 故障演练 父主题: OPS03 完备的测试验证体系
然可以保证一定比例设计容量的处理能力。 通过过载保护,可以缓解客户流量突增、泛洪攻击或重试风暴所造成的大量容量峰值情况,让工作负载能够继续正常处理支持的请求量,避免出现资源耗尽而导致所有请求都不能处理的情况。 RES13-01 采用自动弹性扩缩容 RES13-02 应用系统负载均衡,避免流量不均匀
他云上可以达到99.9%的可用性,则在容灾到华为云后,能提供99.99%的可用性。 跨云应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用虚拟机或容器(以容器为例,华为云采用CCE),后端数据库通常要求采用通用MySQL数据库(华为云采用RDS for MySQL),以实现跨云双活容灾。
实例时,需要借助其他云服务或应用层实现跨AZ容灾;以ECS为例: 对于无状态ECS实例,可利用AS弹性伸缩服务的跨AZ伸缩能力,或ELB跨AZ负载均衡能力,实现跨AZ高可用,在一个可用区故障时能自动快速切换。 对于有状态ECS实例,或BMS实例,建议从应用层实现跨AZ容灾,支持跨
数据保护与灾难恢复能力,以便在站点级灾难发生时,可以保证生产系统的数据尽可能少的丢失,业务系统能在最短时间内由灾备中心接替,恢复业务系统的正常运行,将损失降到最小。 对于跨Region容灾场景,应用系统可在多个Region中部署,并将数据从一个Region复制到另一个Region
Time to Know)平均诊断时长、MTTF(Mean Time to Fix)平均修复时长 变更风险控制 在变更作业过程中,建立事前检查、事中拦截和事后验证的能力,防止异常行为。 安全生产 安全生产目的是为了持续保障现网“安全、稳定、高质量”,从人员、工具、产品能力、流程规
发大流量,则可手工进行扩容处理。 华为云服务实例支持主动横向或纵向扩容功能;如对于ECS实例可以通过创建多个ECS实例实现横向扩容,也可升级ECS规格实现纵向扩容;对于RDS实例可升级RDS实例规格实现纵向扩容。 父主题: RES13 过载保护
关键策略 RocketMQ服务提供了多个维度定义规格,如资源规格、代理个数、存储容量、单个代理TPS、单个代理Topic数上限、单个代理消费组数上限等,建议根据不同版本涉及的具体规格情况选择合适的RocketMQ服务。 详细版本与对应支持规格参数请参考官方文档。 父主题: 选择合适的应用中间件云服务资源
故障中断:假定每年故障中断3次,每次应急恢复决策时长为10分钟,恢复处理时长为5分钟,则每年故障中断时长为45分钟。 变更中断:假定应用支持金丝雀部署或蓝绿部署,并自动完成,软件更新不中断业务。 按照以上评估,每年应用系统不可用的时长是45分钟,满足可用设计目标要求。 电子商务类应用典型架构为前端无状态应用层+后
应用性能编程规范 PERF02 如何进行性能规划? 定义性能目标 容量规划 PERF03 如何进行性能建模? 选择合适类型的计算云服务 选择合适规格的虚拟机和容器节点 使用弹性伸缩 选择合适类型的网络云服务 选择合适类型的存储云服务 选择合适的消息队列 选择合适规格的Kafka 选择合适规格的RocketMQ
业务所需的规格,选择合适的Kafka规格。 规格测算: 性能容量维度所需最小节点数 = max((存储带宽需求 / 单节点存储带宽),(网络带宽需求 / 单节点网络基准带宽)) 磁盘容量维度所需最小节点数 = max(总磁盘容量需求 / 单节点磁盘容量上限) 详细规格选择参考官方文档。
关键策略 Production Readiness Review 生产准备度评估基线:从SLI/SLO、可冗余、可容灾、可过载控制、可故障管理、可变更能力、可运维、安全生产等维度,对服务可用性及运维能力提出基线要求。在服务产品开发前端构筑能力,进行相关需求规划、设计和开发工作,并在服务上线前进行生产准入审视。
据需求划分迭代计划。 相关云服务和工具 华为云CodeArts Req服务 父主题: OPS02 通过CI/CD实现高效的频繁可逆的小规模变更
cted Framework)聚焦客户业务上云后的关键问题的设计指导和最佳实践。 以华为公司和业界最佳实践为基础,以韧性、安全性、性能效率、成本优化与卓越运营五个架构关注点为支柱,打造领先的卓越架构技术框架,支撑客户完成云架构设计、云架构治理体系建设、研发生产力提升、现代化应用构建及运营运维体系建设等关键问题解决。
策时长为30分钟,恢复处理时长为30分钟,则每年故障中断时长为240分钟。 变更中断:假定应用离线更新,每年更新8次,每次更新时长30分钟,则每年更新时长为240分钟。 按照以上评估,每年应用系统不可用的时长是480分钟,满足可用设计目标要求。 内部知识管理类应用典型架构为前端无
PERF01-01 全生命周期性能管理 风险等级 高 关键策略 指定性能目标 从性能角度来看,最好为性能场景定义具体的、量化的、可测量的性能目标。若要设置这些目标,需要充分了解业务要求以及预期将提供的服务质量。 需要与业务利益干系人共同关键功能的体验要求,而不是只关注技术指标。通