检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
关键策略 请求超时,可能是链路闪断或其他临时性故障导致消息丢失,可以进行重试。 根据错误响应码进行有针对性的重试;对于临时性故障,如错误码指示为系统繁忙时,可等待一段时间后重试,否则无需重试。 请求SDK中内置了消息重试时,客户端无需重复重试。 多层业务栈一般只在源端重试,避免逐层重试。
原地升级和回滚时,升级和回滚过程中业务将会中断,中断时长受限于升级和回滚的时长,对业务影响比较大;而采用灰度部署和升级,可减少升级和回滚过程中的业务中断,提升系统可用性。 风险等级 高 关键策略 通过金丝雀部署、蓝绿部署等方式实现灰度升级或部署,逐步引入新版本部署范围或切换用户流量,配合自动回退以降低部署差错导致业务中断的风险。
RES08 依赖减少与降级 对于应用系统,需要识别和管理系统依赖项。应用系统设计人员需要维护对其他系统组件的依赖项的完整列表,包括系统内和系统外的所有依赖。 应用系统应尽可能减少关键依赖项,即减少由于该依赖项不可用而导致服务中断的组件。 RES08-01 减少强依赖项 RES08-02
为了预防区域级灾难发生,或业务跨云容灾需求,需要构建容灾系统提供较为完善的数据保护与灾难恢复能力,以便在站点级灾难发生时,可以保证生产系统的数据尽可能少的丢失,业务系统能在最短时间内由灾备中心接替,恢复业务系统的正常运行,将损失降到最小。 对于跨Region容灾场景,应用系统可在多个Region中部署,并
峰值及异常负载等状态下对系统的各项性能指标进行测试的活动,它关注运行系统在特定负载下的性能,可帮助你评估系统负载在各种方案中的功能,涉及系统在负载下的响应时间、吞吐量、资源利用率和稳定性,以帮助确保系统性能满足基线要求,有助于提早发现性能问题,防止随着系统运行可能出现的性能裂化小
PERF03-09 选择合适的RabbitMQ 风险等级 中 关键策略 版本选择:RabbitMQ服务版本随时间更迭,选择版本时需注意查看不同版本状态与区分,详情可参考官方公告。 规格选择:RabbitMQ服务提供了不同规格实例可供选择,建议按照业务需求对比,选择合适的规格型号,具体实例规格请参考官方文档。
故障快速恢复 当应用系统采用华为云服务的高可用设计时,在云服务实例发生故障后,云服务能自动检测和恢复;但对于应用系统本身的故障,需要应用系统自身进行检测和快速恢复处理,以保证系统能够正常运行,从而提高系统的可靠性和稳定性。 RES08 依赖减少与降级 RES09 故障重试 RES10
数据持久度 数据持久度是指数据不丢失的概率,即存储在预计周期内不出现数据丢失的概率,可以用于度量一个存储系统的可靠性。其只表示数据是否丢失的概率,不体现数据丢失多少;数据持久度的预计周期,一般按一年进行预计。 影响存储数据持久度的主要因子有:冗余数、磁盘失效率与数据修复时间。其中
基础概念 指标 概念解读 性能 性能是指软件系统或软件对应其及时性要求的符合程度。及时性用响应时间或吞吐量来衡量。 响应性 响应性是系统实现其响应时间或吞吐量目标的能力。 响应时间(RT) 用户感受系统为其服务所耗费的时间。不同业务系统的响应时间期望值不同,如互联网业务多为500ms以下、金融业务1s以下等。
RES13 过载保护 当系统流量超过一定阈值后,导致系统处于过载状态时,可能会导致部分请求失败,失败触发业务重试,会进一步增加系统的负荷,形成恶性循环,导致业务成功率远远低于系统的设计容量,甚至整体不可用。因此应用应该设计过载保护机制,使得在过载状态下依然可以保证一定比例设计容量的处理能力。
网络高可用 应用系统对外或对内通信都依赖于网络,一旦网络异常将会导致业务中断,因此网络架构的高可用及容灾能力至关重要。在进行网络设计时,需要充分考虑应用系统对内和对外的网络连接、IP地址管理和域名解析等。 华为云中网络高可用主要涉及三个场景: 公有云网络:构建应用系统相关的公网网络
常见故障模式 弹性伸缩失败 检测:查看弹性伸缩组的弹性伸缩活动历史。 恢复: 根据伸缩活动失败描述信息进行修复。 父主题: AS弹性伸缩
实施快速安全响应动作,隔离受影响的系统或账户、断开网络连接、停止服务、清除恶意文件、修复漏洞、替换受损系统并加固系统,确认所有威胁已经被完全清除,避免再次发生。 制定恢复策略,逐步恢复受影响服务,确保数据和系统一致性,进行测试确保所有系统恢复正常运作。 进行事件后分析,总结事
在传输或存储过程中没有被篡改或损坏。 可用性 确保系统和数据在需要时可用,防止因攻击、故障或其他原因导致系统不可用。从安全的角度,可用性可通过负载均衡、弹性计算、事件监控和告警、防暴力攻击如DDoS防护等手段来实现。 可审计 系统或数据处理过程能够被有效地监视、记录和审计的能力。
RES10 故障隔离 当系统某个单元发生故障时,如果不采取措施,故障可能会大规模扩散,从而造成整个系统失效。故障隔离技术的核心思想是将一个工作负载内的故障影响限制于有限数量的组件内,降低故障影响范围,防止产生级联故障。 通过划分故障隔离域,限制工作负载的影响,可有效进行故障隔离。
对业务系统中其他组件的影响(如服务中断的影响、数据转移效率),这是具体实施业务上云过程中的重点关切。 业务应用场景的评估:如果是在云上新建业务系统,则要通过业务的实际需要进行云数据库的选型,它的评估与数据库是否建立在云上无关,而是根据实际业务系统的特点来决定的。如电商系统,考虑选
风险等级 高 关键策略 验收标准是用于评估指定工作负载是否满足性能要求的指标,需要在性能测试前期定义合理的验收标准。 查看性能目标 性能目标定义了工作负载所需的性能级别。查看为工作负载建立的性能目标。性能目标是可能涉及响应时间、吞吐量、资源利用率或任何其他相关绩效指标的指标。例如响应时间的目标可能低于特定阈值,如小于2秒。
COST04-02 主动监控成本 风险等级 中 关键策略 不要只在出账后或收到异常通知时再查看成本和用量,应使用工具定期检查成本。定期监控和主动分析成本,有助于您及时识别成本趋势,避免异常发生。 相关服务和工具 创建预算提醒,将预算设置为提醒阈值,在预测或实际成本超出预算时,及时获取超预算通知,防止潜在成本超支。
COST07-03 考虑不同的云资源技术选型 风险等级 中 关键策略 定期咨询专家或 华为 合作伙伴,以便确定哪些服务和功能的成本更低。查看华为博客和其他信息源。如在非计算密集型场景,使用华为云的云耀系列服务器取代普通ECS服务器 父主题: COST07 管理和优化资源
存放的是文件,会以文件和文件夹的层次结构来整理和呈现数据。 存放的是对象,可以直接存放文件,文件会自动产生对应的系统元数据,用户也可以自定义文件的元数据。 存放的是二进制数据,无法直接存放文件,如果需要存放文件,需要先格式化文件系统后使用。 访问方式 在ECS/BMS中通过网络协议挂载使用,支持NFS和CIFS