检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障快速恢复 当应用系统采用华为云服务的高可用设计时,在云服务实例发生故障后,云服务能自动检测和恢复;但对于应用系统本身的故障,需要应用系统自身进行检测和快速恢复处理,以保证系统能够正常运行,从而提高系统的可靠性和稳定性。 RES08 依赖减少与降级 RES09 故障重试 RES10
RES07-03 监控到异常后发送消息通知 当对应用系统监控发现应用异常后,需要向相应的人员和系统发送实时通知消息和告警,以便及时处理。 风险等级 中 关键策略 采用实时快捷的消息通知方式,以便相关人员能及时得到消息。 消息发送人员需要涵盖运维人员,以便及时恢复。 运维人员需要有备份,避免单点风险。
RES10-04 健康检查与自动隔离 对应用组件进行健康检查,当发现故障后进行主动隔离,避免故障扩散。 风险等级 高 关键策略 对系统内组件需要定期进行健康检查,以判断其状态是否正常。 对于异常组件,需要能支持自动隔离,避免对整体业务造成影响。 相关云服务和工具 弹性负载均衡器
常见故障模式 CPU /内存/磁盘/带宽使用率过高 检测:通过CES监控CPU /内存/磁盘/带宽使用率。 恢复: 当CPU/内存使用高时,可根据业务情况,手工修改代理规格或增加代理数量以扩展资源。 当磁盘使用率高时,可根据业务情况,修改实例存储空间支持更大存储空间。 当带宽使用
RES07 监控告警 应用系统需要监控,以便维护人员能快速识别系统运行现状及问题。 RES07-01 定义关键指标与阈值并监控 RES07-02 日志统计监控 RES07-03 监控到异常后发送消息通知 RES07-04 监控数据存储和分析 RES07-05 端到端跟踪请求消息 父主题:
RES09-02 客户端需要根据综合评估是否要重试 当客户端请求超时或收到错误响应时,客户端需要决定是否重试;重试有助于客户端在请求失败时,通过重复消息来获得预期的结果,避免业务失败,但也会消耗更多的服务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪
内部知识管理类应用典型部署架构(99.9%) 内部知识管理类应用通常用于内部操作,且在故障时只会对内部员工造成影响,可以承受较长的恢复时间和恢复点,其可用性目标通常要求达到99.9%,即每年中断时间可以为8.76小时。 导致业务中断的时间包含故障中断时间及由于升级配置维护等导致的中断时间,假定分别中断时间如下:
RES11 可靠性测试 可靠性测试是为了保证系统在规定的生命周期内,达到预期的可靠性目标;与通常的功能测试不同,可靠性测试需要在业务负荷叠加故障中进行,对测试环境和能力提出了更高要求。 可靠性测试和演练通过主动引入故障来充分验证软件质量的脆弱性,从而提前发现系统风险、提升测试质量
信息管理类应用典型部署架构(99.95%) 信息管理类应用通常用于内部操作,且在故障时只会对内部员工造成影响,可以承受一定的恢复时间和恢复点,其可用性目标通常要求达到99.95%,即每年故障时长可以为4.38小时。 假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中
COST04-02 主动监控成本 风险等级 中 关键策略 不要只在出账后或收到异常通知时再查看成本和用量,应使用工具定期检查成本。定期监控和主动分析成本,有助于您及时识别成本趋势,避免异常发生。 相关服务和工具 创建预算提醒,将预算设置为提醒阈值,在预测或实际成本超出预算时,及时获取超预算通知,防止潜在成本超支。
安全性云服务介绍 安全治理 统一身份认证服务 IAM:提供权限管理、访问控制和身份认证的基础服务,安全地控制华为云服务和资源的访问权限。 组织 Organizations:为企业用户提供多账号关系的管理能力。用户可以将多个华为云账号整合到创建的组织中,并可以在组织中设置治理策略。
概述 本章节以典型Web应用为例,介绍不同可用性目标要求下部署的典型架构示例。针对每种场景,从以下几个维度进行设计,来达成可用性目标。 类别 应用可用性影响 冗余 应用内组件的高可用能力,在应用内部分节点故障时业务自动恢复能力 备份 应用数据被破坏的情况下的恢复能力 容灾 在Re
可靠性功能 集群HA 云数据库 TaurusDB服务支持主节点+只读节点的高可用架构,当主节点故障时,系统会自动切换到只读节点,只读节点提升为主节点,原来故障的主节点也会自动恢复为只读节点。 云数据库 TaurusDB服务还支持异构容灾实例(MySQL节点),支持在极端场景,如社
SEC07-01 识别工作负载内的数据 通过业务流程、数据流动方向、数据分布、数据的所有者等维度,对照合规要求评估数据的敏感度,对数据分级分类。 风险等级 高 关键策略 遵循以下步骤梳理、识别数据: 业务流程分析。 了解业务流程,对照业务流程图,明确在各个环节中产生、处理和存储的数据类型和用途。
RES01-01 应用组件高可用部署 应用系统内的所有组件均需要高可用部署,避免单点故障。 风险等级 高 关键策略 应用系统内各组件需要根据其具体能力,采用不同的高可用部署方案: 使用原生高可用实例:当云服务既支持单节点资源,又支持主备或集群资源时,应用的关键节点应使用主备或集群
RES13-05 资源自动扩容考虑了配额限制 当应用系统在资源不足自动扩容时,需要考虑配额的限制,若配额不足,会导致自动扩容失败。 风险等级 高 关键策略 华为云为防止资源滥用,限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少台弹性云服务器、多少块云硬
内部工具或公测类应用典型部署架构(99%) 内部工具类应用通常用于内部操作,且在故障时只会对内部员工造成影响,不可用时只会带来不方便,可以承受长时间的恢复时间和恢复点;公测类应用用于面向客户的实验性的工作负载,在必要时可以隐藏其功能;针对这些应用,其可用性目标通常要求不高,可达到99%,即每年中断时间可以为3
选择合适的数据库资源 华为云提供了多款数据库服务,不同服务的优化方式和注意事项均有差异,可以通过以下四个不同考虑因素入手,选择合适的数据库资源: 兼容性:一般原则是平替迁移,选择云上数据库,是为了利用云上服务使得生产工作更聚焦到应用层,上云前系统中数据库的选型已经过业务实践的检验
PERF03-05 选择合适类型的存储云服务 风险等级 中 关键策略 在架构设计过程中,根据业务场景、数据特征等因素,选择相应的存储服务。目前可供您选择的有三种数据存储服务,分别是云硬盘、弹性文件服务(Scalable File Service, SFS)以及对象存储服务(Object
RES04-02 部署容灾系统以满足容灾目标 针对不同应用系统的容灾目标,需要综合考虑中断概率、容灾成本等因素,来决定采用什么样的容灾方案来实现这些目标。 风险等级 高 关键策略 面向跨Region/跨云容灾场景,可基于不同的可用性目标要求,采用不用的容灾方案,如远程备份、主备容