检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES08-02 依赖松耦合 系统内组件之间直接访问时,会产生紧耦合关系一个组件的状态变化会对其他组件产生直接影响,从而会导致所有组件的可用性均下降。而采用松耦合架构时,各个组件之间的依赖关系非常弱,它们可以独立地进行修改和扩展,而不影响其他组件;系统更加灵活,易于维护和升级,并且稳定性和可靠性也更强。
CCE:支持容器健康检查,容器运行过程中,可根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 父主题: RES10 故障隔离
确保代码审查规范的执行。最后,建议通过自动化代码检查策略进行代码问题检查。 相关云服务和工具 华为云CodeArts Check服务 华为云CodeArts Artifact服务 华为云CodeArts Repo服务 父主题: OPS02 通过CI/CD实现高效的频繁可逆的小规模变更
RES11-02 压力负载测试 通过施加超出系统容量的业务压力,验证云服务的过载保护、业务隔离和优雅降级等能力。为全面验证系统整体的容量规划和业务依赖,云服务应用通常采用全链路压测进行测试。 风险等级 高 关键策略 模拟大量接口消息进行压力测试。 模拟各种业务场景进行压力测试。 持续自动测试。
支持故障恢复流程 风险等级 高 关键策略 当现网发生故障时,既要快速恢复业务,又要降低影响,首先需要围绕故障全生命周期采取一系列控制流程,包含故障预防、故障发现、故障定位、故障恢复、故障复盘及持续改进(含故障演练),基于故障模式库,面向全流程、构建恢复能力、保证平均恢复时长(MTTR)的长效收敛,实现故障的快速恢复。
故障而导致域名解析失败,业务中断。 混合云组网场景链路冗余与倒换方案: 双DC专线冗余:用户数据中心与华为云VPC之间采用两条DC专线互通;其中两条物理专线接入同区域的两个华为云专线接入点,并通过BGP路由协议接入同一个VPC,用户可设置虚拟接口的优先级以决定业务的主备链路。具体
时间(如每天的十二点,每个周末),可以使用自动化的方式定期申请资源,使用后释放 相关服务和工具 华为云优化顾问,提供成本维度的巡检,识别ECS、EIP、EVS、ELB等闲置资源。 华为云成本中心,除识别ECS、EIP、EVS、ELB等闲置资源外,还基于历史消费提供节省评估。您可参
左右)。在一个事件里,MTTR 的恢复时长越短,那么它的整体 SLO 达成可能性就越高。 MTTR平均恢复时长=平均发现时长+平均定界时长+平均处置时长 设计建议 面向 MTTR的可观测体系设计的核心逻辑就是寻找最短恢复路径。如下图所示案例,在故障恢复 MTTR 的逻辑中,当业务发生故障,从故障发现、到
风险等级 高 关键策略 应用控制平面与数据平面隔离,避免控制系统故障影响业务。 数据平面所在业务系统的故障恢复可不依赖控制平面,避免由于控制平面故障而导致业务系统无法恢复。 父主题: RES10 故障隔离
RES09-03 重试需要避免造成流量压力 对于链路闪断等原因导致的临时性故障,客户端进行一定的重试,可取得较好的效果;对于流量过载等原因导致的故障,重试可能会导致情况进一步恶化,因此需要避免这种影响。 风险等级 高 关键策略 客户端进行重试处理时,建议: 增加指数回退和抖动方法
、离线分析、转码、运维等对网络要求低的系统部署在贵阳、乌兰察布,降低资源成本。 可以关注华为云新推出的云区域以及相关的服务,考虑多Region部署方案。 相关服务和工具 布局优化可以参考华为云不同Region的算力价格,尤其乌兰察布和贵阳等Region 父主题: COST08 进行架构优化
995%,远高于传统架构。详见“OBS的持久性和可用性如何?”。 数据备份和恢复 OBS支持多版本控制,可以在一个桶中保留多个版本的对象,以便方便地检索和还原各个版本,在意外操作或应用程序故障时快速恢复数据。 跨AZ容灾 在创建桶时,数据冗余存储策略可选择多AZ存储,数据将冗余存储至多个AZ中,可靠性更高。
配置IAM的网络访问控制策略。限制用户只能从特定 IP 地址区间、网段及 VPC Endpoint 访问华为云。 多个账号或多个IAM用户间使用不同的密码。 禁止将用户的密码共享给其他人,而是为每个管理或使用华为云资源的人创建一个单独的用户。 修改新用户的默认密码。使用IAM创建新用户时,可通过邮
于云的项目一开始的时候,就引入该预算规划和成本管理,同时设定不同层次的预算开销的阈值,用于成本的预警 。 最后,对于使用了一段时间华为云的账号,华为云也提供了成本预测工具,基于用户的实际上云成本,提供了未来的预测,善用这些工具,云用户可以根据预算情况,设立基于预测的告警。 持续监控,了解账单和资源使用情况
购合适大小的资源包,避免浪费。 相关服务和工具 华为云成本中心提供资源包的使用率/覆盖率分析,您可以通过该工具了解已购资源包的使用率和覆盖率情况,识别资源包购买过多(使用率低),还是过少(覆盖率低),从而优化下一阶段的购买。 华为云费用中心提供资源包剩余使用量预警功能,您可以根据
RES08-03 减少被依赖项故障的影响 被依赖项自身的可用性需要增强,以减少对依赖它的组件的影响。 风险等级 中 关键策略 对于被依赖项本身,为减少由于服务故障或运行缓慢对依赖它的组件的影响,需要考虑使用以下技术和原则: 减少被依赖项本身的外部依赖。 优化性能,减少消息响应时延和负载。
RES04-03 容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。
多实例之间的负载均衡和自动切换,或从应用层实现两个ECS实例的主备等。 硬件依赖实例从应用层实现高可用:当ECS使用本地硬盘、直通FPGA、直通IB网卡等物理服务器强相关的硬件资源时,当硬件故障时会导致ECS故障,且无法通过虚拟机HA功能自动恢复;针对此类问题,需要应用系统在设计
RES09-01 API及命令调用需要设计为可重试 在进行重试处理时,API及命令调用会重复发送,服务方会多次重复执行,需要保证重复执行多次的结果不变。 风险等级 高 关键策略 应用系统在设计时,应使操作具有幂等性,也就是允许一个操作连续执行两次或多次时,应该与单次调用产生的结果
确其容灾目标,通常以RPO和RTO指标来定义: RPO:允许的数据丢失量,与数据的周期性复制周期或连续性复制延时相关。 RTO:允许的业务恢复时长,即业务中断时长,与灾备端业务的部署与切换方式相关。 风险等级 高 关键策略 不同的业务系统重要性不一样,针对应用系统内的各种业务,需