检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当应用组件对应的云服务实例支持跨AZ高可用实例时,可采用云服务实例自身的跨AZ数据同步;如RDS数据库、DCS实例、OBS桶等。 当应用组件对应的云服务实例不支持跨AZ高可用实例,但提供了同步服务进行跨AZ数据同步时,可利用该服务进行跨AZ数据同步;如存在有状态数据的ECS实例不支持跨AZ
节点发放,则需要应用层来实现多个节点之间的主备或负载均衡,如ECS实例,用户可以通过构建ELB+多ECS实例,来实现无状态业务在多实例之间的负载均衡和自动切换,或从应用层实现两个ECS实例的主备等。 硬件依赖实例从应用层实现高可用:当ECS使用本地硬盘、直通FPGA、直通IB网卡
OM/APM服务(侧重在P层业务),也可以借助Prometheus、Zabbix、Zipkin等部件自行搭建,使用Grafana等部件进行界面展示和时序对齐。 1、业务监控 以下4个黄金指标,是针对大量分布式监控的经验总结,可以作为业务监控的参考,包括: 延迟:注意需要区分请求成功的延迟和请求失败的延迟。
同的应用系统,包括工作负载、数据库实例等。 针对应用系统内的关键数据,利用云服务或应用系统自身实现跨Region的数据复制。 若云服务实例支持跨Region容灾,则配置生产站点与灾备Region之间的复制,如对于RDS数据库实例,需申请DRS实例对主Region与灾备Region
定成员账号下IAM用户(包括成员账号的管理员用户)的权限上限,避免用户权限过大带来安全风险,创建服务控制策略时可以将其应用到某一个组织单元,该服务控制策略可以继承到关联的成员账号和下层组织单元。 统一身份权限管理:针对整个企业在华为云上的所有账号进行集中的用户身份管理、权限设置,统一设置跟外部IdP的身份联邦。
erverless架构最大限度计算、存储、网络等资源,提升整体资源利用率、缩短需求发布周期,提高应用的研发效率。 用户可以通过云监控服务监控Serverless实例的CPU使用率、内存使用率,当满足一定条件,自动触发Serverless算力扩容和缩容,从而提供资源使用率,降低成本。
维护任务。例如使用华为云的数据库服务而不是自建关系型数据库的实例。 使用Serverless架构的云服务,将计算资源的安全交给华为云处理,减免了用户自行运维服务器带来的工作量和人为错误,减少了安全漏洞的风险。这样,用户能够将更多精力集中在业务逻辑和应用的安全性上。 相关云服务和工具
恢复:针对每个应用层,配置多个ECS实例,通过ELB弹性负载均衡器进行健康检查,当检测到某个ECS实例不可用时,ELB弹性负载均衡器停止向该实例发送业务请求。 ECS实例或挂载的磁盘或数据被意外删除 检测:NA 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云
选择版本时需注意查看不同版本状态与区分,详情可参考官方公告。 规格选择:RabbitMQ服务提供了不同规格实例可供选择,建议按照业务需求对比,选择合适的规格型号,具体实例规格请参考官方文档。 父主题: 选择合适的应用中间件云服务资源
VCS集群和CFS集群等。 详见“共享云硬盘及使用方法”。 负载均衡 配合弹性负载均衡ELB服务,可以实现多BMS实例的负载均衡。 健康检查 通过弹性负载均衡ELB服务,可对BMS实例进行健康检查。详见“修改健康检查配置”。 跨AZ容灾 配合ELB服务,可以实现跨AZ的故障切换。 监控告警
受到部分用户质疑 端侧日志上报慢且易丢失:上报速度小时级,也极易出现丢失,对问题端到端定位分析、业务完整性分析均造成一定影响 业务挖掘分析难:日志数据无法直接写入DLI,需投递到Kafka后,再被DLI消费,链路长,且成本高 解决方案: 业务价值: 端侧日志全面采集接入,自定义域
DCS的CPU /内存/带宽/连接数使用率过高 检测:通过CES监控CPU /内存/带宽/连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 应用层进行过载保护,保障优先业务的运行,如将部分性能要求不高的业务切回到原始数据源。 连接后端DCS失败 检测:连接失败。 恢复: 应用
题,提供透明度和可追溯性。 相关云服务和工具 云运维中心 COC: 作业管理:提供用户自定义作业的创建、修改、删除以及在目标虚拟机上执行自定义作业的能力。通过该功能,用户可以通过自定义作业在目标实例(目前支持ECS)上执行操作。 变更中心:支持承载变更流程管理业务,以变更工单模式
检测:连接失败。 恢复: 应用层进行重试,以应对暂时性故障,如RDS实例正在进行主备切换时;应用故障重试处理可参考“故障重试”。 当RDS实例由于过载导致网络限制时,可参考“RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高”的处理。 父主题: RDS云数据库
检测:连接失败。 恢复: 应用层进行重试,以应对暂时性故障,如云数据库 TaurusDB实例正在进行主备切换时;应用故障重试处理可参考“故障重试”。 当云数据库 TaurusDB实例由于过载导致网络限制时,可参考“RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高”的处理。
该指标用于统计RabbitMQ实例中的总通道数。 queues 队列数 该指标用于统计RabbitMQ实例中的总队列数。 connections 连接数 该指标用于统计RabbitMQ实例中的总连接数。 connections_usage 连接数使用率 当前节点实际连接数占最大连接数比率。 rabbitmq_disk_usage
00倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能够快速地从MapReduce切换到Spark计算平台上去。Spark提供一站式数据分析能力,包括小批量流式处理、离线批处理、SQL查询、数据挖掘等,用户可以在同一个应用中无缝结合使用这些能力。 Spark的特点如下:
应用层进行重试,以应对暂时性故障;应用故障重试处理可参考“故障重试”。 当多次重试后仍无法写入成功,可将数据写入本地缓存,待服务可用后再写入实例。 当实例由于过载导致网络限制时,可参考“CPU /内存/带宽使用率过高”的处理。 父主题: DMS分布式消息服务
韧性支柱 韧性支柱简介 基本概念 设计原则 问题和检查项 高可用设计 故障全面检测 故障快速恢复 过载控制 变更防差错 参考架构 云服务可靠性介绍
基本概念 概念表 什么是应用韧性 责任共担模式 可用性目标定义 可用性需求 父主题: 韧性支柱