检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当应用系统部署在华为云中时,华为云提供了基础设施的故障管理,应用系统可减少对机房、电力、环境、计算服务器、存储设备、网络交换机等基础设施的故障模式的检测和恢复处理,但仍需考虑这些基础设施故障对应用系统的影响及对应的恢复措施,如机房发生灾难(AZ或Region级灾难)、计算服务器故障/
故障时,通过Raft协议自动切换主备关系,保持数据强一致性。 跨AZ容灾 Kafka、RabbitMQ、RocketMQ实例支持跨AZ容灾部署,要求至少3个AZ,当一个AZ异常时,不影响实例持续提供服务。 监控告警 Kafka:配合CES服务,支持对Kafka实例、实例节点、实例
磁盘容量使用率 统计Rabbitmq节点虚拟机的磁盘容量使用率。 rabbitmq_cpu_usage CPU使用率 统计Rabbitmq节点虚拟机的CPU使用率。 rabbitmq_memory_usage 内存使用率 统计Rabbitmq节点虚拟机的内存使用率。 rabbitmq_cpu_core_load
分钟。 变更中断:假定应用支持金丝雀部署或蓝绿部署,并自动完成,软件更新不中断业务。 按照以上评估,每年应用系统不可用的时长是45分钟,满足可用设计目标要求。 电子商务类应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用ECS或CCE;后端数据库基于不同业务类型可采用不同数据库,通常采用RDS
时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。 集群服务部署架构 服务规模与业务容量参数配置 Flink作为流数据处理引擎,依赖内存和CPU。用户在规划规格时,应根据当前的业务容量和增长速度,规划合理的内存和CPU资源,特别需要关注以下几点:
资源编排服务是完全支持业界事实标准Terraform(HCL + Provider)的新一代云服务资源终态编排引擎,在应用编排服务(AOS)基础上实现了生态、体验、特性的全新升级;资源编排服务基于业界开放生态HCL语法模板,实现云服务资源的自动化批量构建,帮助用户高效、安全、一致创建、
服务实例均采用高可用部署。 备份 RDS、DDS数据库自动备份,有状态ECS通过CBR自动备份,在数据故障时使用最新备份数据恢复,可以满足可用性目标要求。 容灾 应用使用支持跨AZ的服务进行跨AZ部署,ELB、RDS跨AZ部署,AZ故障时自动恢复。有状态ECS通过SDRS进行跨AZ容灾,在AZ故障时手工切换。
安全云脑SecMaster、云审计服务CTS、配置审计Config 公共服务账号 集中部署和管理企业的公共资源、服务和应用系统,并共享给其他所有成员账号使用 公共服务管理团队 镜像服务IMS、容器镜像服务SWR、弹性文件服务SFS、对象存储服务OBS、自建NTP服务器、自建AD服务器等公共资源 安全云脑S
及时发现问题。 根据以上方案,典型部署架构如下: 该架构的主要特点包括: 应用系统采用无状态应用+有状态数据库/虚拟机的分层部署架构。 应用系统在主备Region各部署一套完整系统,主备Region间数据同步;Region内跨AZ高可用部署,提供同城跨数据中心双活能力;Regi
云日志服务(LTS) 云日志服务(Log Tank Service,简称LTS)是高性能、低成本、功能丰富、高可靠的日志平台,提供全栈日志采集、百亿日志秒搜、PB级存储、日志加工、可视化图表、告警和转储等功能,满足应用运维、等保合规和运营分析等应用场景需求。 云日志服务提供多种接
概述 本章节介绍常用云服务的可靠性功能与故障模式,以便应用系统能充分利用云服务提供的可靠性能力,提升应用系统的可靠性,并能针对云服务的常见故障模式,进行故障恢复处理,以便最大限度减少故障,并能从故障中恢复。 父主题: 云服务可靠性介绍
OBS对象存储服务 对象存储服务(Object Storage Service,OBS)是一个基于对象的海量存储服务,提供海量、安全、高可靠、低成本的数据存储能力。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
DMS分布式消息服务 DMS分布式消息服务支持以下各种消息类型: Kafka版:基于开源社区版Kafka提供的消息队列服务,向用户提供计算、存储和带宽资源独占式的Kafka专享实例。 RabbitMq版:完全兼容开源RabbitMQ,提供即开即用、消息特性丰富、灵活路由、高可用、
变更防差错 在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。 变更操作属
MySQL)服务支持自动扩缩容,可自动扩缩规格和增删只读节点。详见“设置自动变配(自动扩缩容)”。 跨AZ容灾 GaussDB(for MySQL)实例支持将实例的节点分别部署在多个可用区。 GaussDB(for MySQL)也支持通过数据迁移服务DRS支持Region内跨AZ双主灾备,与跨Region容灾相同。
DCS分布式缓存服务 分布式缓存服务(Distributed Cache Service,简称DCS)是华为云提供的一款兼容Redis的高速内存数据处理引擎,可提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力,满足用户高并发及数据快速访问的业务诉求。 可靠性功能 常见故障模式
COC和云监控服务 CES提供的工具自动注册新部署的资源并配置警报触发的操作,以帮助在出现问题时加快修复速度。 自我修复:使用云监控服务 CES生成的警报来自动执行操作并恢复出现故障的组件或作业。 配置管理:使用编排和策略工具确保所有资源运行相同的配置,并在整个工作负载中强制执行合规性要求。
完美契合Hadoop生态环境,Spark应用可以运行在Standalone、Mesos或者YARN上,能够接入HDFS、HBase、Hive等多种数据源,支持MapReduce程序平滑转接。 集群服务部署规划 服务规模与业务容量参数配置对照表 Spark作为内存计算引擎,需要更多的内存和CPU。用户在规划规
和实施凭证轮换,以帮助降低长期凭证相关风险。 对您的身份提供者和IAM中配置的身份进行审计,这有助于验证只有经过授权的身份才能访问您的工作负载。 使用数据加密服务DEW托管凭据。实现对数据库账号口令、服务器口令、SSH Key、访问密钥等各类型凭据的统一管理、检索与安全存储。 使
常见故障模式 OBS桶流量过载 检测:通过CES监控请求数、请求成功率、上传/下载带宽等流量指标。 恢复: 应用层调整批量业务,避免业务高峰期进行备份等业务; 应用层进行重试,以应对暂时性故障,如网络拥塞;应用故障重试处理可参考“故障重试”。 应用层进行过载保护,保障优先业务的运行。