检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可靠性功能 数据持久性 OBS通过存储介质的慢盘/坏道检测、AZ内设备和数据冗余、AZ之间数据容灾、跨区域复制等技术方案,提供针对介质、服务器、机柜、数据中心和区域的多级可靠性保障。
云服务实例只支持发放单AZ实例,不支持跨AZ高可用实例时,需要借助其他云服务或应用层实现跨AZ容灾;以ECS为例: 对于无状态ECS实例,可利用AS弹性伸缩服务的跨AZ伸缩能力,或ELB跨AZ负载均衡能力,实现跨AZ高可用,在一个可用区故障时能自动快速切换。
通过统一运维登录入口,基于协议正向代理技术和远程访问隔离技术,实现对服务器、云主机、数据库、应用系统等云上资源的集中管理和运维审计。 父主题: 卓越运营云服务介绍
选择合适的应用中间件云服务资源 华为云提供Kafka、RocketMQ、RabbitMQ三种不同版分布式消息服务,您可根据业务需求和不同版本优势来选择合适的消息队列。 PERF03-06 选择合适的消息队列 PERF03-07 选择合适的Kafka PERF03-08 选择合适的RocketMQ
性能监控对象:服务器、操作系统、数据库、应用程序、网络设备、云服务。 常见性能指标:包括资源CPU、内存,硬盘等,及程序的响应时间、吞吐量、并发数等。 父主题: 建立性能可观测性体系
相关云服务和工具 弹性负载均衡器 ELB:支持健康检查,会定期向后端服务器发送请求以测试其运行状态,并根据健康检查来判断后端服务器是否可用,当判断为异常后就不会将流量分发给该异常后端服务器。
broker_memory_usage 内存使用率 该指标为Kafka节点虚拟机层面采集的内存使用率。 broker_cpu_usage CPU使用率 统计Kafka节点虚拟机的CPU使用率。
RES01 冗余 RES01-01 应用组件高可用部署 RES01-02 应用组件多位置部署 RES01-03 云服务器反亲和 父主题: 高可用设计
当应用系统部署在华为云中时,华为云提供了基础设施的故障管理,应用系统可减少对机房、电力、环境、计算服务器、存储设备、网络交换机等基础设施的故障模式的检测和恢复处理,但仍需考虑这些基础设施故障对应用系统的影响及对应的恢复措施,如机房发生灾难(AZ或Region级灾难)、计算服务器故障
SEC01-03 梳理资产清单 梳理工作负载涉及的服务器、IP地址、域名、数据库、证书等全量云资源的资产清单,给资源打上标签,从而在出现安全事件时,能快速定位到有安全风险的资源。 风险等级 高 关键策略 设计态与运行态一致性:对照设计态的架构图、架构文档实施云服务资源。
rabbitmq_disk_usage 磁盘容量使用率 统计Rabbitmq节点虚拟机的磁盘容量使用率。 rabbitmq_cpu_usage CPU使用率 统计Rabbitmq节点虚拟机的CPU使用率。
下面列举目前可查看到的相关指标信息: 通用指标 主要是指通用的服务器的相关性能指标:CPU使用率,内存占用量,磁盘IO读写速度,使用Core数量等,通过这些指标可以衡量任务在该类型机器或该机器上的执行情况,观察集群各机器的通用指标,可以看到集群的负载是否均衡。
资源编排服务(RFS) 资源编排服务是完全支持业界事实标准Terraform(HCL + Provider)的新一代云服务资源终态编排引擎,在应用编排服务(AOS)基础上实现了生态、体验、特性的全新升级;资源编排服务基于业界开放生态HCL语法模板,实现云服务资源的自动化批量构建,帮助用户高效
业务使用规范 原则 原则说明 级别 备注 就近部署业务,避免时延过大 如果部署位置过远(非同一个region)或者时延较大(例如业务服务器与Redis实例通过公网连接),网络延迟将极大影响读写性能。 强制 如果对于时延较为敏感,请避免创建跨AZ Redis实例。
当使用serverless构建 Web 服务时,冷启动和Web服务初始化时间一共超过了5秒钟,那么无疑将会使用户体验大打折扣,因此设法减少冷启动时间,提高终端用户的使用体验,是构建无服务器架构时亟待解决的问题。
云日志服务(LTS) 云日志服务(Log Tank Service,简称LTS)是高性能、低成本、功能丰富、高可靠的日志平台,提供全栈日志采集、百亿日志秒搜、PB级存储、日志加工、可视化图表、告警和转储等功能,满足应用运维、等保合规和运营分析等应用场景需求。 云日志服务提供多种接入方式实现海量日志接入
OBS对象存储服务 对象存储服务(Object Storage Service,OBS)是一个基于对象的海量存储服务,提供海量、安全、高可靠、低成本的数据存储能力。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
概述 本章节介绍常用云服务的可靠性功能与故障模式,以便应用系统能充分利用云服务提供的可靠性能力,提升应用系统的可靠性,并能针对云服务的常见故障模式,进行故障恢复处理,以便最大限度减少故障,并能从故障中恢复。 父主题: 云服务可靠性介绍
相关云服务和工具 弹性负载均衡 ELB:支持业务负载均衡处理,还支持后端服务器健康状态检测,自动隔离异常状态的ECS。 父主题: RES13 过载保护
DMS分布式消息服务 DMS分布式消息服务支持以下各种消息类型: Kafka版:基于开源社区版Kafka提供的消息队列服务,向用户提供计算、存储和带宽资源独占式的Kafka专享实例。 RabbitMq版:完全兼容开源RabbitMQ,提供即开即用、消息特性丰富、灵活路由、高可用、监控和告警等特性