检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
风险等级 中 关键策略 传统大数据方案计算和存储融合部署,扩容磁盘时必须扩容计算节点,在实际使用时产生浪费。存算分离是一种数据处理技术,它将数据存储和数据处理(计算)分开,使得存储和计算可以独立地进行优化和扩展,这种技术提高数据处理的效率、降低成本并满足大规模数据存储和分析的需求。 如某
Kafka集群。 数据层:每个可用区各部署一套RDS数据库,通过DRS数据复制服务实现跨AZ的双向数据库复制与容灾切换;并支持定期自动数据备份,在数据丢失时能快速恢复。OBS对象存储跨可用区高可用部署,单个AZ故障对业务没有影响。 为了保证数据的可靠性,RDS数据库的数据定期自动备份。
可靠性功能 数据持久性 OBS通过存储介质的慢盘/坏道检测、AZ内设备和数据冗余、AZ之间数据容灾、跨区域复制等技术方案,提供针对介质、服务器、机柜、数据中心和区域的多级可靠性保障。其数据持久性高达99.9999999999%(12个9),可用性高达99.995%,远高于传统架构。详见“OBS的持久性和可用性如何
不高的业务切回到原始数据源。 连接后端DCS失败 检测:连接失败。 恢复: 应用层进行重试,以应对暂时性故障,如DCS实例正在进行主备切换时;应用故障重试处理可参考“故障重试”。 当DCS实例由于过载导致网络限制时,可参考“DCS的CPU /内存/带宽/数据库连接数使用率过高”的处理。
功耗密集型业务(如高性能计算、人工智能、深度学习等场景)主要就是消耗计算维度的容量。 内存密集型业务(如大数据处理、图像/视频处理、游戏开发、数据库等场景)主要消耗内存和存储维度的容量。 存储密集型业务(如大型数据库、大数据分析、大规模文件存储、编译构建等场景)可能会比较消耗存储的带宽。 根据业务的特征选
排除等功能的一套完整的解决方案。性能可观测体系在此基础上突出了性能指标,通过收集和分析性能数据,可以识别系统瓶颈、优化资源分配等,找到性能优化方向。 性能监控对象:服务器、操作系统、数据库、应用程序、网络设备、云服务。 常见性能指标:包括资源CPU、内存,硬盘等,及程序的响应时间、吞吐量、并发数等。
OPS08-03 知识管理 风险等级 高 关键策略 日益庞大的数据量和复杂的业务系统,对运维人员的要求越来越高。为了方便运维人员获取知识,学习和解决问题,运维知识管理能力变得必要。运维知识管理应集成丰富的运维知识,可以帮助运维人员快速解决问题,提高工作效率。一般通过运维知识库系统
排引擎,在应用编排服务(AOS)基础上实现了生态、体验、特性的全新升级;资源编排服务基于业界开放生态HCL语法模板,实现云服务资源的自动化批量构建,帮助用户高效、安全、一致创建、管理和升级云服务资源,能有效提升资源管理效率,并降低资源管理变更带来的安全风险。 父主题: 卓越运营云服务介绍
例如: EVS云硬盘、OBS对象存储采用分布式存储,可避免单个硬盘、单个服务器或单个机架等硬件故障的影响。 RDS数据库提供自动数据备份、跨AZ和跨Region的数据复制与切换。 不过,即使应用系统利用云平台能力具有了这些高可用能力,要实现较高的可用性,仍需要构建针对各种偶发故障下的恢复能力,如:
高 关键策略 监控看板为您提供自定义查看监控数据的功能,将您关注的核心服务监控指标集中呈现在一张监控看板里,为您定制一个立体化的监控平台。同时监控看板还支持在一个监控项内对不同服务、不同维度的数据进行对比查看,实现不同云服务间性能数据对比查看。 华为云相关云服务和工具 云监控服务
可靠性功能 数据备份和恢复 使用CBR云备份服务可对BMS的所有云硬盘(系统盘和数据盘)进行备份,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复裸金属服务器数据,最大限度保障用户数据的安全性和正确性,确保业务安全。详见“备份裸金属服务器”。 集群HA 配合共享云
BMS裸金属服务 CCE云容器引擎 ELB弹性负载均衡 AS弹性伸缩 DCS分布式缓存服务 DMS分布式消息服务 RDS云数据库 云数据库 TaurusDB云数据库 OBS对象存储服务 父主题: 韧性支柱
提供海量、安全、高可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。 可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务,可满足不同场景的业务需求。云硬盘就类似PC中的硬盘。 存储数据的逻辑 存放的是文件,会以文件和文件夹的层次结构来整理和呈现数据。 存放的是对象,
通过增加节点的数量来改变系统的处理能力,称之为横向伸缩。 系统设计时一般建议采用横向伸缩。采用横向伸缩时,要求业务与数据解耦,即将系统的业务处理逻辑与数据分离、数据(状态)外置,以实现业务节点(含资源)无状态,按需快速增加或减少,从而实现系统业务处理能力的伸缩。 当节点故障或资源
跟踪并监控对网络资源和关键数据的所有访问:通过系统的活动记录机制和用户活动跟踪功能可有效降低恶意活动对于数据的威胁程度。当系统出现错误或安全事件时,通过执行彻底地跟踪、告警和分析,可以较快地确定导致威胁的原因。 风险等级 中 关键策略 采集各类安全服务的告警事件,并进行大数据关联、检索、排序,全面评估安全运营态势。
RabbitMQ集群提供镜像队列,通过镜像在其他节点同步数据。单节点宕机时,仍可通过唯一的访问地址对外提供服务。 RocketMQ使用一主两备架构,备节点通过数据同步的方式保持数据一致。当节点故障时,通过Raft协议自动切换主备关系,保持数据强一致性。 跨AZ容灾 Kafka、Rabbit
的字段并且设置索引,通过索引来缩短访问时延。 处理有效负载 识别出必须要处理的数据,排除对其他数据的重复处理。在一项处理数据的操作中,并非所有的处理数据都是必须处理的,可以通过分析,识别出必须处理的数据。可以有多种方式,来减轻负载的方法,如增量处理、变化通知等。 增量处理 变化通知
CCE集群支持3个Master节点高可用部署,确保集群的可靠性。 数据备份和恢复 为满足数据持久化的需求,CCE支持将云硬盘(EVS)创建的存储卷挂载到容器的某一路径下;CCE通过云硬盘EVS服务提供针对云硬盘的快照功能,当数据丢失时,可通过快照将数据完整的恢复到快照时间点。详见“快照与备份”。 健康检查
电子传输和设备支持:关键数据定时传送,备用网络部分就绪 12小时以上 数小时至1天 4 电子传输及完整设备支持:少量数据丢失,备用数据系统就绪,数据定时传送,备用网络就绪 数小时至2天 数小时至1天 5 实时数据传输及完整设备支持:数据丢失趋于0,备用数据系统就绪,远程数据复制,备用网络就绪
RES01-02 应用组件多位置部署 应用组件需要部署在多个数据中心,以避免单个数据中心故障而导致业务中断。 风险等级 高 关键策略 可根据不同需求,将应用的数据和资源部署在多个位置: 应用多AZ部署:应用应尽可能部署在多个可用区,避免由于单个可用区故障而导致所有业务中断。 应用