检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过增加节点的数量来改变系统的处理能力,称之为横向伸缩。 系统设计时一般建议采用横向伸缩。采用横向伸缩时,要求业务与数据解耦,即将系统的业务处理逻辑与数据分离、数据(状态)外置,以实现业务节点(含资源)无状态,按需快速增加或减少,从而实现系统业务处理能力的伸缩。 当节点故障或资源
Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分析和自动化运维方案,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。
的字段并且设置索引,通过索引来缩短访问时延。 处理有效负载 识别出必须要处理的数据,排除对其他数据的重复处理。在一项处理数据的操作中,并非所有的处理数据都是必须处理的,可以通过分析,识别出必须处理的数据。可以有多种方式,来减轻负载的方法,如增量处理、变化通知等。 增量处理 变化通知
应用系统多位置部署 通过将应用系统部署在多个位置,可以避免由于一个位置的基础设施故障而导致系统不可用。 风险等级 高 关键策略 将应用系统的数据和资源部署在多个AZ,可避免单个AZ故障影响业务。 对于可用性要求较高的应用系统,可部署在多个Region,避免单个Region故障影响业务。
网络的分区是将网络划分为多个部分,以隔离不同敏感性要求的网络流量和资源,从而增加网络的安全性。 风险等级 高 关键策略 通过网络分区,可以实现以下目的: 隔离敏感数据:将敏感数据和应用程序隔离在独立的网络分区中,以减少未经授权访问的风险。 可扩展性:分区和分层可以帮助管理和扩展复杂的网络架构,使其更易于维护和扩展。
RES04-04 定期进行容灾演练,以检查恢复能否满足容灾目标 通过定期的容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 每年至少进行一次容灾演练;通过演练可提升操作人员的熟练程度。 演练期间需要对恢复过程
需要通过自动化手段快速定位定界发现根因。可以通过应用模型建设三维的拓扑,把架构-空间-时间数据关联起来。这里面的关键是架构模型的建立及分层指标的聚合可视化能力,需要依赖持续的资源治理和数据治理。 相关云服务和工具: 优化顾问 OA 云监控服务 CES 应用运维管理 AOM 父主题:
塞生产流程。因此队列中堆积过多的消息容易对 broker 产生负面效应。除此之外,如果节点崩溃后重启,过多的数据会使得重建索引需要消耗大量时间,集群模式下的节点间同步数据也会非常耗时。 使用惰性队列提升稳定性 惰性队列(lazy queues)是 RabbitMQ 3.6 之后新
确定复盘的目的:在进行复盘之前,明确目的是非常重要的。确定您希望从这次安全事件中学到什么,以及如何改进未来的安全措施。 收集事实和数据:收集关于安全事件的所有相关信息和数据,可以用5W2H方法整理该事件,包括事件发生的时间、地点、责任人、事件的过程、原因、影响等。 组建复盘团队:邀请相关的团
合规,通过一系列华为云架构的最佳实践保护工作负载免受各种安全威胁,降低安全风险。安全性支柱涉及保护云上系统、资产、数据的机密性、完整性、可用性以及合法、合规使用数据,保护用户隐私的一系列最佳实践。 安全性是现代应用程序的重要维度,需要成体系地考虑工作负载的安全。华为云安全性支柱的设计框架如下图所示:
COST08-01 按地域规划应用架构 风险等级 中 关键策略 国家已启动“东数西算”工程,将东部发达地区的数据,传输到西部算力资源丰富的地区进行运算、存储。西部数据中心综合成本有明显优势,低PUE低能耗,如贵阳资源价格比广州上海等区域低10%左右。企业可将灾备、离线分析、转码、
可靠性功能 数据备份和恢复 使用CBR云备份服务可对ECS的备份保护服务,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复ECS数据。详见“云备份概述”。 故障自愈 当ECS支持自动恢复时,可以开启自动恢复能力,当物理服务器损坏时以冷迁移方式重启ECS实例,使弹性
会影响业务,时间在半分钟内。 数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储到OBS中,以便在缓存实例发生异常后能够从备份数据进行恢复。DCS实例支持定时和手动两种备份方式,定时备份频率以天为单位,最多保存7天,但至少会保留一个数据备份文件;手动备份由用户触发,通
定义应用系统的容灾目标RPO与RTO 在进行容灾设计前,需要根据应用系统的重要性,明确其容灾目标,通常以RPO和RTO指标来定义: RPO:允许的数据丢失量,与数据的周期性复制周期或连续性复制延时相关。 RTO:允许的业务恢复时长,即业务中断时长,与灾备端业务的部署与切换方式相关。 风险等级 高
资源。 收集容量数据 收集容量数据有助于将业务目标转化为技术要求,并且对于预测容量至关重要。为了满足工作负载需求,收集容量数据需要包括系统资源消耗数据以及业务关键数据。 资源消耗数据:包括CPU、内存、磁盘空间、网络带宽等,以便确定系统的瓶颈所在。 业务关键数据:包括用户数量、用
参数调优后性能仍然与转商目标有较大的差距,需要考虑进行profiling,采集性能数据后从更底层的算子、通信、调度和内存等维度将性能进行拆解分析,训练脚本中加入profiling代码。具体步骤:生成profiling数据目录结构;利用att工具,将NPU与竞品之间的数据进行端到端耗时对比分析;Tracing分析。 算子分析
应对潜在的安全威胁。 数据安全 数据安全中心 DSC:新一代的云原生数据安全平台,提供数据分类分级,敏感数据扫描,数据安全体检,数据水印溯源,数据脱敏等基础数据安全能力。通过数据安全资产地图整合数据安全生命周期各阶段状态,对外整体呈现云上数据安全态势。 数据加密服务 DEW:提供
监控面板:为用户提供在一个监控面板跨服务、跨维度查看监控数据,将用户关注的重点服务监控指标集中呈现,既能满足您总览云服务的运行概况,又能满足排查故障时查看监控详情的需求。 OBS转储:云监控服务各监控指标的原始数据的保留周期为两天,超过保留周期后原始数据将不再保存。您可以在对象存储服务(Object
审计文件的完整性,防止文件被篡改。 集中管控运维账号访问系统和资源的权限,对系统和资源的访问权限进行细粒度设置。 关于数据的安全审计见:SEC07-03 对数据操作实施监控 相关云服务和工具 云审计服务 CTS:用户开通CTS后,系统会自动创建一个追踪器,该追踪器会自动识别并关联
OPS06-03 制定和实施可观测性指标 风险等级 高 关键策略 指标是对时间周期内的测量数据的数值表示。可观测性指标是围绕发现率、定级准确率、定界时长、覆盖率、有效率、 一致率打造可观测能力,将可观测设计规范统一发布,统一设计要求与运维管理要求。 设计建议 整体技术方案会变成标