搜索_华为云

常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

应用层进行过载保护，保障优先业务的运行。连接后端RDS失败检测：连接失败。恢复：应用层进行重试，以应对暂时性故障，如RDS实例正在进行主备切换时；应用故障重试处理可参考“故障重试”。当RDS实例由于过载导致网络限制时，可参考“RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高”的处理。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > RDS云数据库
SEC10-02 制定事件响应计划 - 云架构中心

/S2/S3/S4/S5。实施持续的监控，包括云环境的日志、网络流量和异常行为。当检测到潜在事件时，进行初步分析以确定事件的性质和严重性。实施快速安全响应动作，隔离受影响的系统或账户、断开网络连接、停止服务、清除恶意文件、修复漏洞、替换受损系统并加固系统，确认所有威胁已经被完全清除，避免再次发生。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
Kafka性能优化 - 云架构中心
Kafka性能优化 - 云架构中心

业务数据不均衡原因业务中部分Topic的流量远大于其他Topic，会导致节点间的数据不均衡。生产者发送消息时指定了分区，未指定的分区没有消息，会导致分区间的数据不均衡。生产者发送消息时指定了消息Key，按照对应的Key发送消息至对应的分区，会导致分区间的数据不均衡。系统重新实现了分

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍 > 消息队列性能优化
RES05-04 预留IP资源以便扩展及高可用 - 云架构中心

网络资源支撑业务发展。风险等级高关键策略云上网络规划设计应满足以下原则：针对每个Region，根据业务需要规划不同的VPC，每个VPC使用独立的地址空间；并需要预留IP地址空间用于新建VPC。针对每个VPC中，需要根据业务需要规划子网和IP地址空间；并需要预留IP地址空间用于新建子网。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES05 网络高可用
SEC03-04 安全共享资源 - 云架构中心

仅与可信实体共享资源。通过使用服务控制策略（SCP）限制权限，您可以限制组织内账户的权限，确保资源仅在组织内部共享。创建专门的服务账号用于共享资源的访问。相关云服务和工具组织 Organizations 资源访问管理 RAM：使用RAM为用户提供安全的跨账号共享资源的能力。如果您有多个华为云账号，您可以创建一次

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 基础设施安全 > SEC03 权限管理
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

例节点、实例主题、实例分区、实例分区的消费组、实例队列的消费组、实例的消费组等进行监控和告警。详见“支持的监控指标”。 RabbitMQ：配合CES服务，支持对RabbitMQ实例、实例节点、实例队列进行监控和告警等进行监控和告警。详见“支持的监控指标”。 RocketMQ：配合

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

lave）均无法连接时，可将异地灾备实例切换为主实例，在应用端修改数据库链接地址后，即可快速恢复应用的业务访问。数据复制服务提供的实时灾备功能，可实现主实例和跨区域的灾备实例之间的单主灾备（详见“GaussDB(for MySQL)到GaussDB(for MySQL)单主灾备”

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > GaussDB(for MySQL)云数据库
OPS07-04 支持故障恢复流程 - 云架构中心

现、故障定位、故障恢复、故障复盘及持续改进（含故障演练），基于故障模式库，面向全流程、构建恢复能力、保证平均恢复时长（MTTR）的长效收敛，实现故障的快速恢复。设计建议父主题： OPS07 进行故障分析和管理

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS07 进行故障分析和管理
概述 - 云架构中心
概述 - 云架构中心

求下部署的典型架构示例。针对每种场景，从以下几个维度进行设计，来达成可用性目标。类别应用可用性影响冗余应用内组件的高可用能力，在应用内部分节点故障时业务自动恢复能力备份应用数据被破坏的情况下的恢复能力容灾在Region/AZ/IDC或其他云站点发生灾难的情况下的恢复能力

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 参考架构
云运维中心(COC) - 云架构中心
云运维中心(COC) - 云架构中心

要求，降低管理成本。资源管理：同步并纳管用户在云平台上使用的资源实例，构筑资源运维能力底座。配置管理：提供应用和资源视角的管理能力，以及参数配置集中式看护、全生命周期管理的能力。合规性管理：资源运维提供批量的补丁扫描修复能力，安全合规先行，兼顾高效。全方位变更管理方案评

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > 卓越运营云服务介绍
应用运维管理(AOM2.0) - 云架构中心

Management，简称AOM）是云上应用的一站式立体化运维管理平台，融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源，提供应用资源统一管理、一站式可观测性分析和自动化运维方案，帮助用户及时发现故障，全面掌握应用、资源及业务的实时运行状况，提升企业海量运维的自动化能力和效率。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > 卓越运营云服务介绍
RES03-01 集群跨AZ部署 - 云架构中心

灾切换，减少灾难发生时的人工操作。对于已部署的应用系统改造为跨AZ实例的实施步骤：确定应用系统的关键组件；所谓关键组件是指一旦故障，会导致整个应用系统或其中的关键功能受损。针对关键组件，检查其跨AZ高可用能力，即在一个AZ故障的情况下，是否能自动故障转移到另外一个AZ，进行业务恢复。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES03 跨AZ容灾
RES06-03 支持亚健康检测 - 云架构中心

控实例内的内存占用率，在超过阈值的情况下及时告警，人工介入迅速恢复，可避免造成业务中断。典型的亚健康场景有：通信链路丢包/错包、硬盘性能下降、CPU/内存过载等，当应用系统内组件出现亚健康时，可能会导致应用系统对外业务成功率下降。由于亚健康并非故障，因此针对亚健康的检测一般是

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
RTO与RPO - 云架构中心
RTO与RPO - 云架构中心

灾难场景通常采用RTO和RPO目标定义：恢复时间目标RTO：指灾难发生后应用不可用的最长时间。RTO决定了应用容灾整体架构，是采用数据备份，还是冷备、温备、热备。恢复点目标RPO：指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式，是在线备份还是离线备份，是同步复制还是异步复制。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念 > 可用性目标定义
RES01-02 应用组件多位置部署 - 云架构中心

n故障而导致所有业务中断。在多AZ部署能满足需求的情况下，应优先使用多AZ部署。大多数工作负载的可用性目标都可通过在单个Region内多 AZ 部署来实现，只有工作负载具有极高的可用性要求或者其他业务目标时，才考虑多Region架构。父主题： RES01 冗余

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES01 冗余
RES10-01 应用控制平面与数据平面隔离 - 云架构中心

应用控制平面与数据平面隔离通常应用的数据平面处理业务，比较重要，可用性要求比较高，而控制平面不直接处理业务，因此其故障时不应该影响业务系统。风险等级高关键策略应用控制平面与数据平面隔离，避免控制系统故障影响业务。数据平面所在业务系统的故障恢复可不依赖控制平面，避免由于控制平面故障而导致业务系统无法恢复。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES10 故障隔离
OPS05-02 进行变更风控 - 云架构中心

）时引发的业务中断风险及变更失败可能导致的业务受损风险。设计建议变更风控衡量指标：变更风控衡量指标为变更导致事件密度和变更引入重大事件数。变更导致事件密度定义：每月变更导致对客户造成影响的事件数与总变更数的比值。计算公式：变更导致事件密度=变更导致对客户造成影响的事件数/总变更数。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS05 运维准备和变更管理
RES07-02 日志统计监控 - 云架构中心

RES07-02 日志统计监控应用系统需要收集日志，在必要时对日志进行统计分析，设置告警规则触发告警，统计分析的内容可以是统计一定时间段内某些关键字出现的次数。风险等级中关键策略日志关键字与出现次数阈值需要合理设置，以免监控信息不正确。日志信息（如关键字或出现频率）发生变化时，需要及时更新告警规则。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES15-02 自动化检查 - 云架构中心

在部署或升级过程中集成基本测试功能，在部署或升级完成后自动进行检查和测试，以验证新部署的代码功能是否正确。在部署或升级过程中集成故障注入测试功能，在部署或升级完成后自动注入故障进行测试，以验证新部署代码的韧性。父主题： RES15 升级不中断业务

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
COST08-02 云原生架构改造 - 云架构中心

COST08-02 云原生架构改造风险等级中关键策略基于云原生架构改造，主要是应用容器化和微服务化的改造，从而发挥云原生的优势，如：自动弹性扩缩容等，容器技术可以提高资源利用率，避免闲置资源，从而降低计算成本，应用微服务化可以降低运维复杂度，从而降低运维成本。广告电商等

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST08 进行架构优化

总条数： 333

上一页
1
...
12
13
14
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见故障模式 - 云架构中心

SEC10-02 制定事件响应计划 - 云架构中心

Kafka性能优化 - 云架构中心

RES05-04 预留IP资源以便扩展及高可用 - 云架构中心

SEC03-04 安全共享资源 - 云架构中心

可靠性功能 - 云架构中心

可靠性功能 - 云架构中心

OPS07-04 支持故障恢复流程 - 云架构中心

概述 - 云架构中心

云运维中心(COC) - 云架构中心

应用运维管理(AOM2.0) - 云架构中心

RES03-01 集群跨AZ部署 - 云架构中心

RES06-03 支持亚健康检测 - 云架构中心

RTO与RPO - 云架构中心

RES01-02 应用组件多位置部署 - 云架构中心

RES10-01 应用控制平面与数据平面隔离 - 云架构中心

OPS05-02 进行变更风控 - 云架构中心

RES07-02 日志统计监控 - 云架构中心

RES15-02 自动化检查 - 云架构中心

COST08-02 云原生架构改造 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线