搜索_华为云

RES07-01 定义关键指标与阈值并监控 - 云架构中心

对于基于Java的应用系统，华为云用户可使用APM服务实现基于调用链的业务延迟和错误率监控。函数服务FunctionGraph、微服务引擎CSE提供了流量、延迟和错误率监控能力。基于API网关暴露接口的应用，可使用APIG服务提供的流量、延迟和错误率监控能力。如果云服务现有能力不能满足系统要求，用户也可以自

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES06-02 面向所有故障进行检测 - 云架构中心

针对所有故障场景，都需要能自动检测，以便及时发现和恢复故障。风险等级高关键策略所有故障都必须有检测。支持按不同维度进行故障检测，如Region、AZ、服务、方法、实例或容器ID等，检测维度与故障恢复方式对齐。检测到故障后需及时告警或自动恢复。针对具体故障进行检测时，根据检测的类型通常可以分为资源检测、功能检测和业务检测。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
RES15-04 灰度部署和升级 - 云架构中心

逐步引入新版本部署范围或切换用户流量，配合自动回退以降低部署差错导致业务中断的风险。金丝雀部署（灰度发布）是将少量客户引导到新版本的做法，通常在单个服务实例（Canary）上运行；当检查到任何行为更改或错误时，可以将Canary中的流量删除，并将用户发回到以前的版本。如果部署成

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
RES14-02 自动化变更 - 云架构中心

题，提供透明度和可追溯性。相关云服务和工具云运维中心 COC：作业管理：提供用户自定义作业的创建、修改、删除以及在目标虚拟机上执行自定义作业的能力。通过该功能，用户可以通过自定义作业在目标实例（目前支持ECS）上执行操作。变更中心：支持承载变更流程管理业务，以变更工单模式

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES14 配置防差错
SEC05-01 云服务安全配置 - 云架构中心

禁止将重要业务数据所在的OBS桶设置为公开桶或者配置为公共可读。定期执行云服务安全配置的基线检查。全面性检查：确保基线检查覆盖所有关键的云服务配置项，包括身份认证、访问控制、网络安全等关键配置。定期与实时检查：设置定期自动检查计划，并提供实时检查功能，以便在需要时立即评估云服务的安全状态。风险评估：对

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 基础设施安全 > SEC05 运行环境安全
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

检测：连接失败。恢复：应用层进行重试，以应对暂时性故障，如RDS实例正在进行主备切换时；应用故障重试处理可参考“故障重试”。当RDS实例由于过载导致网络限制时，可参考“RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高”的处理。父主题： RDS云数据库

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > RDS云数据库
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

/内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高检测：通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。恢复：根据业务情况，手工变更规格以扩展资源。开启自动扩缩容，以便在过载时自动扩容规格和/或只读节点。应用层进行过载保护，保障优先业务的运行。连接后端GaussDB(for

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > GaussDB(for MySQL)云数据库
Spark性能优化 - 云架构中心
Spark性能优化 - 云架构中心

00倍的计算能力。Spark可以使用HDFS作为底层存储，使用户能够快速地从MapReduce切换到Spark计算平台上去。Spark提供一站式数据分析能力，包括小批量流式处理、离线批处理、SQL查询、数据挖掘等，用户可以在同一个应用中无缝结合使用这些能力。 Spark的特点如下：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍 > 大数据性能优化
RabbitMQ性能优化 - 云架构中心
RabbitMQ性能优化 - 云架构中心

该指标用于统计RabbitMQ实例中的总通道数。 queues 队列数该指标用于统计RabbitMQ实例中的总队列数。 connections 连接数该指标用于统计RabbitMQ实例中的总连接数。 connections_usage 连接数使用率当前节点实际连接数占最大连接数比率。 rabbitmq_disk_usage

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍 > 消息队列性能优化
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

应用层进行重试，以应对暂时性故障；应用故障重试处理可参考“故障重试”。当多次重试后仍无法写入成功，可将数据写入本地缓存，待服务可用后再写入实例。当实例由于过载导致网络限制时，可参考“CPU /内存/带宽使用率过高”的处理。父主题： DMS分布式消息服务

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DMS分布式消息服务
可靠性功能 - 云架构中心
可靠性功能 - 云架构中心

负载均衡配合弹性负载均衡ELB服务，可以实现多ECS实例的负载均衡。健康检查通过弹性负载均衡ELB服务，可对ECS实例进行健康检查。详见“修改健康检查配置”。弹性伸缩配合动态伸缩AS服务，可以实现跨AZ的ECS实例重建或均衡。跨AZ容灾配合ELB服务，可以实现跨AZ的故障切换。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > ECS弹性云服务器
韧性支柱 - 云架构中心
韧性支柱 - 云架构中心

韧性支柱韧性支柱简介基本概念设计原则问题和检查项高可用设计故障全面检测故障快速恢复过载控制变更防差错参考架构云服务可靠性介绍

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践
基本概念 - 云架构中心
基本概念 - 云架构中心

基本概念概念表什么是应用韧性责任共担模式可用性目标定义可用性需求父主题：韧性支柱

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
可用性目标定义 - 云架构中心
可用性目标定义 - 云架构中心

可用性目标定义可用性是衡量可靠性和韧性的综合性指标。可用度及SLO RTO与RPO 数据持久度父主题：基本概念

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念
RES01 冗余 - 云架构中心
RES01 冗余 - 云架构中心

RES01 冗余 RES01-01 应用组件高可用部署 RES01-02 应用组件多位置部署 RES01-03 云服务器反亲和父主题：高可用设计

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计
RES02 备份 - 云架构中心
RES02 备份 - 云架构中心

RES02 备份对于应用系统中的重要数据，需要提供备份功能，以便在病毒入侵、人为误删除、软硬件故障等场景，能够快速将数据恢复到备份点。由于容灾通常对数据采用实时复制且没有多备份点，在主数据被误删或误改的情况下，错误数据会同步到备端，从而无法达到数据备份的效果，因此通常不能使用容灾来代替备份。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计
故障全面检测 - 云架构中心
故障全面检测 - 云架构中心

故障全面检测高可用性系统必须具有完善的故障检测能力，以确保能够快速发现那些可能导致故障的事件、显示正在发展的故障、激活的故障，以及潜在的故障的事件。在几乎所有情况下，故障检测能力都是故障恢复的前提。 RES06 故障检测 RES07 监控告警父主题：韧性支柱

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
RES07 监控告警 - 云架构中心
RES07 监控告警 - 云架构中心

RES07 监控告警应用系统需要监控，以便维护人员能快速识别系统运行现状及问题。 RES07-01 定义关键指标与阈值并监控 RES07-02 日志统计监控 RES07-03 监控到异常后发送消息通知 RES07-04 监控数据存储和分析 RES07-05 端到端跟踪请求消息父主题：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测
RES10 故障隔离 - 云架构中心
RES10 故障隔离 - 云架构中心

RES10 故障隔离当系统某个单元发生故障时，如果不采取措施，故障可能会大规模扩散，从而造成整个系统失效。故障隔离技术的核心思想是将一个工作负载内的故障影响限制于有限数量的组件内，降低故障影响范围，防止产生级联故障。通过划分故障隔离域，限制工作负载的影响，可有效进行故障隔离。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复
RES12 应急恢复处理 - 云架构中心

RES12 应急恢复处理应用系统无论如何精心设计，仍可能会出现无法恢复的故障，当此类故障发生后，需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复

总条数： 269

上一页
1
...
6
7
8
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

RES07-01 定义关键指标与阈值并监控 - 云架构中心

RES06-02 面向所有故障进行检测 - 云架构中心

RES15-04 灰度部署和升级 - 云架构中心

RES14-02 自动化变更 - 云架构中心

SEC05-01 云服务安全配置 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

Spark性能优化 - 云架构中心

RabbitMQ性能优化 - 云架构中心

常见故障模式 - 云架构中心

可靠性功能 - 云架构中心

韧性支柱 - 云架构中心

基本概念 - 云架构中心

可用性目标定义 - 云架构中心

RES01 冗余 - 云架构中心

RES02 备份 - 云架构中心

故障全面检测 - 云架构中心

RES07 监控告警 - 云架构中心

RES10 故障隔离 - 云架构中心

RES12 应急恢复处理 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线