搜索_华为云

RES06-03 支持亚健康检测 - 云架构中心

RES06-03 支持亚健康检测系统内组件有可能完全故障，也有可能处于亚健康状态；亚健康是指系统整体业务未超标，但系统中局部实例业务超标。亚健康更多是个相对概念，相对历史表现的统计，或相对系统整体。因此针对亚健康的检测和判断有所不同。当处于亚健康状态时，系统也需要及时进行隔离或恢复处理，避免对业务造成影响。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
RES06-02 面向所有故障进行检测 - 云架构中心

检测到故障后需及时告警或自动恢复。针对具体故障进行检测时，根据检测的类型通常可以分为资源检测、功能检测和业务检测。资源检测：云环境中一般指虚拟化后的物理硬件资源及其对应的软件资源，具体包含CPU、内存、网络和磁盘资源等。功能检测：对组成产品系统的各个内部模块对象进行检测的过程，确定模块功能是否满足设计的

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
RES06 故障检测 - 云架构中心
RES06 故障检测 - 云架构中心

RES06 故障检测 RES06-01 故障模式分析 RES06-02 面向所有故障进行检测 RES06-03 支持亚健康检测父主题：故障全面检测

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测
RES06-01 故障模式分析 - 云架构中心

成的影响，以确定严酷度等级。对于存在单点故障的组件对应的故障模式，严酷度必须设置为高。云服务通用的故障模式有：CPU过载、内存过载、磁盘使用率过高、数据故障(被误删等)、AZ故障、Region故障等。提供故障检测和缓解措施针对每种故障模式，需要分析如何检测和恢复，提出改进建议

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
故障全面检测 - 云架构中心
故障全面检测 - 云架构中心

故障全面检测高可用性系统必须具有完善的故障检测能力，以确保能够快速发现那些可能导致故障的事件、显示正在发展的故障、激活的故障，以及潜在的故障的事件。在几乎所有情况下，故障检测能力都是故障恢复的前提。 RES06 故障检测 RES07 监控告警父主题：韧性支柱

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱
RES07 监控告警 - 云架构中心
RES07 监控告警 - 云架构中心

RES07-03 监控到异常后发送消息通知 RES07-04 监控数据存储和分析 RES07-05 端到端跟踪请求消息父主题：故障全面检测

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测
RES07-02 日志统计监控 - 云架构中心

RES07-02 日志统计监控应用系统需要收集日志，在必要时对日志进行统计分析，设置告警规则触发告警，统计分析的内容可以是统计一定时间段内某些关键字出现的次数。风险等级中关键策略日志关键字与出现次数阈值需要合理设置，以免监控信息不正确。日志信息（如关键字或出现频率）发生变化时，需要及时更新告警规则。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES07-04 监控数据存储和分析 - 云架构中心

RES07-04 监控数据存储和分析监控数据包括统计和日志信息，均需要存储并进行生命周期管理，以满足数据监控的保留要求；并定期对其进行分析，以了解系统运行状态和趋势。风险等级中关键策略监控数据存储时长需要满足保留要求。监控数据需要定期分析，以便发现或预测系统故障，减少业务中断。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES13-03 过载检测与流量控制 - 云架构中心

RES13-03 过载检测与流量控制当应用系统发生过载时，可能会导致系统疲于处理请求而无法有效提供服务，因此需要进行过载检测并进行流量控制。风险等级高关键策略过载控制(也称流控)指系统处于过载时，通过限流、降级、熔断、弹性伸缩等手段，使系统保证部分或者全部额定容量业务成

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
RES07-03 监控到异常后发送消息通知 - 云架构中心

RES07-03 监控到异常后发送消息通知当对应用系统监控发现应用异常后，需要向相应的人员和系统发送实时通知消息和告警，以便及时处理。风险等级中关键策略采用实时快捷的消息通知方式，以便相关人员能及时得到消息。消息发送人员需要涵盖运维人员，以便及时恢复。运维人员需要有备份，避免单点风险。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES07-05 端到端跟踪请求消息 - 云架构中心

RES07-05 端到端跟踪请求消息端到端跟踪请求消息的处理流程，便于分析和调试问题，并提高处理性能。风险等级低关键策略消息跟踪需要包含消息处理流程中所有组件，以便跟踪结果完整，从而进行准确分析和定位。相关云服务和工具应用性能管理 APM：支持调用链追踪，能够针对应

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES07-01 定义关键指标与阈值并监控 - 云架构中心

Method）对资源监控，包含：使用率Utilization：覆盖系统资源，包括但不限于CPU、内存、网络、磁盘等。饱和度Saturation：针对资源的饱和度，如CPU队列长度，注意与业务监控的黄金指标相区分。错误Errors：资源处理错误，如网络丢包率等。 CES主动监控提

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
数据持久度 - 云架构中心
数据持久度 - 云架构中心

数据持久度数据持久度是指数据不丢失的概率，即存储在预计周期内不出现数据丢失的概率，可以用于度量一个存储系统的可靠性。其只表示数据是否丢失的概率，不体现数据丢失多少；数据持久度的预计周期，一般按一年进行预计。影响存储数据持久度的主要因子有：冗余数、磁盘失效率与数据修复时间。其中

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念 > 可用性目标定义
PERF02-01 定义性能目标 - 云架构中心

监控和管理性能，并采取优化措施。这不仅可以提高系统的性能，还可以提高用户满意度。比如购物网站，我们可以设定页面加载时间不能超过5秒，如果页面加载时间超过设定的阈值，我们就可以采取优化措施，例如优化图片大小、减少HTTP请求等，以提高页面加载速度。记录并公开性能目标满足性能目

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF02 性能规划 > 性能规划
OPS08-03 知识管理 - 云架构中心
OPS08-03 知识管理 - 云架构中心

这样可以保证用户能够始终处于技术领先的状态，应对各种复杂的问题。提供多种形式的知识展示：运维知识库系统支持多种形式的知识展示，包括文字、图片、视频等。这样可以满足用户的不同需求，让用户可以更直观地理解和掌握知识。用户可以根据自己的喜好选择适合自己的知识展示形式。、父主题： OPS08

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS08 度量运营状态和持续改进
RES15-03 自动化回滚 - 云架构中心

RES15-03 自动化回滚在升级或部署过程中出现异常，或检查/测试失败时，支持自动回滚，减少人工干预，避免回滚失败。风险等级高关键策略检测到异常后，可一键式回滚。回滚过程自动化完成。父主题： RES15 升级不中断业务

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

CCE集群的CPU /内存/磁盘容量使用率过高检测：通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。恢复：根据业务情况，手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高检测：通过AOM监控CCE节点的CPU/内存

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > CCE云容器引擎
PERF03-05 选择合适类型的存储云服务 - 云架构中心

使用场景如高性能计算、媒体处理、文件共享和内容管理和Web服务等。说明：高性能计算：主要是高带宽的需求，用于共享文件存储，比如基因测序、图片渲染这些。如大数据分析、静态网站托管、在线视频点播、基因测序和智能视频监控等。如高性能计算、企业核心集群应用、企业应用系统和开发测试等。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF03 性能建模 > 选择合适的存储云服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

BMS实例或挂载的磁盘或数据被意外删除检测：NA 恢复：对于无状态业务，使用模板快速发放新实例；对于有状态业务，使用CBR云备份服务对BMS云硬盘进行定期备份，在数据被删除时使用备份数据快速恢复。 BMS实例物理服务器或本地盘故障检测：应用层检测物理服务器和本地盘运行状态恢复：应

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > BMS裸金属服务
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式弹性伸缩失败检测：查看弹性伸缩组的弹性伸缩活动历史。恢复：根据伸缩活动失败描述信息进行修复。父主题： AS弹性伸缩

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > AS弹性伸缩

总条数： 104

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

RES06-03 支持亚健康检测 - 云架构中心

RES06-02 面向所有故障进行检测 - 云架构中心

RES06 故障检测 - 云架构中心

RES06-01 故障模式分析 - 云架构中心

故障全面检测 - 云架构中心

RES07 监控告警 - 云架构中心

RES07-02 日志统计监控 - 云架构中心

RES07-04 监控数据存储和分析 - 云架构中心

RES13-03 过载检测与流量控制 - 云架构中心

RES07-03 监控到异常后发送消息通知 - 云架构中心

RES07-05 端到端跟踪请求消息 - 云架构中心

RES07-01 定义关键指标与阈值并监控 - 云架构中心

数据持久度 - 云架构中心

PERF02-01 定义性能目标 - 云架构中心

OPS08-03 知识管理 - 云架构中心

RES15-03 自动化回滚 - 云架构中心

常见故障模式 - 云架构中心

PERF03-05 选择合适类型的存储云服务 - 云架构中心

常见故障模式 - 云架构中心

常见故障模式 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线