云服务器内容精选

华为云首页用户手册

RES06 故障检测

云架构中心-RES06-02 面向所有故障进行检测

RES06-02 面向所有故障进行检测针对所有故障场景，都需要能自动检测，以便及时发现和恢复故障。风险等级高关键策略所有故障都必须有检测。支持按不同维度进行故障检测，如Region、AZ、服务、方法、实例或容器ID等，检测维度与故障恢复方式对齐。检测到故障后需及时告警或自动恢复。针对具体故障进行检测时，根据检测的类型通常可以分为资源检测、功能检测和业务检测。资源检测：云环境中一般指虚拟化后的物理硬件资源及其对应的软件资源，具体包含CPU、内存、网络和磁盘资源等。功能检测：对组成产品系统的各个内部模块对象进行检测的过程，确定模块功能是否满足设计的需求。当产品系统的功能发生故障时，对外的呈现即为功能输出和预期不一致。在产品上线之前，通过功能相应接口，开发者和测试人员需要多次检测以保证模块功能的正确性。功能检测可以使用传统日志跟踪技术、调用链技术来进行检测，如华为云 APM 。业务检测：模拟用户的业务操作过程，获得完成业务的操作过程性能数据和操作结果数据；业务检测使用拨测技术来完成检测，由于拨测需要占用网络资源，对于长周期拨测，一般选择在空闲时间段进行，属于抽样检测，而如果是短周期拨测（如5分钟周期），则可例行进行；与功能检测的联系是，业务检测也可以采用调用链来完成。故障检测方法根据类型有很多种，下面是一些在高可用性系统中常用的故障检测方法。数值范围检查：在大多数应用中，一个操作的结果必须处于某个范围之内。对这些边界条件可以进行一些测试来验证数据是否满足预期要求。数据完整性检查：每当数据被从一个单元传递给另一个单元时，该数据可能会被破坏。对于在硬件单元间传递的数据尤其如此。然而，由于软件层可以隐藏本地内存传送和跨远程链路的传送间的差异，因此需要在多个点进行数据完整性检查。可以采用很多方法来验证数据的完整性，其中大多数方法都依赖于冗余或者包含在数据中的摘要信息。有些方法采用足够的冗余，不仅能检测错误，而且能纠正错误。但大多数方法中都只包括足够的额外信息来检测数据是否有效。典型的方法如奇偶校验和CRC（循环冗余校验）。比较测试：当系统具有冗余时，可以使两个系统并行进行计算，然后对结果进行比较，如果结果不匹配则认为发生了故障。这种概念也称为表决。比较可以在系统的任何层次上进行，包括在一条内存总线上的cycle by cycle的比较，到最终发送到网络上结果的比较。时间检测：时间检测是故障检测的一种简单形式。如果一个事件预期应在某个时间段内发生，而却没有在该时间段发生，就检测到了一个故障。时间检测的一种特殊方法通常称为心跳方法。它采用以某个规定的周期频率执行的某些类型的消息握手。该技术可以用于验证单元或子系统是否仍然能够维持某些等级的功能。父主题： RES06 故障检测

云架构中心 RES06 故障检测
云架构中心-RES06-01 故障模式分析

RES06-01 故障模式分析故障模式分析是在系统分析和设计过程，通过对各组成单元潜在的各种故障模式及其对产品功能的影响进行分析，并把每一种潜在故障模式按它的严酷度予以分类，找出单点故障和产品的薄弱环节，提出可以采取的预防改进措施，以提高产品可靠性的一种设计方法。当应用系统部署在华为云中时，华为云提供了基础设施的故障管理，应用系统可减少对机房、电力、环境、计算服务器、存储设备、网络交换机等基础设施的故障模式的检测和恢复处理，但仍需考虑这些基础设施故障对应用系统的影响及对应的恢复措施，如机房发生灾难(AZ或Region级灾难)、计算服务器故障/重启、使用本地硬盘时硬盘故障/亚健康、网络通信中断/丢包等。而对于应用自身相关的故障模式，如软件系统类、数据类、通信类、负荷过载、人因差错等类型的故障，更需要充分分析并提供检测和恢复措施。风险等级高关键策略针对每种故障模式，分析其发生的频率以及造成的影响，以确定严酷度等级。对于存在单点故障的组件对应的故障模式，严酷度必须设置为高。云服务通用的故障模式有：CPU过载、内存过载、磁盘使用率过高、数据故障(被误删等)、AZ故障、Region故障等。定义严酷度类别严酷度是度量故障给系统造成的最坏潜在后果，一般分为四个等级：Ⅰ类（严重）、Ⅱ类（较严重）、Ⅲ类（一般）、Ⅳ类（轻微）。 I类：这种故障会导致整个系统崩溃或主要功能受到严重影响； II类：这种故障会导致系统主要功能受到影响、任务延误的系统轻度损坏或存在较大的故障隐患； III类：系统次要功能丧失或下降，须立即修理，但不影响系统主要功能实现的故障； IV类：部分次要功能下降，只须一般维护的，不对功能实现造成影响（一般告警或指示灯故障等）。其中，I～II类故障通常称为重大故障，也即“单点故障”，它们的区别主要是I类故障可能涉及到安全性问题，或者I类故障是所有/大部分功能丧失。II类故障指主要功能受影响。III类故障可简单理解为需要尽快修复的故障。通常来说，当一个故障不能被检测出来时，会认为这是一个故障“隐患”，相应的故障严酷度级别上升一级。标识系统中的所有组件及功能模块明确应用系统涉及的所有组件，以及外部依赖项，如提供者、第三方服务等。识别故障点对于每个组件，标识可能发生的潜在故障。单个组件可能具有多种故障模式，需要针对不同故障模式分别分析。故障模式的种类需要尽可能完备，若出现遗漏，可能导致该故障在设计中不被考虑，而没有进行监控和恢复处理。故障影响范围分析(爆炸半径) 针对每种故障模式，分析其发生的频率以及造成的影响，以确定严酷度等级。对于存在单点故障的组件对应的故障模式，严酷度必须设置为高。云服务通用的故障模式有：CPU过载、内存过载、磁盘使用率过高、数据故障(被误删等)、AZ故障、Region故障等。提供故障检测和缓解措施针对每种故障模式，需要分析如何检测和恢复，提出改进建议措施，并在系统复杂度和成本之间进行综合考虑，优先解决严酷度高的故障模式。相关云服务和工具云运维中心 COC：支持故障模式管理。父主题： RES06 故障检测

云架构中心 RES06 故障检测