云架构中心-设计原则:故障快速恢复

时间:2024-07-19 11:31:26

故障快速恢复

故障恢复指恢复产品执行规定功能的能力,一般情况下恢复越快影响越小。

结合业务情况,综合考虑技术实现难度、技术方案复杂度、成本等设计合适的故障恢复方案:

  • 自动恢复:对于影响业务的故障,系统应尽可能自动恢复自愈,如保护倒换、局部复位或系统服务等。
  • 优先恢复:优先对故障发生概率高、故障影响大的故障进行恢复。
  • 分级复位:提供分级复位设计,尽可能在更小级别进行复位,以减少对业务的影响。
  • 无耦合恢复:尽可能做到系统局部故障或各部件启动顺序不影响系统成功启动。
  • 分层保护:系统故障保护要考虑网络分层,下层的故障保护倒换要比上层灵敏,防止系统出现乒乓倒换。

通过检测系统运行状态,或监控系统载关键指标,来判断系统是否发生故障,并针对故障可进行自动恢复处理。

可以通过故障分析方法分析各种故障模式、影响及危害,设计对应的可靠可用方案,提供冗余、隔离、降级、弹性等能力;并通过故障注入测试(FIT)验证可靠可用方案的有效性,最大程度提高业务的可靠性和可用性。

对于某些故障,即使通过各种技术手段进行冗余和自动恢复处理,但仍会导致业务中断,需要人工干预,如备份恢复或灾难恢复处理,因此需要建立高效的故障应急恢复处理流程和平台,以便在故障发生时,能快速恢复业务,减少故障影响。

support.huaweicloud.com/usermanual-architecture/architecture_02_0011.html