云架构中心-设计原则:故障全面检测

时间:2024-07-19 11:31:26

故障全面检测

故障检测是故障管理的前提,检测全面与检测快速都很重要,通常情况下故障检测全比故障检测快重要。

故障检测涉及以下方面:

  • 检测范围:识别并跟踪检测所有组件,有重大影响的故障模式需要重点检测。
    • 亚健康检测:对不引起系统故障却导致系统或服务KPI下降的亚健康异常需要能检测,如网络时延变大、磁盘变慢、内存泄露等亚健康故障。
    • 备用检测:冗余系统中,主备用模块的故障都需要检测,避免静默故障。
    • 有特殊寿命器件:应及时监控有特殊寿命(如本地硬盘)要求的期间健康状态,通过提前预警采取维护错误,避免故障的突然发生造成严重影响。
  • 检测速度:需要根据业务综合要求,确定合适的检测速度。
  • 检测影响:故障定时检测的周期,需综合考虑对CPU占用率的影响和检测延迟对业务恢复速度的影响。
  • 检测模块要简单:故障检测系统、模块要比被检测系统、模块简单。

在检测到问题后,需要通过监控系统及时发现,迅速处理。

support.huaweicloud.com/usermanual-architecture/architecture_02_0011.html