云架构中心-RES11-01 混沌测试

时间:2024-07-19 11:31:20

RES11-01 混沌测试

混沌工程(Chaos Engineering)是通过故障注入的方式,触发或模拟实际故障,验证系统的稳定性和容错保护能力。

  • 风险等级

  • 关键策略
    • 在真实环境中测试。
    • 作为CI/CD管道的一部分例行执行。
    • 主动注入故障,以便在问题发生前提前发现并解决问题。
    • 以可控方式注入故障,减少对客户的影响。

    混沌工程度量指标:

    • 故障场景的覆盖率:分析故障场景的覆盖率,例如容灾场景覆盖 80%,过载场景覆盖 60%。
    • 故障场景的命中率:分析故障场景中,真实发生的比率。
    • 应急预案的质量:用于度量应急预案有效性和执行效率。
    • 风险发现个数与等级:定期评估分析(季度或年度)主动发现的风险数量和级别。
    • 风险消减个数、等级与类型:风险降级的数量,风险消减的数量,增加预案的数量,改进监控项的数量。
    • 故障恢复时长提升率:对应故障场景经过混沌工程演练,平均恢复速度提升的比率。
    • 故障数量相比上年减少数量:本年度故障数量相比上年度减少多少。
  • 相关云服务和工具
    • MAS-CAST故障注入服务:针对云应用提供测试工具和注入手段,支持故障和业务流程编排的可靠性评估测试、压力负荷测试、CHAOS随机故障注入、生产环境故障演练等能力。
    • 云运维中心 COC:支持混沌演练,为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端的演练流程。
support.huaweicloud.com/usermanual-architecture/architecture_02_0070.html