云采用框架-切换演练:为什么要演练

时间:2025-02-12 15:03:01

为什么要演练

切换演练在上云迁移过程中扮演着至关重要的作用,通过一次或多次演练为正式切换提供信心和保障。它的主要意义在于可以最大程度地识别问题和风险,提高大家操作熟练度,减少中断时长,确保切换过程的顺利进行。

  1. 预防问题:演练可以帮助发现可能存在的问题,比如切换过程中的应用和批处理任务启停顺序问题、网络配置问题、数据一致性对比等问题,从而提前进行预防和解决。
  2. 团队配合:演练可以让团队成员熟悉切换的全流程和切换步骤,从而更好地协同工作,提高团队配合效率。
  3. 优化Runbook:演练过程中可以识别出切换步骤的问题,比如整体串并行顺序问题以及某个步骤执行时间过长等问题,可以通过演练复盘优化Runbook步骤和时长,提高正式切换步骤的正确性和合理性,提高切换效率。
  4. 预估正式切换时长:通过演练,记录每个执行步骤的开始时间、结束时间和执行时长,可以更加准确地预估正式切换的时长,从而合理规划对外停机公告时间,协调周边团队的配合时间。
  5. 减少正式切换的中断时间:通常一个大型系统的切换要200多个步骤,中间有并行操作和串行操作交叉进行,涉及角色和人员也较多,可以通过一次或多次演练,提高切换操作的熟悉度和各方的配合默契度以及问题处理的效率,对于一些操作时长比较长的步骤,还可以通过自动化脚本代替人工操作或者持续优化脚本提高执行效率,从而减少正式切换的中断时长。以某大型零售平台上云为例,采用所有业务系统一把切的方案,通过4次演练,正式切换的时间比预期缩短了40%。
    图1 演练效果展示
  6. 识别未知问题:演练环境可以帮助发现一些未识别到的问题,比如某系统在切换过程中,涉及的应用都已关停,但是仍然有session在连接数据库,导致数据一直无法静止,定位发现某第三方店铺在店铺关停后仍然在做一些操作等。企业可以根据识别的未知问题,有针对性的调整和优化切换方案,提高切换上线的成功率。
support.huaweicloud.com/usermanual-caf/caf_01_0165.html