云采用框架-Runbook Checklist设计

时间:2025-01-21 11:51:12

Runbook Checklist设计

Runbook Checklist记录了正式切换前需要准备和执行的操作,通常包括如下几个方面:

  • 人员和场地准备
    1. 核对参与切换人员,并通知,包括内部人员和第三方配合人员通知和时间核对。
    2. 建立切换保障群,切换期间在保障群里进行切换相关公告和通知。
    3. 确定切换的具体日期、入场签到时间、操作开始时间。
    4. 切换场地的准备,如预约会议室,准备相关的物料(电脑、插排、投屏等)。
    5. 工具、终端和登陆平台准备,切换涉及的人员需提前检查使用的工具、平台是否可用,如 堡垒机 账号权限是否正常,测试终端(测试手机、电脑)是否可用等。
    6. 提前通知相关人员发布官网公告,若涉及到第三方的官网公告,需要提醒第三方进行官网公告发布。
  • 应用清单核对和操作脚本刷新
    1. 上云迁移期间,企业的软件版本开发、迭代发布通常还在正常进行,所以在切换前需要进行一次环境详细清单的核对,包括应用清单和JOB任务等。
    2. 清单核对完成,通知版本封版,避免正式切换时环境和准备时的不一致情况。
    3. 根据最新的应用清单和JOB任务清单,刷新Runbook中相关的切换操作脚本。
  • 环境检查

    切换前需确保源端、目的端、迁移任务状态正常,执行脚本准备就绪。

    1. 源端检查:首先,检查是云专线同步带宽是否有超带宽的告警,评估是否需要进行带宽的扩容,其次,对源端应用和数据库进行告警监控等的观测,确保源端告警清理,状态均正常。
    2. 目的端检查:通知云厂家进行资源日常状态的巡检和高可用性检查。另外目的端切换后就是正式生产环境,要确保告警、监控、日志、安全策略均已完成配置并做最后一次检查和确认。
    3. 正向迁移任务的状态检查:系统切换前通常迁移任务已经创建完成,并在增量同步状态中,确保迁移任务的增量同步状态正常,无异常报错或告警。
    4. 反向迁移任务的状态检查:数据层或中间件通常要考虑回退的链路,切换之前同时要检查反向迁移同步任务的状态,确保无异常报错或告警。
    5. 参数一致性检查:核对源端参数和目的端云服务参数的一致性,如数据库的字符集一致性,数据库的用户名等一致性等。
support.huaweicloud.com/usermanual-caf/caf_01_0149.html