检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Runbook操作步骤设计 Runbook中的每一步操作,都有明确的操作步骤、操作命令/脚本、串/并行标记、操作人、确认人、预估开始时间、结束时间、预估执行时长。切换方案不同,对应的Runbook的操作步骤也不同。切换方案可以分停服切换和不停服切换。
文件大小 python脚本 迁移完成后,通过对比源端和目的端总文件大小判断是否一致。 文件内容 python脚本 迁移完成后,通过计算源端和目的端文件的哈希值,比较两个文件的哈希值是否一致。 父主题: 验证
脚本调用API开通 量比较大的场景。 业务定制需求,程序运行按需调用,实现资源的自动创建与删除。
编写脚本或代码实现日常运维任务的自动化。 推动智能化运维技术的应用,如AIOps。 熟悉自动化工具(如Ansible、Terraform、SaltStack等)。 掌握脚本语言(如Python、Shell)和云平台API的使用。 具备DevOps理念,熟悉CI/CD流程和工具。
编写安全运维脚本,提升安全运营效率。 熟练使用云平台的安全运营服务和各种安全监控工具。 掌握威胁检测技术、漏洞扫描工具和补丁管理流程。 熟悉日志分析工具和自动化脚本语言(如Python、Shell)。 了解云平台的安全配置(如安全组、防火墙规则)。
)检查 云服务基础检查项 运维相关 - 是 - - - 数据库检查项 运维相关 - 是 - - - 运维相关 - 是 - - - 大数据检查项 大数据相关 - 是 - - - 大数据相关 - 是 - - - 应用检查 运维相关 - 是 - - - 执行脚本检查 运维相关 - 是 -
(Python、Shell) 同调度平台:平迁脚本类任务 不同调度平台:平迁脚本类任务,根据云上调度平台,对脚本进行适配改造,以适应新的调度平台运行环境 大数据任务迁移通常按照如下顺序执行: 图2 大数据的任务迁移顺序 历史作业全量迁移 首先,将历史作业的数据和相关代码迁移至新的大数据平台
根据最新的应用清单和JOB任务清单,刷新Runbook中相关的切换操作脚本。 环境检查 切换前需确保源端、目的端、迁移任务状态正常,执行脚本准备就绪。
可以使用对比工具、数据校验脚本或手动检查的方式进行验证。如果发现数据不一致的情况,可能需要考虑迁移过程中的数据转换、数据格式或数据处理逻辑的问题,并进行相应的修复和调整。 作业执行的性能验证 在迁移后,验证作业的执行性能,包括运行时间、资源利用率、并发性等。
任务类型 基于编程语言分类: Jar类:常用于MRS、Flink、Spark等 SQL类: 常用于Hive、Spark、UDF等 Python类:常用于Spark、算法场景等 其他类:如Shell、Scala等,多用于脚本调用 任务数量 调研各类任务的总数量,用于评估任务迁移周期及改造工作量
修改脚本:根据云上环境配置,修改脚本,例如数据库连接串,资源配置,输出目录等。 目标云平台导入脚本:上传脚本到云上调度平台,并配置脚本类调度任务。 脚本任务运行和测试:执行调度任务,并根据日志和执行结果检查脚本运行情况。
研发团队 研发人员Check上云应用清单 是 否 JOB清单检查并刷新脚本 研发团队 Check最新的job清单 是 否 研发团队 检查脚本中的清单是否是最新的 是 否 环境(源端、目的端、迁移任务、执行脚本)检查 云服务基础检查项 运维团队 确认运维提供的测试wifi是否已准备就绪
调研任务调度平台支持的任务类型,包括Jar类任务、SQL类任务、脚本类任务(Python、Shell)等。 调研任务调度平台是否提供可视化和管理界面,以方便任务调度的配置、监控和管理。 了解任务调度平台的容错机制,包括任务失败后的重试机制、故障恢复策略等。
然后,使用自动化工具或脚本将容器部署到生产环境中。 持续集成与交付:建立持续集成与交付(CI/CD)流程,以便能够快速、可靠地构建、测试和部署新版本的容器化应用程序。 容器化改造是一个复杂的过程,需要仔细规划和评估。
具备扎实的脚本编写能力(例如Shell、Python等),能够实现自动化操作。 具备良好的沟通和团队协作能力。 IT部门或者外包给云实施专业服务提供商 父主题: 云卓越中心
减少正式切换的中断时间:通常一个大型系统的切换要200多个步骤,中间有并行操作和串行操作交叉进行,涉及角色和人员也较多,可以通过一次或多次演练,提高切换操作的熟悉度和各方的配合默契度以及问题处理的效率,对于一些操作时长比较长的步骤,还可以通过自动化脚本代替人工操作或者持续优化脚本提高执行效率
Runbook要细化到每个执行命令,尽量脚本化或工具化,操作人直接执行即可,不需要现场临时定制,避免出现人为事故。 Runbook步骤中有并行操作和串行操作,要标记好串并行顺序,避免人为操作不当影响切换时长和切换结果。
减少操作时间 停服时长例外情况 停服时长小于30分钟:若停服时长要求小于30分钟,可以通过分批迁移,划分较小的批次或者采用分层切换(比如先切应用层再切数据层)的方式,且所有操作都脚本化/工具化,停服时长也有可能小于30分钟。
编写和维护自动化测试脚本。 编写测试报告和文档。 有扎实的测试理论基础,熟悉软件测试理论、方法和流程等。 具备丰富的测试经验,熟悉各种测试类型,如功能测试、性能测试、安全测试和可靠性测试等。 熟悉主流的云平台及云服务。 熟练使用自动化测试工具,能够编写自动化测试脚本。
自动故障恢复:设置自动化故障转移机制,在一个AZ发生故障时,自动将应用程序切换到其他可用的AZ上,以快速恢复服务,企业可以利用容器编排工具、自动化脚本或云服务提供商提供的故障转移功能来实现自动故障恢复。