检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大数据任务调度平台设计 设计云上的大数据任务调度平台部署架构时,建议参考原则如下: 优先用大数据云服务:如果源端是自建的大数据任务调度平台和组件,在目标云平台上有对应的云服务,且功能、性能、兼容性都满足,经评估改造工作量很小,建议部署架构设计时,优先采用大数据云服务。
本节重点介绍大数据平台、数据和任务的调研。 平台调研 大数据平台调研主要调研大数据集群、大数据任务调度平台和数据流向。
如何构建平台工程 在云平台上构建平台工程,可以充分利用云平台提供的丰富服务和工具,降低构建和维护成本,并提高IDP的可靠性和可扩展性。以下是一些关键步骤。
什么是平台工程 平台工程(Platform Engineering)是一种通过构建和运营自助式内部开发平台(IDP,Internal Developer Platform)来优化软件交付和生命周期管理的工程学科。
平台工程 什么是平台工程 如何构建平台工程 父主题: 顶层规划
编写脚本或通过自动化平台对接,调用云平台的API接口,批量发放云资源,每个云服务都有对应的API接口,可以进行资源的生命周期管理。详情请见对应服务的帮助文档。例如,利用API创建云服务器,请参考这个链接。
容器化平台选择:选择一个适合你的需求的容器化平台。最常见的容器化平台是Docker,但也有其他选择,如Kubernetes等。 容器化应用程序:将应用程序拆分为较小的模块或微服务,并将每个模块打包为独立的容器镜像。
离线任务上班前和下班后执行 调研的方法主要是通过当前大数据平台获取,并辅助一些调研访谈进行补充和确认。 父主题: 大数据调研
如:XX调度平台下,Jar任务XX个。 任务更新周期 识别出不同调度平台,不同任务类型的任务更新周期。如:XX调度平台XX类任务月度更新;XX平台XX类型任务每日XX点更新。 任务详细信息 识别出所有任务的详细信息,包括任务ID、名称、责任部门、责任人、执行时间、更新周期等。
主机迁移服务(SMS):是一种P2V/V2V迁移服务,可以把X86物理服务器或者私有云、公有云平台上的虚拟机迁移到华为云弹性云服务器云主机上,具体使用方法请查看SMS帮助文档。 数据复制服务(DRS):用于数据库实时迁移和数据库实时同步的云服务。
调研 大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。它包含如下三个模块,本节重点介绍的是大数据集群和大数据任务调度平台的迁移,大数据应用的迁移方法请参考应用迁移上云,本节只介绍差异部分。
保障 在上云迁移的保障阶段,需要执行以下任务来确保顺利过渡到新的云环境: 云平台监控:确保建立有效的监控系统,跟踪云平台的性能、可用性和安全性。设置警报机制,及时发现并解决潜在的问题。 系统监控和运维:设置系统监控和告警,确保及时发现和解决潜在的问题。
大数据迁移批次规划说明 大数据迁移上云时,是选择整体迁移还是分批迁移,原则如下: 整体迁移的场景: 规模小:大数据平台数据量少(TB级),计算任务数量不多,可以采用整体迁移的方法,先在云上部署大数据平台,然后全量迁移元数据、数据和任务。
设计原则 大数据的部署架构设计包括大数据集群、大数据任务调度平台和大数据应用,其中大数据应用的部署架构请参考应用架构设计。
如果该云平台出现故障,例如大规模宕机或区域性灾难,企业的业务将受到严重影响。多云战略可以通过将业务系统部署在多个独立的云平台上,实现跨云容灾,避免单一云平台故障带来的业务中断。即使一个云平台出现问题,其他云平台上的业务仍然可以正常运行,保障业务连续性。
首先,最基本的要求是保障应用系统可以在云平台上长期安全稳定运行;其次,要让应用系统可以充分利用云计算的优势提升应用系统的质量,如提升应用系统的韧性、敏捷性、安全性和性能等,最后,应用系统生于云、长于云,可以基于云平台提供的新技术快速进行产品、服务甚至商业模式的创新,孵化新功能、提高业务运营效率
参考架构库 Haydn是华为云面向合作伙伴和客户的数字化平台,当前Haydn已经积累了700+各类参考架构,企业可以根据业务场景搜索并引用华为云的应用部署参考架构,基于Haydn做架构设计,企业可以对参考架构做定制化修改,以更符合企业业务。
如果目标云平台上没有对应的大数据集群组件,部署架构设计时,可以考虑继续采用自建的方案。如果目标云平台上有对应的大数据集群组件,但兼容性较差,经评估可能需要较大的改造工作量,部署架构设计时,可以考虑继续采用自建的方案。 最小改造原则:如无特别的业务驱动,要尽量避免进行大规模改造。
图1 安全责任共担模型 华为云的安全责任在于保障云平台和云服务自身的安全,涵盖华为云数据中心的物理环境和运行其上的基础服务、平台服务、应用服务等。
任务调度: 大数据平台通常需要处理复杂的数据作业。任务调度系统(如Azkaban等)用于管理和调度各种数据处理作业,可以设置作业的依赖关系、调度频率、重试策略等,以确保作业的顺利执行和任务的准时完成。 数据应用: 大数据平台的最终目的是为业务提供有价值的数据应用。