检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大数据集群设计 设计云上的大数据集群部署架构时,建议参考原则如下: 优先用大数据云服务:如果源端是自建的大数据集群,在目标云平台上有对应的云服务,且功能、性能、兼容性都满足,经评估改造工作量很小,建议设计大数据集群部署架构时,优先采用大数据云服务。
数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。详细信息请参考官网文档。
数据库同步:云上使用RDS数据库服务,进行跨AZ主备部署,跨AZ间数据同步。 灾难恢复切换:当AZ发生故障时,RDS 数据库等自动切换至备库,应用层自动或者通过 SDRS 的一键容灾切换功能切换至其他AZ。 容灾演练:通过应用切换或 SDRS 提供的容灾演练功能进行一键演练。
结构化数据包含各类数据库,例如MySQL数据库、MongoDB数据库等,非结构化数据包含对象存储、各类文件存储等。 结构化数据迁移方案 结构化数据,主要为业务提供即时数据支撑,包含数据查询、计算、分析、修改等操作。业务连续性高的业务,很依赖数据库迁移工具的实时同步能力。
大数据架构设计 设计原则 大数据集群设计 大数据任务调度平台设计 大数据参考架构 华为云大数据组件 父主题: 方案设计
自建MySQL/Oracle c/m系列 父主题: 云服务选型
中间件层:Kafka、Solr和ES采用3AZ集群部署,任意一个AZ故障,服务仍然可用;Redis采用双AZ主备节点部署。 数据层:MySQL数据库采用双AZ主备部署实现HA;MongoDB使用副本集或Cluster集群,3AZ分布,某AZ故障,其他AZ正常提供服务。
AZ的故障不影响业务运行; RDS for MySQL采用主备部署方式,主备实例之间的数据实时同步,如果主实例出现故障,备实例可以快速升为主实例; Redis、Kafka、CSS云搜索、RDS for MySQL都支持把数据备份到OBS桶,应对数据误操作之后的风险; 云主机/云硬盘可通过
大数据集群迁移:将大数据集群(包括存储、计算和管理组件)迁移到新的运行环境,包括集群的重新配置和数据迁移。集群迁移需要考虑数据的迁移方式、网络传输速度、兼容性和数据一致性等因素。
MySQL数据迁移到MRS集群Hive分区表 Hive的分区使用HDFS的子目录功能实现,每一个子目录包含了分区对应的列名和每一列的值。当分区很多时,会有很多HDFS子目录,如果不依赖工具,将外部数据加载到Hive表各分区不是一件容易的事情。
应用迁移上云简介 应用迁移上云简介 应用上云迁移是指将应用的接入层、应用层、中间件层和数据层迁移到云端的过程,迁移策略采用Rehost或Replatform,不含Refactor(应用改造),数据层包含对象存储、块存储、文件存储、关系型数据库、非关系型数据库。
部署 大数据平台部署 大数据平台的部署可以参考如下方法: 大数据集群部署 基于架构设计的原则,云上大数据集群一般采用云服务。华为云MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。
保障 在大数据迁移的保障阶段,需要执行以下任务来确保顺利过渡到新的云环境: 监控和警报设置:建立实时监控系统,监测集群、任务调度平台和应用程序的运行状态。设置警报,以便及时发现潜在的问题并采取措施。 优化集群性能:对大数据集群进行性能评估和调优。
表2 数据库迁移最佳实践 源数据库类型 目标数据库 最佳实践在线文档 其他云MySQL数据库 华为云RDS for MySQL 其他云MySQL迁移到云数据库 RDS for MySQL 华为云GaussDB(for MySQL) 其他云MySQL迁移到GaussDB(for MySQL
数据库层:华为云RDS数据库可平滑扩展只读数据库的实例,应对大量数据读的场景;配套DDM实现多套实例水平扩容,将大表的数据做水平拆分,均匀拆分到多个数据库实例中,从而提升数据库的容量和性能。
调研大数据集群数量和功能划分:例如Hadoop集群、Spark集群、Hive集群等,并根据业务需求划分它们的功能,如存储集群、计算集群、查询集群等。 调研各个集群或组件负责的业务范围,以及它们处理的数据类型和数据流转的方式。
应用层迁移实施 主机迁移 主机迁移是典型的Rehost迁移方式,虽然主机(服务器)上可以承载各种系统应用如Nginx代理、数据库、容器、中间件、大数据等,但由于数据库/中间件/大数据等应用是以数据为核心,对于这类数据层面的迁移我们通常会采用独立的数据迁移方式而非主机迁移,这里讲的主机迁移对应的迁移层级为应用和操作系统
再以数据库服务为例,租户应负责:数据库引擎的生命周期管理及数据库安全管理,包括(1)缺省使用最新的实例版本、及时根据官网提示和漏洞通告升级版本等;(2)梳理资产分类及制定数据库实例防护策略,如数据库主备及集群设计、数据灾备及恢复策略、VPC及安全组配置、互联网访问配置、访问通道加密配置
设计原则 大数据的部署架构设计包括大数据集群、大数据任务调度平台和大数据应用,其中大数据应用的部署架构请参考应用架构设计。
验证 数据校验 数据库的对比方法有数据库内容对比、对象对比、行数对比,文件的对比方法有文件数量对比,大小对比,内容对比。具体的数据对比的方法请参考章节数据验证的内容。 任务验证 大数据任务迁移后,要确保作业能够正常运行、产生准确的结果,并且满足性能要求。