检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
华为云大数据组件 常用的华为云大数据服务组件如下,设计大数据部署架构时可参考: MapReduce服务(MapReduce Service,简称MRS) MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群,完全兼容开源接口,轻松运行Hadoop、Spark
大数据 大数据是指规模庞大且复杂的数据集合,对于企业来说,如何收集、存储和分析大数据具有重要意义。以下是大数据如何使能业务创新、与业务结合并推动业务现代化的几个方面: 数据驱动决策:大数据分析可以帮助企业从海量数据中提取有价值的信息和洞察力,为决策提供支持。
如果目标云平台上没有对应的大数据集群组件,部署架构设计时,可以考虑继续采用自建的方案。如果目标云平台上有对应的大数据集群组件,但兼容性较差,经评估可能需要较大的改造工作量,部署架构设计时,可以考虑继续采用自建的方案。 最小改造原则:如无特别的业务驱动,要尽量避免进行大规模改造。
数据查询和分析: 对于大量的存储在大数据平台中的数据,需要提供灵活且高性能的查询和分析能力。这可以通过使用SQL查询引擎(如Hive)或分布式数据库(如Elasticsearch)等实现。这些工具和系统支持在海量数据集上进行查询、聚合和可视化,以提供数据洞见和决策支持。
大数据调研 平台调研 数据调研 任务调研 父主题: 调研评估
数据调研 数据调研主要包括如下方面: 表1 数据调研方法表 调研内容 调研目的 举例 数据类型 根据数据类型选择合适的迁移工具 HDFS、HBase、MySQL等 数据量 历史数据量,用于评估历史数据迁移周期; 日增量数据,用于评估每日增量数据同步周期。
大数据迁移 调研 设计 部署 迁移 验证 切换 保障 父主题: 采用实施
还可以利用云平台提供的服务和功能,如缓存、预取数据等,来优化任务执行的性能。 父主题: 大数据架构设计
大数据架构设计 设计原则 大数据集群设计 大数据任务调度平台设计 大数据参考架构 华为云大数据组件 父主题: 方案设计
大数据迁移批次规划说明 大数据迁移上云时,是选择整体迁移还是分批迁移,原则如下: 整体迁移的场景: 规模小:大数据平台数据量少(TB级),计算任务数量不多,可以采用整体迁移的方法,先在云上部署大数据平台,然后全量迁移元数据、数据和任务。
平台调研 大数据调研简介 大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。 图1 大数据调研的对象 大数据迁移需要调研4部分信息: 大数据平台调研,包括大数据集群、任务调度平台、数据流向。
对海量数据支持更好 适用于将源端对象存储、网络文件存储,大数据存储迁移至华为云OBS对象存储、华为云SFS弹性文件存储、华为云大数据存储中的海量数据迁移。
数据验证方法 数据分为数据库数据、中间件数据和文件数据,这三种数据的一致性验证方法和工具不同: 数据库数据一致性验证的方法如下表所示。
调研 大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。它包含如下三个模块,本节重点介绍的是大数据集群和大数据任务调度平台的迁移,大数据应用的迁移方法请参考应用迁移上云,本节只介绍差异部分。
大数据应用部署 大数据应用的部署有2种方法,可以基于华为云ECS重新部署大数据应用,或者是使用华为云SMS工具将大数据应用迁移到华为云ECS。
表4 任务类型和迁移方案 任务类型 迁移方案 JAR类任务 所有Jar类任务都需要根据云上集群版本重新编译jar包,适配云上环境 SQL类任务 同版本: Hive大版本相同,可平迁SQL类任务 不同版本:Hive大版本不同,先平迁SQL类任务,然后根据版本语法变动,微调SQL语句以适配云上版本语法
图1 Hadoop数据迁移 HBase数据迁移到华为云MRS服务 将IDC机房或其他公有云的HBase集群中的数据迁移到华为云MRS服务。
保障 在大数据迁移的保障阶段,需要执行以下任务来确保顺利过渡到新的云环境: 监控和警报设置:建立实时监控系统,监测集群、任务调度平台和应用程序的运行状态。设置警报,以便及时发现潜在的问题并采取措施。 优化集群性能:对大数据集群进行性能评估和调优。
图1 双跑场景 推数场景:适用于数据源主动向应用推数的场景,切换点在数据源,需要停止旧数据源推数,配置并启动新数据源向应用推数,将应用的数据源从旧数据源切换到新数据源。
验证 数据校验 数据库的对比方法有数据库内容对比、对象对比、行数对比,文件的对比方法有文件数量对比,大小对比,内容对比。具体的数据对比的方法请参考章节数据验证的内容。 任务验证 大数据任务迁移后,要确保作业能够正常运行、产生准确的结果,并且满足性能要求。