检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
档。 数据治理中心(DataArts Studio) DataArts Studio支持对接所有华为云的数据湖与数据库云服务作为数据湖底座,例如MRS Hive、数据仓库服务DWS等,也支持对接企业传统数据仓库,例如Oracle、MySQL等。详细信息请参考官网文档。 数据接入服务(Data
Intel d 与c系列相比,提供大容量、低成本的SATA本地盘 大数据/缓存数据库 超高I/O型 Intel i 与c系列相比,提供高IOPS、低时延的大容量NVMe本地盘 ir 与c系列相比,提供高IOPS、低时延的小容量NVMe本地盘 通用计算型 Intel s 与c系列相比,
大数据调研 平台调研 数据调研 任务调研 父主题: 调研评估
、社交媒体等各种数据源。通过数据采集和提取,将原始数据收集到大数据平台进行后续处理和分析。 数据集成: 数据集成是将来自不同数据源的数据进行整合和转换的过程。这包括数据清洗、数据预处理、数据格式转换、数据合并等操作,以确保数据的一致性和准确性。 数据存储: 大数据平台需要具备高效
TB 数据分层 调研数据分层主要用于迁移优先级和数据校验标准。 数据接入层、中间层、结果层 数据权限 根据源端数据权限控制组件的不同,选择不同的权限数据迁移方式 Sentry、Ranger等 数据重要性 调研数据重要性的目的是区分核心数据和非核心数据,用于迁移优先级和数据校验标准。
大数据 大数据是指规模庞大且复杂的数据集合,对于企业来说,如何收集、存储和分析大数据具有重要意义。以下是大数据如何使能业务创新、与业务结合并推动业务现代化的几个方面: 数据驱动决策:大数据分析可以帮助企业从海量数据中提取有价值的信息和洞察力,为决策提供支持。通过对历史数据和实时数
况下的数据和任务的持久性。 数据安全和合规性:在云上部署的大数据集群需要有严格的数据安全和合规性保障。采用适当的数据加密、身份验证、访问控制和数据隔离措施,以保护敏感数据免受潜在的安全威胁。 成本效益:在云上部署大数据集群时,需要考虑成本效益。云服务提供商可以提供弹性的计算和存储
大数据架构设计 设计原则 大数据集群设计 大数据任务调度平台设计 大数据参考架构 华为云大数据组件 父主题: 方案设计
大数据迁移 调研 设计 部署 迁移 验证 切换 保障 父主题: 采用实施
调研 大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。它包含如下三个模块,本节重点介绍的是大数据集群和大数据任务调度平台的迁移,大数据应用的迁移方法请参考应用迁移上云,本节只介绍差异部分。 大数据集群迁移:将大数据集群(包括存储
平台调研 大数据调研简介 大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。 图1 大数据调研的对象 大数据迁移需要调研4部分信息: 大数据平台调研,包括大数据集群、任务调度平台、数据流向。 数据调研,包括待迁移的数据类型、数据量、元数据、数据权限、数据更新频率等。
大数据任务调度平台设计 设计云上的大数据任务调度平台部署架构时,建议参考原则如下: 优先用大数据云服务:如果源端是自建的大数据任务调度平台和组件,在目标云平台上有对应的云服务,且功能、性能、兼容性都满足,经评估改造工作量很小,建议部署架构设计时,优先采用大数据云服务。如果目标云平
抽样内容对比。 数据验证方法 数据分为数据库数据、中间件数据和文件数据,这三种数据的一致性验证方法和工具不同: 数据库数据一致性验证的方法如下表所示。 表2 数据库一致性对比方式 对比项 工具 描述 库和表级内容对比 DRS工具 查询对比数据库表的每一条数据,确保每一条的每一个
图1 大数据的数据迁移顺序 元数据迁移 首先,进行元数据的迁移。元数据是描述数据的数据,包括数据结构、数据定义、数据关系等信息。在元数据迁移阶段,需要将原始数据的元数据信息导出,并在目标系统中重新建立或导入元数据,以确保目标系统能够正确理解和解析数据。 历史数据迁移 在元数据迁移完
大数据迁移批次规划说明 大数据迁移上云时,是选择整体迁移还是分批迁移,原则如下: 整体迁移的场景: 规模小:大数据平台数据量少(TB级),计算任务数量不多,可以采用整体迁移的方法,先在云上部署大数据平台,然后全量迁移元数据、数据和任务。 关联关系复杂:大数据任务之间的关联关系很复杂,很难拆分,此时也可以选择整体迁移。
验证 数据校验 数据库的对比方法有数据库内容对比、对象对比、行数对比,文件的对比方法有文件数量对比,大小对比,内容对比。具体的数据对比的方法请参考章节数据验证的内容。 任务验证 大数据任务迁移后,要确保作业能够正常运行、产生准确的结果,并且满足性能要求。一般从如下三方面验证: 验证作业执行的成功率
大数据任务调度软件,或者是使用华为云SMS工具将源端调度平台迁移到华为云ECS。 大数据应用部署 大数据应用的部署有2种方法,可以基于华为云ECS重新部署大数据应用,或者是使用华为云SMS工具将大数据应用迁移到华为云ECS。 平台权限配置 平台权限配置 在部署好目标大数据平台后,
将外部数据加载到Hive表各分区不是一件容易的事情。云数据迁移服务(CDM)可以轻松将外部数据源(关系数据库、对象存储服务、文件系统服务等)加载到Hive分区表。详细操作指导请参考官网文档。 MRS HDFS数据迁移到OBS CDM支持将MRS HDFS的数据迁移到OBS,详细操作指导请参考官网文档。
整集群大小和资源分配,以提高整体性能。 数据安全和权限管理:审查和加强数据的访问控制和权限管理机制。确保只有经授权的人员可以访问敏感数据,并采取适当的加密和脱敏措施保护数据安全。 自动化任务调度:确保大数据任务调度平台的运行和调度正常。优化调度策略,确保任务按时准确完成,并处理可能的故障或异常情况。
易用、高效的线上数据迁移服务,通过调用源端对象存储的SDK,可快速传输数据并对数据进行加密存储,将数据复制到华为云OBS,可以帮助把对象存储数据从其他云服务商对象存储服务中的数据轻松、平滑地迁移到华为云。通过第一次全量任务,将源端对象存储全量数据迁移至华为云OBS,业务切换时,在