检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大数据集群设计 设计云上的大数据集群部署架构时,建议参考原则如下: 优先用大数据云服务:如果源端是自建的大数据集群,在目标云平台上有对应的云服务,且功能、性能、兼容性都满足,经评估改造工作量很小,建议设计大数据集群部署架构时,优先采用大数据云服务。如果目标云平台上没有对应的大数据
数据架构师:由IT主管指派,来自IT部门的大数据团队,负责设计企业在云上的数据架构,包括数据存储、数据处理、数据集成和数据治理。 应用架构师:由业务主管指派,来自业务部门的应用团队,负责设计和管理业务系统在云上的应用架构,包括应用的架构模式、技术选型、部署方式等,确保应用的性能、可扩展性、安全性和可靠性。
大数据任务调度平台设计 设计云上的大数据任务调度平台部署架构时,建议参考原则如下: 优先用大数据云服务:如果源端是自建的大数据任务调度平台和组件,在目标云平台上有对应的云服务,且功能、性能、兼容性都满足,经评估改造工作量很小,建议部署架构设计时,优先采用大数据云服务。如果目标云平
华为云大数据组件 常用的华为云大数据服务组件如下,设计大数据部署架构时可参考: MapReduce服务(MapReduce Service,简称MRS) MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群,完全兼容开源接口,轻松运行Hadoop、
社交媒体等各种数据源。通过数据采集和提取,将原始数据收集到大数据平台进行后续处理和分析。 数据集成: 数据集成是将来自不同数据源的数据进行整合和转换的过程。这包括数据清洗、数据预处理、数据格式转换、数据合并等操作,以确保数据的一致性和准确性。 数据存储: 大数据平台需要具备高效的
大数据架构设计 设计原则 大数据集群设计 大数据任务调度平台设计 大数据参考架构 华为云大数据组件 父主题: 方案设计
大数据 大数据是指规模庞大且复杂的数据集合,对于企业来说,如何收集、存储和分析大数据具有重要意义。以下是大数据如何使能业务创新、与业务结合并推动业务现代化的几个方面: 数据驱动决策:大数据分析可以帮助企业从海量数据中提取有价值的信息和洞察力,为决策提供支持。通过对历史数据和实时数
大数据迁移批次规划说明 大数据迁移上云时,是选择整体迁移还是分批迁移,原则如下: 整体迁移的场景: 规模小:大数据平台数据量少(TB级),计算任务数量不多,可以采用整体迁移的方法,先在云上部署大数据平台,然后全量迁移元数据、数据和任务。 关联关系复杂:大数据任务之间的关联关系很复杂,很难拆分,此时也可以选择整体迁移。
方案设计 概述 组建方案设计团队 基础环境设计 应用架构设计 大数据架构设计 制定6R策略 设计标签方案 上云试点 批次规划 成本预算计划 方案设计的反模式
平台调研 大数据调研简介 大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。 图1 大数据调研的对象 大数据迁移需要调研4部分信息: 大数据平台调研,包括大数据集群、任务调度平台、数据流向。 数据调研,包括待迁移的数据类型、数据量、元数据、数据权限、数据更新频率等。
华为云上的绝大部分云服务都具备高可用性的方案,提供了从数据中心、硬件、数据、自助服务等多个层次的高可用性构建能力。华为云数据中心布局于全球,可以满足不同地域(Region)的资源需求,每个地域又分多个可用区(AZ),可用区之间的风火水电相互独立,可用区之间的故障相互隔离。企业可在此基础上构建如下场景的高可用体系:
数据层迁移方案 数据层主要负责业务数据的持久化,为上层业务逻辑的实现提供数据支持,数据层包括两类数据,结构化数据和非结构化数据。结构化数据包含各类数据库,例如MySQL数据库、MongoDB数据库等,非结构化数据包含对象存储、各类文件存储等。 结构化数据迁移方案 结构化数据,主要
TB 数据分层 调研数据分层主要用于迁移优先级和数据校验标准。 数据接入层、中间层、结果层 数据权限 根据源端数据权限控制组件的不同,选择不同的权限数据迁移方式 Sentry、Ranger等 数据重要性 调研数据重要性的目的是区分核心数据和非核心数据,用于迁移优先级和数据校验标准。
设计原则 大数据的部署架构设计包括大数据集群、大数据任务调度平台和大数据应用,其中大数据应用的部署架构请参考应用架构设计。 图1 大数据架构设计分类 大数据架构设计同样要考虑架构设计的6要素: 成本 可用性 安全性 可扩展性 可运维性 性能 图2 架构设计6要素 父主题: 大数据架构设计
设计 大数据在云上的部署架构设计请参考大数据架构设计,本节不再赘述。这里重点介绍数据迁移方案和任务迁移方案的设计。 设计数据迁移方案 大数据的数据迁移涉及到3类数据,如下表: 表1 大数据迁移的三类数据 分类 说明 元数据 Hive元数据或外置元数据 存量数据 历史数据,短期内不会变化
调研 大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。它包含如下三个模块,本节重点介绍的是大数据集群和大数据任务调度平台的迁移,大数据应用的迁移方法请参考应用迁移上云,本节只介绍差异部分。 大数据集群迁移:将大数据集群(包括存储
部署 大数据平台部署 大数据平台的部署可以参考如下方法: 大数据集群部署 基于架构设计的原则,云上大数据集群一般采用云服务。华为云MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的企业级大数据集群云服务,轻松运行Hado
和迁移时,和关键人员及时沟通。 任务依赖关系 识别关键任务,识别任务间依赖关系。 调研的方法主要是通过当前大数据平台获取,并辅助一些调研访谈进行补充和确认。 父主题: 大数据调研
环境的设计进行适配即可。 大数据架构设计:大数据的部署架构设计包括大数据集群部署架构设计、大数据任务调度平台部署架构设计和大数据应用部署架构设计,其中大数据应用的部署架构可以参考应用部署架构的设计方法。大数据架构设计同样要考虑架构设计的6要素。 在做云上架构设计时,企业可以参考T
迁移 数据迁移 Hadoop数据迁移到华为云MRS服务 如图所示,将IDC机房或者其他公有云的Hadoop集群中的数据迁移到华为云MRS服务。详细操作指导请参考官网文档。 图1 Hadoop数据迁移 HBase数据迁移到华为云MRS服务 将IDC机房或其他公有云的HBase集群中的