检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
保障 在大数据迁移的保障阶段,需要执行以下任务来确保顺利过渡到新的云环境: 监控和警报设置:建立实时监控系统,监测集群、任务调度平台和应用程序的运行状态。设置警报,以便及时发现潜在的问题并采取措施。 优化集群性能:对大数据集群进行性能评估和调优。监视资源使用情况,优化配置参数、调整集群大小和资源分配,以提高整体性能。
数据调研 数据调研主要包括如下方面: 表1 数据调研方法表 调研内容 调研目的 举例 数据类型 根据数据类型选择合适的迁移工具 HDFS、HBase、MySQL等 数据量 历史数据量,用于评估历史数据迁移周期; 日增量数据,用于评估每日增量数据同步周期。 历史数据X PB 日增量Y
大数据 大数据是指规模庞大且复杂的数据集合,对于企业来说,如何收集、存储和分析大数据具有重要意义。以下是大数据如何使能业务创新、与业务结合并推动业务现代化的几个方面: 数据驱动决策:大数据分析可以帮助企业从海量数据中提取有价值的信息和洞察力,为决策提供支持。通过对历史数据和实时数
部署 大数据平台部署 大数据平台的部署可以参考如下方法: 大数据集群部署 基于架构设计的原则,云上大数据集群一般采用云服务。华为云MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的企业级大数据集群云服务,轻松运行Hado
JAR类任务 所有Jar类任务都需要根据云上集群版本重新编译jar包,适配云上环境 SQL类任务 同版本: Hive大版本相同,可平迁SQL类任务 不同版本:Hive大版本不同,先平迁SQL类任务,然后根据版本语法变动,微调SQL语句以适配云上版本语法 脚本类任务 (Python、Shell)
迁移 数据迁移 Hadoop数据迁移到华为云MRS服务 如图所示,将IDC机房或者其他公有云的Hadoop集群中的数据迁移到华为云MRS服务。详细操作指导请参考官网文档。 图1 Hadoop数据迁移 HBase数据迁移到华为云MRS服务 将IDC机房或其他公有云的HBase集群中
验证 数据校验 数据库的对比方法有数据库内容对比、对象对比、行数对比,文件的对比方法有文件数量对比,大小对比,内容对比。具体的数据对比的方法请参考章节数据验证的内容。 任务验证 大数据任务迁移后,要确保作业能够正常运行、产生准确的结果,并且满足性能要求。一般从如下三方面验证: 验证作业执行的成功率
大数据调研 平台调研 数据调研 任务调研 父主题: 调研评估
切换 大数据的切换主要是指大数据应用的切换,其切换演练和正式切换的步骤请参考章节切换。本节重点介绍大数据应用切换的3个切换点,以便更好的指导大数据应用的切换。 双跑场景:大数据应用分别在源环境和目标环境各部署一套,实现双跑,切换点在域名,业务切换时只需要进行域名的切换,将业务流量切换到新应用。
Checklist参考样例 大类 前置工作项 责任部门 活动 是否涉及 是否完成 计划完成时间 责任人 组织和保障准备 - 项目经理 - 是 - - - - 项目经理 - 是 - - - 第三方/业态 - 业务相关 - 是 - - - 环境清单核对 应用清单检查并刷新启停 研发相关 -
运营模式还包括组织结构、运营流程、角色和职责等要素。简单来讲,IT运营模式是指IT部门如何运作的方式。传统的IT运营模式侧重于部署在自建数据中心或IDC机房的IT基础设施,包括IT硬件和虚拟化等基础软件,企业通常需要一次性购买IT硬件和基础软件资产,支撑业务系统的安全稳定运行。I
平台调研 大数据调研简介 大数据迁移是指将大数据集群、大数据任务调度平台和大数据应用从一个运行环境迁移到另一个运行环境的过程。 图1 大数据调研的对象 大数据迁移需要调研4部分信息: 大数据平台调研,包括大数据集群、任务调度平台、数据流向。 数据调研,包括待迁移的数据类型、数据量、元数据、数据权限、数据更新频率等。
任务调研 任务调研主要包括如下方面: 表1 任务调研方法表 调研内容 描述 任务调度 如Azkaban、DolphinScheduler,Hera、Crontab等。 任务类型 基于编程语言分类: Jar类:常用于MRS、Flink、Spark等 SQL类: 常用于Hive、Spark、UDF等
身份和权限设计 华为云基于大量成功交付的项目,总结提炼了以下用户和权限管理的最佳实践。 集中身份和权限管理 企业自己的身份管理系统能更好更及时地匹配员工的入职、转岗和离职流程,避免转岗和离职人员继续拥有访问华为云的访问权限。建议您使用企业自己的身份管理系统与华为云IAM身份中心(IAM
大数据架构设计 设计原则 大数据集群设计 大数据任务调度平台设计 大数据参考架构 华为云大数据组件 父主题: 方案设计
团队是确保项目成功的关键。该团队将负责执行上云计划和具体的上云实施工作,保障各项上云任务的顺利进行。上云实施团队应由来自不同领域的专业人员组成,企业可以参考前述的CCoE组织架构和角色职责,组建出一个全面且专业的上云实施团队,以下为必要的团队成员。 项目经理:来自项目管理办公室(
设计原则 大数据的部署架构设计包括大数据集群、大数据任务调度平台和大数据应用,其中大数据应用的部署架构请参考应用架构设计。 图1 大数据架构设计分类 大数据架构设计同样要考虑架构设计的6要素: 成本 可用性 安全性 可扩展性 可运维性 性能 图2 架构设计6要素 父主题: 大数据架构设计
大数据迁移批次规划说明 大数据迁移上云时,是选择整体迁移还是分批迁移,原则如下: 整体迁移的场景: 规模小:大数据平台数据量少(TB级),计算任务数量不多,可以采用整体迁移的方法,先在云上部署大数据平台,然后全量迁移元数据、数据和任务。 关联关系复杂:大数据任务之间的关联关系很复杂,很难拆分,此时也可以选择整体迁移。
接入层:为外部访问提供了访问入口,云上业务部署在VPC私有网络中,与外部网络是隔离的,当外部需要访问VPC业务时,通常可以通过如下两种方式: 专线:云专线是搭建用户本地数据中心/其他云厂商与云上虚拟私有云(Virtual Private Cloud,VPC)之间高速、低时延、稳定安全的专属连接通道。可以让用户通
为云Organizations服务构建一个清晰、有序、易于管理的云上组织架构,然后将企业的不同业务单元(如子公司、业务系统、产品线、部门、项目等)部署在各自独立的云账号中。这种方式不仅能够与公司现有的治理架构完美匹配,还能够实现高效的故障和安全隔离,将单个业务单元的故障和风险限制