检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建并运行元数据同步任务 利用元数据连接,创建元数据同步任务,将源端数据库的库、表、字段信息同步至迁移中心。
阿里云EMR ClickHouse迁移至MRS ClickHouse数据校验 本文主要介绍将阿里云EMR ClickHouse数据迁移至华为云MRS ClickHouse后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。
创建表组并添加数据表 将源端数据表加入表组中,为后续对数作业做准备。 使用须知 每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。
MRS Hive/CDH/EMR迁移至MRS Hive数据校验 本文主要介绍MRS Hive版本间数据迁移以及将自建CDH/EMR环境上的数据迁移至华为云MRS Hive之后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。
在数据处理中,如果遇到极大值或极小值,Hive可能无法以标准数值格式表示这些极端数值,而是将它们显示为 “Infinity”(表示无限大)或 “-Infinity”(表示无限小)。这些值并不是有效的数字,因此在进行数值转换或计算时,可能会引发异常。
创建表组并添加数据表 将源端数据表加入表组中,为后续对数作业做准备。 使用须知 每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。
父主题: 大数据数据迁移
大数据-Hive Metastore凭证文件获取方法 参考访问FusionInsight Manager登录Manager,进入系统页面。 在左侧导航栏,选择“权限>用户”,进入用户页面。
在ECS资源充足且表数量非常多的情况下,增加元数据连接的数量可以提高数据校验的效率。 为避免数据重复,除了步骤1.创建的第一个元数据连接以外,新增的元数据连接不需要创建同步任务进行元数据采集。 参考创建表组并添加数据表,将源端数据表加入表组中。
迁移中心 MgC利用部署在源端网络中的MgC Agent完成数据采集。 数据采集架构图,如图1所示。 图1 MgC Agent远程在线采集架构图 通过调用API在线采集云平台资源 适用于公有云部署场景,针对不同云服务提供商(友商)的云资源进行数据采集。
元数据迁移不支持事务表(即DDL中带有transactional=true字段的表)。 由于阿里云最近更新了timestamp_ntz字段类型,目前该字段类型尚未被阿里云SDK所兼容支持,这一兼容性问题导致SDK无法识别并读取该字段,从而使该字段所在的表元数据迁移失败。
阿里云凭证 选择完成准备工作时,在Edge侧添加的阿里云(AK/SK)凭证。 项目名称 输入待迁移数据所在的MaxCompute项目名称。项目名称可在MaxCompute控制台的项目管理中获取。
数据湖DLI凭证输入目的端华为云账号的AK/SK。 创建OBS桶并上传jar包 在华为云OBS创建一个存储桶,并将数据迁移过程中所依赖的 Java 文件(jar包)上传至该OBS桶。创建OBS桶的方法请参考创建桶。上传文件的方法请参考上传对象。
元数据迁移不支持事务表(即DDL中带有transactional=true字段的表)。 由于阿里云最近更新了timestamp_ntz字段类型,目前该字段类型尚未被阿里云SDK所兼容支持,这一兼容性问题导致SDK无法识别并读取该字段,从而使该字段所在的表元数据迁移失败。
父主题: 大数据数据迁移
创建目的端连接 创建目的端连接是为了将源端数据写入到华为云DLI。 使用须知 元数据迁移:只需要配置一条连接到DLI SQL队列的连接。 数据迁移:需要配置两条连接,分别为连接到DLI SQL队列的连接和连接到DLI通用队列的连接。 前提条件 已完成准备工作。
迁移实施 元数据全量迁移 元数据增量感知 全量数据迁移 增量数据迁移 父主题: 大数据数据迁移
阿里云凭证 选择完成准备工作时,在MgC Agent侧添加的阿里云(AK/SK)凭证。 项目名称 输入待迁移数据所在的MaxCompute项目名称。项目名称可在MaxCompute控制台的项目管理中获取。
通过列表上方的搜索框可以对任务执行结果进行过滤,如有过滤,则只导出过滤后的数据。 图1 导出执行结果 单击“导出管理”按钮,右侧弹出导出管理窗口。 当导出进度为导出成功后,单击操作列的“下载”,可以将导出结果下载到本地。 图2 下载导出结果 父主题: 大数据数据迁移