检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
14:50(现在)的增量元数据。 MaxCompute参数(可选) 非必填参数,一般为空。如有需要可参考MaxCompute参数文档进行配置。 数据范围 按库筛选 即按数据库进行筛选,在数据库参数框中输入需要增量待迁移的数据库名称。单击“添加数据库”,可以新增数据库,最多支持同时添加10个数据库。
全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小时级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。在24小
校验方式说明 全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小时级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校
14:50(现在)的增量元数据。 须知: 增量区间任务仅会识别并同步在指定时间范围内发生变化的元数据。仅源端存在和仅目的端存在的元数据,都不会被同步或处理。 按库筛选 即按数据库进行筛选,在数据库参数框中输入需要增量待迁移的数据库名称。单击“添加数据库”,可以新增数据库,最多支持同时添加10个数据库。
测试连接通过后,单击“确认”按钮,创建云服务连接完成。 选择元数据管理,单击创建数据湖元数据同步任务按钮,右侧弹出创建任务-数据湖元数据同步窗口。 图4 创建数据湖元数据同步任务 根据表2,配置数据湖元数据同步任务参数后,单击“确认”按钮,创建数据湖元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明
DeltaLake(无元数据)迁移至MRS DeltaLake数据校验 本文主要介绍将自建DeltaLake环境上的数据迁移至华为云MRS DeltaLake之后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。 DeltaLake不存在元数据,无法通过数据湖元数据同步方式进行数据采集,需要通过导入数据的方式获取元数据信息。
创建并运行数据湖元数据同步任务 利用创建的Delta Lake元数据连接,将源端数据库的库、表、字段信息同步至迁移中心。仅Delta Lake(有元数据)支持创建数据湖元数据同步任务。 Delta Lake(无元数据)只能通过手动添加、导入模板等方式添加元数据库表信息,方法请参见查看元数据。
创建任务-数据湖元数据同步窗口。 图1 创建数据湖元数据同步任务 根据表1,配置数据湖元数据同步任务参数。 表1 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“数据湖元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。 元数据连接 选择已创建的D
非必填参数,一般为空。如有需要,可参考MaxCompute参数文档进行配置。 数据范围 按库筛选 即按数据库进行筛选,在数据库参数框中输入待迁移的数据库名称。单击“添加数据库”,可以新增数据库,最多支持同时添加10个数据库。 如果数据库中有不需要迁移的表,可以下载CSV格式的“排除表”模板,参考b
非必填参数,一般为空。如有需要,可参考MaxCompute参数文档进行配置。 数据范围 按库筛选 即按数据库进行筛选,在数据库参数框中输入待迁移的数据库名称。单击“添加数据库”,可以新增数据库,最多支持同时添加10个数据库。 如果数据库中有不需要迁移的表,可以下载CSV格式的“排除表”模板,参考b
Agent,注册用户并连接迁移中心。 步骤六:创建大数据迁移任务 完成步骤一到步骤五的操作,并了解大数据校验任务的使用须知后。按照以下步骤创建大数据数据迁移任务。 创建源端MaxCompute连接。 创建目的端DLI连接。 创建元数据迁移任务或数据迁移任务并执行。
测试连接通过后,单击“确认”按钮,创建云服务连接完成。 选择元数据管理,单击创建元数据同步任务按钮,右侧弹出创建任务-元数据同步窗口。 图4 创建元数据同步任务 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明
创建元数据连接 创建元数据来源类型的连接,获取源端大数据库表清单。 目前支持的连接类型,参见表1。 表1 支持的元数据连接类型 类别 连接类型 大数据组件 Hive Metastore Doris HBase ClickHouse Delta Lake(有元数据) Delta Lake(无元数据)
MySQL节点IP:输入MySQL数据库服务器的IP地址。 MySQL服务端口:输入MySQL数据库服务的端口号。 数据库名:输入存储Hive表元数据的数据库名称。 说明: 请确保填写的MySQL凭证、节点IP、服务端口和数据库名与Hive实际使用的MySQL数据库相匹配,否则会导致数据校验失败。 表3
测试连接通过后,单击“确认”按钮,创建云服务连接完成。 选择元数据管理,单击创建元数据同步任务按钮,右侧弹出创建任务-元数据同步窗口。 图4 创建元数据同步任务 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明
如何防止采集数据泄露? MgC通过以下方式确保采集数据的安全: 数据加密传输:采用加密技术来保护数据在传输过程中的安全 本地加密存储凭证:MgC Agent上的凭证信息都会经过加密处理后保存在本地,不会通过网络传输到云端。 本地数据采集与存储:通过MgC Agent线下采集的信息
Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” 问题描述 对Hive进行大数据校验,校验任务执行成功,查看校验结果,发现部分字段的“源端数据”和“目的端数据”显示为“0”或“-1”。 问题分析 出现该问题可能是因为数值超出了Hive支持的数值范围。 在数据处理中,如果遇到
也可以自定义名称。 元数据连接 根据实际需求,选择已创建的元数据连接类型。 数据库 填写需要进行元数据同步的数据库名称。 须知: 元数据连接为MaxCompute类型时,该参数为必填参数,不能为空。其他元数据连接类型,该参数为可选参数,不填则代表同步全部数据库。 并发线程数 设置
归档存储(冷存储)数据迁移 背景概述 冷存储是一种针对不频繁访问数据的长期备份解决方案,例如,平均一年访问一次的归档存储或平均几年访问一次的深度归档存储。这种存储方式具有高安全性、持久性和成本低等优势。 在迁移冷存储数据时,一个主要的考虑因素是数据访问的延迟。由于数据通常处于"冻结"
图4 创建元数据同步任务 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤12