检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小时级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。在24小
元数据增量感知 识别出上一次迁移后,在源端数据库中发生变化的元数据,并同步至目的端华为云数据湖探索(DLI)。 前提条件 已创建源端连接。 已创建目的端连接。 最少完成一次元数据全量迁移。 准备工作 开通spark 3.3.1白名单 使用该功能前,请联系技术支持人员,将您添加到spark
创建元数据连接 创建元数据来源类型的连接,获取源端大数据库表清单。 目前支持的连接类型,参见表1。 表1 支持的元数据连接类型 类别 连接类型 大数据组件 Hive Metastore Doris HBase ClickHouse Delta Lake(有元数据) Delta Lake(无元数据)
MgC利用部署在源端网络中的Edge设备完成数据采集。 数据采集架构图,如图1所示。 图1 Edge远程在线采集架构图 通过调用API在线采集云平台资源 适用于公有云部署场景,针对不同云服务提供商(友商)的云资源进行数据采集。使用API接口与其它云服务提供商的系统进行交互,实现数据的在线采集。不需要在源端网络中安装Edge设备。
采集元数据 创建元数据连接 创建并运行元数据同步任务 创建并运行数据湖元数据同步任务 查看元数据 父主题: 大数据血缘
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
大数据血缘 部署迁移工具Edge 采集元数据 血缘采集
大数据校验 Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” Hive校验的sum统计结果显示未达标 DLI校验任务出现大量失败表 Delta 数据量较大时,如何优化校验任务?
元数据全量迁移 将源端数据库中的所有元数据迁移到华为云数据湖探索(DLI) 。 元数据迁移不支持事务表(即DDL中带有transactional=true字段的表)。 前提条件 已完成所有准备工作。 已创建源端连接。 已创建目的端连接。 操作步骤 登录迁移中心控制台。 在左侧导航
大数据校验 大数据校验概述 准备工作 创建源端连接 创建表组并添加数据表 创建目的端连接 创建统计任务并执行校验 查看并导出校验结果 自定义参数说明
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
提供了一个批量修改的脚本示例。您可以利用这个脚本,快速地将域名解析IP批量追加写入到所有源端主机的hosts文件中。 脚本说明 脚本是基于Powershell语言开发,仅支持在Windows系统上运行,实现对源端待迁移Windows主机的Hosts文件的批量更新和批量恢复。Hos
我们提供了一个批量修改的脚本示例。您可以利用这个脚本,快速地将域名解析IP批量推送到所有源端主机的hosts文件中。 脚本说明 脚本是基于Shell语言开发,仅支持在Linux系统上运行,实现对源端待迁移Linux主机的/etc/hosts文件的批量更新和批量恢复。 脚本执行限
选择HBase的版本。 在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
批量修改与还原源端Linux主机的Host配置 概述 准备工作 配置脚本 父主题: 主机迁移相关最佳实践
批量修改与还原源端Windows主机的Host配置 概述 准备工作 脚本示例 常见问题 父主题: 主机迁移相关最佳实践
大批量主机同时迁移时,可能出现的异常问题 大批量主机迁移时,会频繁调用API接口,API接口压力过大从而导致部分步骤报错,卡点后的步骤建议尽量分批次确定,或者重试即可。 大批量主机迁移时,可能会导致通信通道阻塞,无法正常显示工作流状态。 父主题: 主机迁移工作流
也可以自定义名称。 元数据连接 根据实际需求,选择已创建的元数据连接类型。 数据库 填写需要进行元数据同步的数据库名称。 须知: 元数据连接为MaxCompute类型时,该参数为必填参数,不能为空。其他元数据连接类型,该参数为可选参数,不填则代表同步全部数据库。 并发线程数 设置