检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建元数据连接 创建元数据来源类型的连接,获取源端大数据库表清单。 目前支持的连接类型,参见表1。 表1 支持的元数据连接类型 类别 连接类型 大数据组件 Hive Metastore Doris HBase ClickHouse Delta Lake(有元数据) Delta Lake(无元数据)
已在源端元数据来源的环境中部署迁移中心Agent。 操作步骤 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。 在元数据采集区域,单击“创建连接”,右侧弹出创建连接窗口。 选择连接类型,单击“下一步”,进入详细配置页面。
创建血缘采集任务 前提条件 已完成元数据采集。 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。 在血缘采集区域,单击“创建任务”,弹出创建血缘采集任务窗口。 根据实际作业类型,选择文件类型并配置对应参数。
配置权限的方法参考为RAM用户授权。 (可选)如果迁移的元数据存在分区表,需要为迁移账号开通Information Schema权限,方法请参考RAM用户访问授权。 创建大数据迁移项目 在MgC控制台为本次迁移创建独立的项目,方法请参考项目管理。 配置委托权限与服务授权 为了确保正常使用DLI的功能,需要配置一
该参数设置为false: 不管子查询中数据重复与否,执行关联子查询时,都需要对子查询的结果去重,比如max(),min(),否则提示异常。 父主题: 大数据校验
Spark应用的Driver内存,参数配置例如:2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必须带单位,否则会启动失败。 父主题: 大数据数据迁移
在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。首次使用大数据校验功能时,需要先选择并启用迁移中心Agent。单击“选择并启用迁移中心Agent”按钮,弹出选择迁移中心Agent窗口。在下拉列表中,选择步骤3.与迁移中心连接成功的MgC Agent。 在进行大数据校验时,请确保MgC
已完成准备工作。 已创建源端连接。 创建表组 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。 在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。 在功能入口区域,单击“表管理”,进入表管理页面的表组页签。 单击“新增表组”,弹出新增表组窗口。
果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据) Hudi(无元数据) 需要确保源端和目的端执行机都安装了大数据组件的命令行客户端。 源端和目的端执行机均需要创建连接。
源端和目的端执行机均需要创建连接。 操作步骤 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。 在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。 在功能入口区域,单击“连接管理”,进入连接管理页面。 单击页面右上角的“新增连接”,右侧弹出新增连接窗口。
在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。首次使用大数据校验功能时,需要先选择并启用迁移中心Agent。单击“选择并启用迁移中心Agent”按钮,弹出选择迁移中心Agent窗口。在下拉列表中,选择步骤3.与迁移中心连接成功的MgC Agent。 在进行大数据校验时,请确保MgC
数据量和内容上一致。 前提条件 已完成准备工作。 已创建源端连接。 创建表组 登录迁移中心管理控制台。 在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。在页面左上角的当前项目下拉列表中选择迁移项目。 在功能入口区域,单击“表管理”,进入表管理页面的表组页签。 单击“新增表组”,弹出新增表组窗口。
创建目的端组件连接 对大数据组件数据进行一致性校验时,需要与大数据组件建立连接,用于数据查询。 目前支持创建连接的大数据组件包括: Doris HBase ClickHouse Hive Metastore 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“实施>大数据校验”,进入大数据校验
创建目的端组件连接 对大数据组件数据进行一致性校验时,需要与大数据组件建立连接,用于数据查询。 目前支持创建连接的大数据组件包括: Doris HBase ClickHouse Hive Metastore 操作步骤 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。
数值(如2.0)可能会导致数值溢出,使得结果保持不变。这是double类型在处理极大数值时溢出的常见现象。 父主题: 大数据校验
在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。首次使用大数据校验功能时,需要先选择并启用迁移中心Agent。单击“选择并启用迁移中心Agent”按钮,弹出选择迁移中心Agent窗口。在下拉列表中,选择步骤3.与迁移中心连接成功的MgC Agent。 在进行大数据校验时,请确保MgC
Delta 数据量较大时,如何优化校验任务? 本文介绍当源端Delta数据量较大(如超过10000张表)时,如何使用MgC大数据校验功能进行一致性校验的方法。 操作步骤 参考创建元数据连接,创建第一个Delta元数据连接。 使用步骤1.创建的第一个元数据连接,创建元数据同步任务,将源端的元数据同步至迁移中心。
数据迁移失败,提示超过DLI网管流控上限 问题描述 进行大数据数据迁移失败,在数据湖探索的Spark作业查看报错信息为:The throttling thershold has been reached 问题分析 出现该问题,是因为您创建的资源数量已达到DLI服务流控限制阈值。 解决方法
已完成准备工作。 操作步骤 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择在完成准备工作时创建的大数据迁移项目。 在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。 单击页面右上角的“连接管理”按钮,进入连接管理页面。 单击页面右上角的“创建目的端连接”按钮,右侧弹出新增连接窗口。
据。 前提条件 已创建元数据连接。 操作步骤 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。 在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据表1,配置元数据同步任务参数。