大数据数据迁移(MaxCompute迁移到DLI) 大数据迁移概述 使用须知 准备工作 创建源端连接 创建目的端连接 创建迁移任务 查看并导出执行结果 自定义参数说明 父主题: 新版
默认创建名称为“MaxCompute-4位随机数(字母和数字)”,也可以自定义名称。 迁移工具 选择在源端环境中部署的迁移工具Edge。 阿里云凭证 选择源端阿里云账号的凭证。凭证的添加方式请参考添加资源凭证,类型选择“大数据-MaxCompute”。 项目名称 输入需要采集的MaxCompu
也可以自定义名称。 迁移中心Agent 选择在完成准备工作时与迁移中心连接成功的MgC Agent。 阿里云凭证 选择完成准备工作时,在MgC Agent侧添加的阿里云(AK/SK)凭证。 项目名称 输入待迁移数据所在的MaxCompute项目名称。项目名称可在MaxCompute控制台的项目管理中获取。
式完成大数据迁移和对数的操作方法。本文以阿里云作为源端,MgC Agent安装在阿里云ECS进行举例。 步骤一:配置华为云VPN 参考站点入云VPN企业版的华为云控制台操作步骤,分别配置VPN网关、对端网关以及VPN连接。 登录华为云管理控制台,选择“网络 > 虚拟专用网络 VPN”。
香港”,则填写“http://dt.cn-hongkong.maxcompute.aliyun-inc.com” 迁移选项 大表规则 设置大表条件,当符合大表的条件时,将自动按分区拆分迁移子任务。建议保持默认,也可根据实际需求修改。 小表规则 设置小表条件,当符合小表的条件时,自
创建目的端连接 创建目的端连接是为了将源端数据写入到华为云DLI。 使用须知 元数据迁移:只需要配置一条连接到DLI SQL队列的连接。 数据迁移:需要配置两条连接,分别为连接到DLI SQL队列的连接和连接到DLI通用队列的连接。 前提条件 已完成准备工作。 操作步骤 登录迁移中心控制台。
创建表组并添加数据表 将源端数据表加入表组中,为后续对数作业做准备。 使用须知 每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。
创建血缘采集任务 前提条件 已完成元数据采集。 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。 在血缘采集区域,单击“创建任务”,弹出创建血缘采集任务窗口。 根据实际作业类型,选择文件类型并配置对应参数。
收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。 须知: 使用该功能,需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限(ReadOnly)。 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证
DLI校验任务出现大量失败表 问题描述 创建并执行DLI校验任务时,出现大量失败表,查看MgC Agent(原Edge)日志报错信息如下: 问题分析 出现该问题可能是因为请求已达到接口流控上限。 解决方法 请联系技术支持,提高接口流控的阈值。 父主题: 大数据校验
查看血缘关系 前提条件 已创建血缘采集任务,且状态为“已完成”。 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。 在血缘采集区域,单击“查看血缘图”,进入血缘图页面。 通过数据库名、表名
创建源端组件连接 对大数据组件数据进行一致性校验时,需要与大数据组件建立连接,用于数据查询。 目前支持创建源端连接的大数据组件包括: Doris HBase ClickHouse Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
元数据全量迁移 将源端数据库中的所有元数据迁移到华为云数据湖探索(DLI) 。 元数据迁移不支持事务表(即DDL中带有transactional=true字段的表)。 前提条件 已完成所有准备工作。 已创建源端连接。 已创建目的端连接。 操作步骤 登录迁移中心控制台。 在左侧导航
香港”,则填写“http://dt.cn-hongkong.maxcompute.aliyun-inc.com” 迁移选项 大表规则 设置大表条件,当符合大表的条件时,将自动按分区拆分迁移子任务。建议保持默认,也可根据实际需求修改。 小表规则 设置小表条件,当符合小表的条件时,自
数据迁移失败,提示超过DLI网管流控上限 问题描述 进行大数据数据迁移失败,在数据湖探索的Spark作业查看报错信息为:The throttling thershold has been reached 问题分析 出现该问题,是因为您创建的资源数量已达到DLI服务流控限制阈值。 解决方法
创建目的端连接 创建执行机连接 创建目的端云服务连接 创建目的端组件连接 父主题: 大数据校验
创建目的端连接 创建目的端连接是为了将源端数据写入到华为云DLI。 使用须知 元数据迁移:只需要配置一条连接到DLI SQL队列的连接。 数据迁移:需要配置两条连接,分别为连接到DLI SQL队列的连接和连接到DLI通用队列的连接。 前提条件 已完成准备工作。 操作步骤 登录迁移
Delta 数据量较大时,如何优化校验任务? 本文介绍当源端Delta数据量较大(如超过10000张表)时,如何使用MgC大数据校验功能进行一致性校验的方法。 操作步骤 参考创建元数据连接,创建第一个Delta元数据连接。 使用步骤1.创建的第一个元数据连接,创建元数据同步任务,将源端的元数据同步至迁移中心。
香港”,则填写“http://dt.cn-hongkong.maxcompute.aliyun-inc.com” 迁移选项 大表规则 设置大表条件,当符合大表的条件时,将自动按分区拆分迁移子任务。建议保持默认,也可根据实际需求修改。 小表规则 设置小表条件,当符合小表的条件时,自
创建迁移任务 元数据全量迁移 元数据增量感知 全量数据迁移 增量数据迁移 父主题: 大数据数据迁移(MaxCompute迁移到DLI)
您即将访问非华为云网站,请注意账号财产安全