检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
血缘采集概述 通过血缘采集,可以建立起数据元素之间的关系和依赖关系,从而形成一个清晰的数据血缘图。 目前支持血缘采集的文件类型以及采集须知,参见下表。 文件类型 采集须知 DataArts作业 需要提前导出DataArts作业到华为云OBS桶,并将桶的读写权限委托给迁移中心。 SQL作业
创建导入RVTools资源采集任务后,任务采集失败。 问题分析 RVTools资源采集任务失败通常是因为RVTools导出的Excel文件可能存在兼容性问题或格式错误。 解决方案 将RVTools导出的Excel文件在Windows操作系统上的Excel软件中打开。 在Excel中,将原有数据复制并粘贴到一个新的Excel文件中。
血缘采集概述 通过血缘采集,可以建立起数据元素之间的关系和依赖关系,从而形成一个清晰的数据血缘图。 目前支持血缘采集的文件类型以及采集须知,参见下表。 文件类型 采集须知 DataArts作业 需要提前导出DataArts作业到华为云OBS桶,并将桶的读写权限委托给迁移中心。 SQL作业
创建表组并添加数据表 将源端数据表加入表组中,为后续对数作业做准备。 使用须知 每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。
创建目的端连接 创建执行机连接 创建目的端云服务连接 创建目的端组件连接 父主题: 大数据校验
导出作业 本节介绍导出华为云DataArts作业和阿里云DataWorks作业的方法。 导出华为云DataArts作业 登录DataArts Studio控制台。 选择实例,单击“进入控制台”,选择对应工作空间。 单击“数据开发”,进入数据开发页面。 单击作业目录中的,选择“显示复选框”。
URL编码,因此元数据中包含中文标点符号时,将无法迁移成功。 英文字符、数字与中划线【-】:迁移过程中不需要进行编码转换,可以直接迁移。 异构迁移不支持元数据迁移。 归档数据 归档类型的对象存储要实现迁移,必须预先解冻,待解冻完成后再创建迁移工作流,解冻时请注意如下事项: 请务必在解冻完成后再创建迁移工作流。
手动添加资源 支持在应用内手动添加主机和Oracle数据库两种资源类型。通过在源端环境中安装Edge工具进行资源采集。 准备工作 在MgC控制台创建项目。 在源端内网环境安装Edge工具,并与迁移中心连接。 在Edge上添加源端资源凭证。 已在应用管理页面创建应用。 添加主机 登录迁移中心管理控制台。
Delta 数据量较大时,如何优化校验任务? 本文介绍当源端Delta数据量较大(如超过10000张表)时,如何使用MgC大数据校验功能进行一致性校验的方法。 操作步骤 参考创建元数据连接,创建第一个Delta元数据连接。 使用步骤1.创建的第一个元数据连接,创建元数据同步任务,将源端的元数据同步至迁移中心。
创建表组并添加数据表 将源端数据表加入表组中,为后续对数作业做准备。 使用须知 每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。
如何防止采集数据泄露? MgC通过以下方式确保采集数据的安全: 数据加密传输:采用加密技术来保护数据在传输过程中的安全 本地加密存储凭证:MgC Agent上的凭证信息都会经过加密处理后保存在本地,不会通过网络传输到云端。 本地数据采集与存储:通过MgC Agent线下采集的信息
新增大数据校验数据连接时,凭证列表数据缺失 问题描述 进行大数据校验,在新增连接时,凭证的下拉列表中没有数据或没有连接类型所对应的凭证。 问题分析 出现该问题,可能的原因如下: 凭证添加错误:在MgC Agent(原Edge)添加的凭证类型与新增连接所需的凭证类型不对应。 凭证同步失败:在MgC
数据源采集失败,如何重新采集? 采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 在任务列表页面,单击采集任务操作列的“查看”,进入任务详情页面。 单击采集项操作列的“新增数据源”,弹出新增数据源窗口。 选择区域和资源类型,单击“确认”按钮。新增数据源成功,系统开始对新增的数据源进行采集。
创建源端组件连接 对大数据组件数据进行一致性校验时,需要与大数据组件建立连接,用于数据查询。 目前支持创建源端连接的大数据组件包括: Doris HBase ClickHouse Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
查看血缘关系 前提条件 已创建血缘采集任务,且状态为“已完成”。 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。 在血缘采集区域,单击“查看血缘图”,进入血缘图页面。 通过数据库名、表名
自定义参数说明 在创建数据湖探索 DLI校验任务时,支持的自定义参数及说明参见表1。 表1 DLI校验任务支持的自定义参数说明 参数名称 默认值 描述 mgc.mc2dli.table.partition.enable true DLI表分区为空或者分区不存在时需要通过查询DLI的元数据去判断分区存不存在。
创建统计任务并执行校验 利用创建的源端连接和目的端连接,分别创建源端和目的端统计任务,获取源端和目的端的数据信息,以便于进行数据校验。 支持的大数据组件和统计方式说明请参见大数据校验概述。 注意事项 创建的源端统计任务和目的端统计任务的统计方式必须保持一致。 HBase安全集群任
手动添加资源 支持在应用内手动添加主机和Oracle数据库两种资源类型。通过在源端环境中安装MgC Agent(原Edge)进行资源采集。 准备工作 在MgC控制台创建项目。 在源端内网环境安装MgC Agent,并与迁移中心连接。 在MgC Agent上添加源端资源凭证。 已在应用管理页面创建应用。
查看血缘关系 前提条件 已创建血缘采集任务,且状态为“已完成”。 操作步骤 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。 在血缘采集区域,单击“查看血缘图”,进入血缘图页面。 通过数据库
创建源端组件连接 对大数据组件数据进行一致性校验时,需要与大数据组件建立连接,用于数据查询。 目前支持创建源端连接的大数据组件包括: Doris HBase ClickHouse Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)