检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建目的端连接 创建执行机连接 创建目的端云服务连接 创建目的端组件连接 父主题: 大数据校验
部署迁移工具Edge 使用迁移中心的大数据血缘功能前,需要先在可以访问源端元数据来源的环境中部署迁移工具Edge。 迁移工具Edge不具备自动重启功能,严禁在任务执行期间重启Edge,以避免任务失败。 操作步骤 安装Edge的方法请参考下载并安装Edge。 安装成功后,将Edge
元数据全量迁移 将源端数据库中的所有元数据迁移到华为云数据湖探索(DLI) 。 元数据迁移不支持事务表(即DDL中带有transactional=true字段的表)。 前提条件 已完成所有准备工作。 已创建源端连接。 已创建目的端连接。 操作步骤 登录迁移中心控制台。 在左侧导航
创建目的端连接 创建执行机连接 创建目的端云服务连接 创建目的端组件连接 父主题: 大数据校验
致? MgC主机工作流的迁移进度和SMS任务的迁移进度不一致是因为两者的步骤划分和计算进度的方式不同。SMS任务的迁移总进度是根据具体的任务阶段来划分的,而MgC主机工作流则是通过一个更简单的计算方法来估算进度。 SMS迁移任务总进度划分 SMS任务迁移总进度分为以下几个阶段:
默认创建名称为“MaxCompute-4位随机数(字母和数字)”,也可以自定义名称。 迁移工具 选择在源端环境中部署的迁移工具Edge。 阿里云凭证 选择源端阿里云账号的凭证。凭证的添加方式请参考添加资源凭证,类型选择“大数据-MaxCompute”。 项目名称 输入需要采集的MaxCompu
式。 元数据迁移不支持事务表(即DDL中带有transactional=true字段的表)。 由于阿里云最近更新了timestamp_ntz字段类型,目前该字段类型尚未被阿里云SDK所兼容支持,这一兼容性问题导致SDK无法识别并读取该字段,从而使该字段所在的表元数据迁移失败。 在
查看并导出执行结果 每运行一次迁移任务,即会生成一条任务实例。在任务实例的进度详情页面,可以查看并导出任务的执行结果。 导出的结果文件可以在生成的15天内下载,15天后自动删除。 前提条件 已创建迁移任务并运行。 操作步骤 在任务进度列表,单击进度统计列的“查看”,进入进度详情页面。
参见下表。 文件类型 采集须知 DataArts作业 需要提前导出DataArts作业到华为云OBS桶,并将桶的读写权限委托给迁移中心。 SQL作业 需要提前导出SQL作业,并上传到华为云OBS桶,再将桶的读写权限委托给迁移中心。 血缘模板 需要下载血缘模板,并填写相应数据。 父主题:
创建迁移任务 元数据全量迁移 元数据增量感知 全量数据迁移 增量数据迁移 父主题: 大数据数据迁移(MaxCompute迁移到DLI)
也可以自定义名称。 迁移中心Agent 选择在完成准备工作时与迁移中心连接成功的MgC Agent。 阿里云凭证 选择完成准备工作时,在MgC Agent侧添加的阿里云(AK/SK)凭证。 项目名称 输入待迁移数据所在的MaxCompute项目名称。项目名称可在MaxCompute控制台的项目管理中获取。
式完成大数据迁移和对数的操作方法。本文以阿里云作为源端,MgC Agent安装在阿里云ECS进行举例。 步骤一:配置华为云VPN 参考站点入云VPN企业版的华为云控制台操作步骤,分别配置VPN网关、对端网关以及VPN连接。 登录华为云管理控制台,选择“网络 > 虚拟专用网络 VPN”。
查看血缘关系 前提条件 已创建血缘采集任务,且状态为“已完成”。 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。 在血缘采集区域,单击“查看血缘图”,进入血缘图页面。 通过数据库名、表名
创建源端组件连接 对大数据组件数据进行一致性校验时,需要与大数据组件建立连接,用于数据查询。 目前支持创建源端连接的大数据组件包括: Doris HBase ClickHouse Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
创建表组并添加数据表 将源端数据表加入表组中,为后续对数作业做准备。 使用须知 每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。
大数据-Hive Metastore凭证文件获取方法 参考访问FusionInsight Manager登录Manager,进入系统页面。 在左侧导航栏,选择“权限>用户”,进入用户页面。 在用户列表,选择要在MgC Agent(原Edge)添加凭证的用户,单击操作列“更多>下载
创建表组并添加数据表 将源端数据表加入表组中,为后续对数作业做准备。 使用须知 每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。
创建血缘采集任务 前提条件 已完成元数据采集。 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。 在血缘采集区域,单击“创建任务”,弹出创建血缘采集任务窗口。 根据实际作业类型,选择文件类型并配置对应参数。
收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。 须知: 使用该功能,需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限(ReadOnly)。 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证
DLI校验任务出现大量失败表 问题描述 创建并执行DLI校验任务时,出现大量失败表,查看MgC Agent(原Edge)日志报错信息如下: 问题分析 出现该问题可能是因为请求已达到接口流控上限。 解决方法 请联系技术支持,提高接口流控的阈值。 父主题: 大数据校验