检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大数据迁移后数据校验 MaxCompute迁移至DLI数据校验 MRS ClickHouse迁移至MRS ClickHouse数据校验 阿里云EMR ClickHouse迁移至MRS ClickHouse数据校验 阿里云 ClickHouse迁移至MRS ClickHouse数据校验
大批量主机同时迁移时,可能出现的异常问题 大批量主机迁移时,会频繁调用API接口,API接口压力过大从而导致部分步骤报错,卡点后的步骤建议尽量分批次确定,或者重试即可。 大批量主机迁移时,可能会导致通信通道阻塞,无法正常显示工作流状态。 父主题: 主机迁移工作流
大数据校验 Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” Hive校验的sum统计结果显示未达标 DLI校验任务出现大量失败表
大数据校验 大数据校验概述 准备工作 创建元数据连接 创建表组并添加数据表 创建连接 创建统计任务并执行校验 查看并导出校验结果
于后续作业的运行。添加方法请参考添加队列。 创建DLI增强型跨源连接 登录DLI管理控制台,在左侧导航栏单击“资源管理 > 弹性资源池”,可进入弹性资源池管理页面。 单击弹性资源池名称前的,在展开的信息中,获取该弹性资源池的网段。 将弹性资源池的网段加入ECS安全组的入方向规则中。
作,确保数据的准确性和可靠性,从而避免了数据丢失或不一致的风险。 校验方式说明 全量校验:全量对比所有数据,适用与需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小
要启动迁移时,单击操作列的“运行”,手动启动迁移。 迁移任务运行后,单击操作列的“查看实例”,进入任务进度页签,可以查看该任务的迁移进度以及产生的所有运行实例。 单击进度统计列的“查看”,进入进度详情页面。可以查看迁移的数据表清单、状态以及该任务下所创建的迁移子任务。 (可选)数
单击操作列的“运行”,手动启动迁移。 迁移任务运行后,单击操作列的“查看实例”,进入任务进度页签,可以查看该任务产生的运行实例以及迁移进度。 单击进度统计列的“查看”,进入进度详情页面。可以查看元数据的增量感知结果以及增量迁移列表清单和状态。 单击进度详情页面右上角的“打开DDL
完成所有表信息的添加后,保存CSV文件的更改。 将编辑并保存好的CSV文件上传至MgC。 目的端配置 覆盖策略 对已有表的处理策略 跳过:如果目的端已经存在同名的数据表,将忽略该表,不会对其进行任何操作。 重建:如果目的端已经存在同名的数据表,该表及其数据将被完全删除,并根据源端的定义重新创建。
选择完成准备工作时,在Edge侧添加的华为云(AK/SK)凭证。如果所选凭证与登录迁移中心账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。 区域 选择目的端DLI所在区域。如果未勾选“所选凭证与登录迁移中心凭证相同”,则需要手
更新时间:指分区内数据最后一次被修改或更新的时间戳。如果您关心的是分区内数据的最新状态或最近一段时间内的数据变更,可以选择“更新时间”作为筛选条件。 创建时间:指分区被首次创建时的时间戳。如果您关心的是分区从创建开始到某个时间点内的数据,可以选择“创建时间”作为筛选条件。 分区上限:用于限制查询或处理的分区数量,
迁移工具 选择在源端环境中部署的迁移工具Edge。 执行机凭证 选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口。 Spark客户端目录 填写Spark客户端的安装目录路径。 环境变量地址
创建元数据连接 创建元数据来源类型的连接,获取源端大数据库表清单。 目前支持的连接类型,参见表1。 表1 支持的元数据连接类型 类别 连接类型 大数据组件 Hive Metastore Doris HBase ClickHouse Delta Lake(有元数据) Delta Lake(无元数据)
血缘采集 血缘采集概述 创建血缘采集任务 查看血缘关系 父主题: 大数据血缘
关于OBS、NAS和SMB存储系统之间进行异构迁移的对象长度限制说明 在OBS、NAS和SMB存储系统之间进行异构迁移时,不同系统对文件夹和路径长度的限制存在不同。了解并遵守每个系统的对象长度限制是成功执行异构迁移的关键。根据具体的迁移方向,确保对象的路径长度符合目的端系统的要求,以避免迁移失败或数据不一致的问题。 不
DLI凭证 选择步骤4.在Edge侧添加的DLI凭证。如果所选凭证与登录迁移中心账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。 区域 输入需要校验的数据(即目的端数据)所在区域的代码。例如:ap-southeast-1
用户自定义 元数据连接 选择步骤8.创建的元数据连接。 注意: 表组中的所有表必须来源于同一个元数据来源。 校验标准 选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。 说明(可选)
在使用大数据校验功能前,请务必先完成以下必要的准备工作。 创建项目 通过创建独立的项目,可以将不同的操作场景进行区分和隔离,从而实现更好的组织管理和资源分配。创建方法请参考项目管理。 准备迁移工具Edge 在启用大数据校验功能前,需要先在源端环境中安装用于配合大数据校验的迁移工具Edge。大数据校
创建连接 创建执行机连接 创建大数据云服务连接 创建大数据组件连接 父主题: 大数据校验
OBS迁移到NAS,如果源端存在同名但大小写不同的对象,会如何处理? 从OBS到NAS的异构迁移过程中,由于OBS允许大小写不同的同名对象存在,而文件系统不允许任何形式的同名对象,因此源端OBS中大小写不同的同名对象将根据创建工作流时,迁移配置中所选的“同名覆盖方式”策略进行处理,目的端同