检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大数据数据迁移 数据迁移失败,提示超过DLI网管流控上限 部分表迁移失败,报错:CRC Check failed 部分表迁移失败,报错:no more field nodes for for field %s and vector %s
大数据数据迁移 使用须知 准备工作 创建源端连接 创建目的端连接 迁移实施 查看并导出执行结果 自定义参数说明
大数据血缘 部署迁移工具Edge 采集元数据 血缘采集
大数据校验 Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” Hive校验的sum统计结果显示未达标 DLI校验任务出现大量失败表 Delta 数据量较大时,如何优化校验任务?
全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小时级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。在24小
大数据校验 大数据校验概述 准备工作 创建源端连接 创建表组并添加数据表 创建目的端连接 创建统计任务并执行校验 查看并导出校验结果 自定义参数说明
大数据迁移后数据校验 MaxCompute迁移至DLI数据校验 MRS ClickHouse迁移至MRS ClickHouse数据校验 阿里云EMR ClickHouse迁移至MRS ClickHouse数据校验 阿里云 ClickHouse迁移至MRS ClickHouse数据校验
单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当数据湖元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 数据湖元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” 问题描述 对Hive进行大数据校验,校验任务执行成功,查看校验结果,发现部分字段的“源端数据”和“目的端数据”显示为“0”或“-1”。 问题分析 出现该问题可能是因为数值超出了Hive支持的数值范围。 在数据处理中,如果遇
务产生的运行实例以及迁移进度。 单击状态列的“重新运行”,可以多次运行迁移实例。 单击进度统计列的“查看”,进入进度详情页面。可以查看迁移的数据表清单、状态并导出任务结果。 (可选)数据迁移完成后,可以使用MgC提供的大数据校验功能,对源端和目的端数据进行一致性校验。详细的操作步
创建应用 您可以通过创建应用,将采集到的资源添加到应用中,对资源进行功能分组,便于后续进行规格评估和创建迁移工作流。 新建应用 登录迁移中心管理控制台。 单击左侧导航栏的“调研>应用管理”,进入应用管理页面。在页面左上角的当前项目下拉列表中选择迁移项目。 单击应用框中的“新建应用”按钮,弹出新建应用窗口。
单击应用框中的“新建应用”按钮,弹出新建应用窗口。 输入自定义的应用名称和描述;选择业务场景和使用场景;目的端区域选择目的端所在区域,单击“创建应用”按钮,应用创建成功,进入关联资源页面。 如果已经进行过资源采集,并且需要将采集到的资源关联到创建的应用,请勾选需要关联到应用的资源,单击“关联到应用”按钮,完成应用创建和资源关联。
元数据增量感知 识别出上一次迁移后,在源端数据库中发生变化的元数据,并同步至目的端华为云数据湖探索(DLI)。 前提条件 已创建源端连接。 已创建目的端连接。 最少完成一次元数据全量迁移。 准备工作 开通spark 3.3.1白名单 使用该功能前,请联系技术支持人员,将您添加到spark
导入应用关联文件 将您源端配置管理数据库中的应用关联信息,填入导入模板表格中,再将表格导入迁移中心,分析出应用间的依赖及关联关系。 操作步骤 登录迁移中心管理控制台。 单击左侧导航栏的“调研>资源采集”,进入资源采集页面。在页面左上角的当前项目下拉列表中选择迁移项目。 单击任务框
2024/06/06 14:50(现在)的增量数据。 如果勾选“指定日期”,将只迁移指定日期内的增量数据。 分区筛选方式 根据数据的分区属性来选择和检索数据。默认为更新时间。 更新时间:筛选出最近或在特定时间段内有更新的数据。 创建时间:筛选出在特定时间窗口内创建的数据。 MaxCompute参数
采集元数据 创建元数据连接 创建并运行元数据同步任务 创建并运行数据湖元数据同步任务 查看元数据 父主题: 大数据血缘
按钮,创建数据湖元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“数据湖元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8.创建的元数据连接。 数据库(可选) 填写需要进行元数据同步的数据库名称。不填则代表同步全部数据库。
根据实际需求,选择已创建的元数据连接类型。 数据库名 用户自定义。 数据表名 用户自定义。 源表路径(可选) 元数据连接为Delta时,为必填项。 输入源端数据表在数据库中的存放路径。 目标表路径(可选) 元数据连接为Delta(无元数据)时,为必填项。 输入目的端数据表在数据库中的存放路径。
在资源列表选择资源类型,进入对应的资源列表页面。 勾选需要关联到同一应用的资源,单击页面左上角的“关联到应用”,弹出关联到应用窗口。 在下拉列表中选择需要关联的应用。未提前创建应用,单击“新建应用”,输入自定义的应用名称和描述;根据实际需求,选择业务场景、使用场景以及目的端区域,单击“创建”按钮,应用创建成功。
完成所有表信息的添加后,保存CSV文件的更改。 将编辑并保存好的CSV文件上传至MgC。 目的端配置 覆盖策略 对已有表的处理策略 跳过:如果目的端已经存在同名的数据表,将忽略该表,不会对其进行任何操作。 重建:如果目的端已经存在同名的数据表,该表及其数据将被完全删除,并根据源端的定义重新创建。