检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
迁移实施 元数据全量迁移 元数据增量感知 全量数据迁移 增量数据迁移 父主题: 大数据数据迁移
在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。 单击页面右上角的“连接管理”按钮,进入连接管理页面。 单击页面右上角的“创建目的端连接”按钮,右侧弹出新增连接窗口。 连接类型选择“数据湖探索 (DLI
开通DLI服务Spark 3.3和jar程序访问元数据白名单 数据迁移需要使用DLI服务的Spark 3.3特性和jar程序访问DLI元数据特性,请联系DLI服务的技术支持人员申请开通。 (可选)开通DLI服务Spark生命周期白名单 如果待迁移的元数据有生命周期表(即DDL带有LIFECY
全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小时级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。在24小
ux主机,将Shell脚本传输至/root/rda目录并执行,以自动化采集系统信息。 数据库采集 权限要求:需要使用具有最高权限的账号进行数据库采集,以确保能够访问所有必要的数据。对于不同的数据库系统,应使用以下账号: MySQL:使用root账号。 PostgreSQL:使用postgres账号。
Spark应用的Driver内存,参数配置例如:2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必需带单位,否则会启动失败。 父主题: 大数据数据迁移
Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” 问题描述 对Hive进行大数据校验,校验任务执行成功,查看校验结果,发现部分字段的“源端数据”和“目的端数据”显示为“0”或“-1”。 问题分析 出现该问题可能是因为数值超出了Hive支持的数值范围。 在数据处理中,如果遇到
线下主机迁移上云 主机一站式跨可用区迁移 创建存储迁移工作流 大数据数据迁移 支持多种大数据组件的元数据迁移,元数据增量感知,数据全量及增量迁移。 支持区域: 全部 创建源端连接 创建目的端连接 迁移实施 大数据校验 迁移中心 MgC为多种大数据计算/存储引擎,如Hive、Hbase、Doris
为避免数据重复,除了步骤1.创建的第一个元数据连接以外,新增的元数据连接不需要创建同步任务进行元数据采集。 参考创建表组并添加数据表,将源端数据表加入表组中。其中元数据连接选择步骤1.创建的第一个元数据连接。 分别创建源端执行机连接和目的端执行机连接,方法请参考创建执行机连接。
源端信息参数说明 参数 说明 数据站点类型 选择“HTTP/HTTPS数据源”。 列表路径 填写在步骤二存放URL列表文件的文件夹名称(在本文示例中为cephUrl/),注意要在文件夹名称后面加上“/”。 表3 目的端信息参数说明 参数 说明 数据站点类型 选择“华为云OBS”.
Check failed 问题描述 进行大数据数据迁移时,部分表迁移失败,报错:CRC Check failed 解决方法 通过修改DLI作业中迁移sql,将源端timestamp字段类型转成String类型,进行数据迁移。 父主题: 大数据数据迁移
vector %s 问题描述 进行大数据数据迁移时,部分表迁移失败,报错:no more field nodes for for field %s and vector %s 解决方法 基于源端表创建临时表,使用临时表进行数据迁移。 父主题: 大数据数据迁移
大数据血缘 部署迁移工具Edge 采集元数据 血缘采集
MgC利用部署在源端网络中的Edge设备完成数据采集。 数据采集架构图,如图1所示。 图1 Edge远程在线采集架构图 通过调用API在线采集云平台资源 适用于公有云部署场景,针对不同云服务提供商(友商)的云资源进行数据采集。使用API接口与其它云服务提供商的系统进行交互,实现数据的在线采集。不需要在源端网络中安装Edge设备。
血缘采集 血缘采集概述 创建血缘采集任务 查看血缘关系 父主题: 大数据血缘
大数据校验 Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” Hive校验的sum统计结果显示未达标 DLI校验任务出现大量失败表 Delta 数据量较大时,如何优化校验任务?
列表上方“批量绑定凭证”按钮,批量绑定源端凭证。 导入前缀列表文件。 在待迁移桶列表中,单击每一行操作列的“导入前缀”,弹出导入前缀窗口。将该桶对应的前缀列表文件上传后,单击“确认”按钮。 完成所有待迁移桶的凭证绑定和前缀列表导入后,单击“下一步”,进行目的端配置。 单击每一行操
部署迁移工具Edge 使用迁移中心的大数据血缘功能前,需要先在可以访问源端元数据来源的环境中部署迁移工具Edge。 迁移工具Edge不具备自动重启功能,严禁在任务执行期间重启Edge,以避免任务失败。 操作步骤 安装Edge的方法请参考下载并安装Edge。 安装成功后,将Edge
血缘采集概述 通过血缘采集,可以建立起数据元素之间的关系和依赖关系,从而形成一个清晰的数据血缘图。 目前支持血缘采集的文件类型以及采集须知,参见下表。 文件类型 采集须知 血缘模板 需要下载血缘模板,并填写相应数据。 父主题: 血缘采集
创建源端连接 创建源端云服务连接 创建源端组件连接 父主题: 大数据校验