检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建执行机连接 执行机是获取数据的任务执行单元,需要分别与源端和目的端的执行机建立连接,然后执行数据统计,统计结果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
解决方法 根本原因是元数据校验失败。具体分为两种场景: 场景一: 由于元数据中的mtime(修改时间)属性引起的校验失败。当启用元数据保留迁移,且目的端存储为PFS桶时,如果源端对象的元数据包含mtime(修改时间),由于PFS桶中mtime代表最后修改时间,那么当源端对象迁移
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
接口域名。这通常涉及到在每台源端主机上编辑hosts文件。如果迁移的主机数量众多,手动编辑将非常耗时。为了简化这一过程,我们提供了一个批量修改的脚本示例。您可以利用这个脚本,快速地将域名解析IP批量推送到所有源端主机的hosts文件中。 脚本说明 脚本是基于Shell语言开发,仅
连接字符串。 存储账户名称+密钥。 获取以上两种鉴权类型的方式请参考:如何获取微软云的访问凭证。 数据站点类型为微软云BLOB时配置。 列表路径 输入存放列表文件的路径。列表文件存放地址必须与目的端桶处于同一区域。 将源端待迁移的文件URL和对象名称写入列表文件(每行只能写一个URL和对象名称),列表文件需要提前创建。
批量修改与还原源端Linux主机的Host配置 概述 准备工作 配置脚本 父主题: 主机迁移相关最佳实践
批量修改与还原源端Windows主机的Host配置 概述 准备工作 脚本示例 常见问题 父主题: 主机迁移相关最佳实践
元数据增量感知 识别出上一次迁移后,在源端数据库中发生变化的元数据,并同步至目的端华为云数据湖探索(DLI)。 前提条件 已创建源端连接。 已创建目的端连接。 最少完成一次元数据全量迁移。 准备工作 开通spark 3.3.1白名单 使用该功能前,请联系技术支持人员,将您添加到spark
支持规格评估的数据库类型 目前支持规格评估的数据库类型包括:MySQL、PostgreSQL、MongoDB、Oracle和SQL Server。 父主题: 规格评估
创建并运行数据湖元数据同步任务 利用创建的Delta Lake元数据连接,将源端数据库的库、表、字段信息同步至迁移中心。仅Delta Lake(有元数据)支持创建数据湖元数据同步任务。 Delta Lake(无元数据)只能通过手动添加、导入模板等方式添加元数据库表信息,方法请参见查看元数据。
配置脚本 配置update_hosts_linux.sh脚本 配置rollback_hosts_linux.sh脚本 父主题: 批量修改与还原源端Linux主机的Host配置
大数据迁移后数据校验 MaxCompute迁移至DLI数据校验 MRS ClickHouse迁移至MRS ClickHouse数据校验 阿里云EMR ClickHouse迁移至MRS ClickHouse数据校验 阿里云 ClickHouse迁移至MRS ClickHouse数据校验
书所在路径。 Linux系统MySQL证书默认存放位置取决于MySQL的安装方式和版本。通常MySQL证书存放在以下位置: MySQL 5.6及以下版本:/etc/mysql/ MySQL 5.7及以上版本:/var/lib/mysql/ 如果是云数据库,请参考各云厂商数据库的说明文档:
脚本示例 配置update_hosts_win.ps1脚本 配置rollback_hosts_win.ps1脚本 父主题: 批量修改与还原源端Windows主机的Host配置
如何启用 PowerShell 远程管理模块 如何启用 WinRM 服务 执行脚本后报错:连接到远程服务器失败,且登录凭证信息正确 父主题: 批量修改与还原源端Windows主机的Host配置
指定日志文件和内容校验结果在日志桶内的存放文件夹,填写以“/”开头的文件夹路径。例如:桶名为“mgc01”,填写的文件夹为“/test”,则日志文件存放路径为:obs://mgc01/test/bigdata/task/日期/任务实例ID/日志文件;内容校验结果存放路径为:obs://mgc0
在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。 单击页面右上角的“连接管理”按钮,进入连接管理页面。 单击页面右上角的“创建目的端连接”按钮,右侧弹出新增连接窗口。 连接类型选择“数据湖探索 (DLI
mgc.mc2dli.data.migration.dli.spark.jars 填写存放fastjson-1.2.54.jar和datasource.jar包的OBS路径,以数组形式传入,路径带双引号,以英文逗号隔开。例如:["obs://mgc-test/data/datasource
采集元数据 创建元数据连接 创建并运行元数据同步任务 创建并运行数据湖元数据同步任务 查看元数据 父主题: 大数据血缘
MgC利用部署在源端网络中的Edge设备完成数据采集。 数据采集架构图,如图1所示。 图1 Edge远程在线采集架构图 通过调用API在线采集云平台资源 适用于公有云部署场景,针对不同云服务提供商(友商)的云资源进行数据采集。使用API接口与其它云服务提供商的系统进行交互,实现数据的在线采集。不需要在源端网络中安装Edge设备。