检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
整。为规避这一风险,首次迁移时请谨慎使用“不覆盖”策略。 选择“不覆盖”策略进行数据迁移时,如果迁移任务因错误中断后重启或从暂停状态恢复,可能会造成部分数据未完全迁移,而任务显示成功的现象,影响数据的完整性。为规避这一风险,请谨慎使用“不覆盖”策略。 直接覆盖 对于源端和目的端存
容器资源需要完成深度采集后,才可以进行迁移方案设计。 中间件、数据库、存储等资源可直接进行迁移方案设计。支持对AWS RDS(包括MySQL、MariaDB、Aurora、PGSQL、SQLServer、Oracle)和AWS DocumentDB数据库进行深度采集,以获取数据库更详细的信息。 对象存储资源可以进行深度采集和迁移方案配置。
Check failed 问题描述 进行大数据数据迁移时,部分表迁移失败,报错:CRC Check failed 解决方法 通过修改DLI作业中迁移sql,将源端timestamp字段类型转成String类型,进行数据迁移。 父主题: 大数据数据迁移
从而使该字段所在的表元数据迁移失败。 注意事项 CSV模板文件编辑 当使用MgC提供的CSV模板文件进行数据筛选时,请不要使用Excel对CSV模板文件进行编辑,通过Excel编辑并保存的模板文件无法被MgC识别。 DLI队列连接选择 元数据迁移和数据迁移需要使用不同的DLI队列连接,元数据迁移需要使用DLI
COMPUTE statistics noscan的配置单元元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。 spark.sql.dynamicPartitionOverwrite
在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。 单击页面右上角的“连接管理”按钮,进入连接管理页面。 单击页面右上角的“创建目的端连接”按钮,右侧弹出新增连接窗口。 连接类型选择“数据湖探索 (DLI
中选择在完成准备工作时创建的大数据迁移项目。 在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。 单击页面右上角的“连接管理”按钮,进入连接管理页面。 单击页面右上角的“创建目的端连接”按钮,右侧弹出新增连接窗口。 连接类型选择“数据湖探索 (DLI)”,单击“下一步”,进入详细配置页面。
容器资源需要先完成深度采集,再进行迁移方案设计。 中间件、数据库、存储等资源可直接进行迁移方案设计。支持对AWS RDS(包括MySQL、MariaDB、Aurora、PGSQL、SQLServer、Oracle)和AWS DocumentDB数据库进行深度采集,以获取数据库更详细的信息。 对象存储资源可以进行深度采集和存储迁移方案配置。
Delta Lake数据校验任务存在以下约束与限制: 源端EMR环境的Spark版本为3.3.1时,支持Delta Lake(有元数据)和Delta Lake(无元数据)的数据校验。 源端EMR环境的Spark版本为2.4.8时,仅支持Delta Lake(有元数据)的数据校验。 Hbase校验不支持纯冷数据表。
Spark应用的Driver内存,参数配置例如:2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必须带单位,否则会启动失败。 父主题: 大数据数据迁移
Agent在采集和迁移运行过程中会消耗CPU和内存资源。在迁移任务量大时,这可能会对源端的业务运行造成影响。 端口占用:MgC Agent会占用源端主机上的一些端口,也可能会对源端业务产生影响。 源端主机需要对安装MgC Agent的Windows主机开放指定端口: Windows开放5985端口。
整。为规避这一风险,首次迁移时请谨慎使用“不覆盖”策略。 选择“不覆盖”策略进行数据迁移时,如果迁移任务因错误中断后重启或从暂停状态恢复,可能会造成部分数据未完全迁移,而任务显示成功的现象,影响数据的完整性。为规避这一风险,请谨慎使用“不覆盖”策略。 直接覆盖 对于源端和目的端存
务执行结果进行过滤,如有过滤,则只导出过滤后的数据。 图1 导出执行结果 单击“导出管理”按钮,右侧弹出导出管理窗口。 当导出进度为导出成功后,单击操作列的“下载”,可以将导出结果下载到本地。 图2 下载导出结果 父主题: 大数据数据迁移(MaxCompute迁移到DLI)
迁移实施 元数据全量迁移 元数据增量感知 全量数据迁移 增量数据迁移 父主题: 大数据数据迁移
创建执行机连接 执行机是获取数据的任务执行单元,需要分别与源端和目的端的执行机建立连接,然后执行数据统计,统计结果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
创建执行机连接 执行机是获取数据的任务执行单元,需要分别与源端和目的端的执行机建立连接,然后执行数据统计,统计结果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
节点创建 Master节点ECS规格 用于管理迁移节点和列举节点。 节点数量为1,无法修改。 迁移节点ECS规格 迁移节点用于执行迁移和对比的动作,推荐规格8U16G。 规格选定后,后续无法更改。 设置的节点数量需要同时满足如下要求: 迁移节点数+列举节点数+1 ≤100 迁移节点数+列举节点数+1
主机规格评估成功后,在资源配置明细区域,单击主机资源操作列的“更改目的端规格”,右侧弹出资源详情窗口。 单击磁盘对应的目的端规格处的“更改规格”,弹出修改窗口。 参考源端主机磁盘信息并结合实际情况,修改目的端磁盘的资源总用量(磁盘容量)。 例如,源端主机系统盘为50G,数据盘为20G,但实际使用量远低于此,
务执行结果进行过滤,如有过滤,则只导出过滤后的数据。 图1 导出执行结果 单击“导出管理”按钮,右侧弹出导出管理窗口。 当导出进度为导出成功后,单击操作列的“下载”,可以将导出结果下载到本地。 图2 下载导出结果 父主题: 大数据数据迁移
节点创建 Master节点ECS规格 用于管理迁移节点和列举节点。 节点数量为1,无法修改。 迁移节点ECS规格 迁移节点用于执行迁移和对比的动作,推荐规格8U16G。 规格选定后,后续无法更改。 设置的节点数量需要同时满足如下要求: 迁移节点数+列举节点数+1 ≤100 迁移节点数+列举节点数+1