检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大数据-Hive Metastore凭证文件获取方法 参考访问FusionInsight Manager登录Manager,进入系统页面。 在左侧导航栏,选择“权限>用户”,进入用户页面。 在用户列表,选择要在Edge添加凭证的用户,单击操作列“更多>下载认证凭据”,可以下载凭证文件中的krb5
创建目的端组件连接 对大数据组件数据进行一致性校验时,需要与大数据组件建立连接,用于数据查询。 目前支持创建连接的大数据组件包括: Doris HBase ClickHouse Hive Metastore 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“实施>大数据校验”,进入大
Windows主机迁移后数据盘缺失,如何解决? 问题描述 Windows主机迁移完成后,登录目的端主机发现磁盘数量与源端主机不一致,有数据盘缺失,但在目的端控制台查看磁盘数量正常。 问题分析 出现该问题,可能是因为源端主机的磁盘策略为共享磁盘脱机或者离线模式,迁移后会导致数据盘处于脱机状态。
从而使该字段所在的表元数据迁移失败。 注意事项 CSV模板文件编辑 当使用MgC提供的CSV模板文件进行数据筛选时,请不要使用Excel对CSV模板文件进行编辑,通过Excel编辑并保存的模板文件无法被MgC识别。 DLI队列连接选择 元数据迁移和数据迁移需要使用不同的DLI队列连接,元数据迁移需要使用DLI
整。为规避这一风险,首次迁移时请谨慎使用“不覆盖”策略。 选择“不覆盖”策略进行数据迁移时,如果迁移任务因错误中断后重启或从暂停状态恢复,可能会造成部分数据未完全迁移,而任务显示成功的现象,影响数据的完整性。为规避这一风险,请谨慎使用“不覆盖”策略。 直接覆盖 对于源端和目的端存
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
容器资源需要完成深度采集后,才可以进行迁移方案设计。 中间件、数据库、存储等资源可直接进行迁移方案设计。支持对AWS RDS(包括MySQL、MariaDB、Aurora、PGSQL、SQLServer、Oracle)和AWS DocumentDB数据库进行深度采集,以获取数据库更详细的信息。 对象存储资源可以进行深度采集和迁移方案配置。
开通DLI服务Spark 3.3和jar程序访问元数据白名单 数据迁移需要使用DLI服务的Spark 3.3特性和jar程序访问DLI元数据特性,请联系DLI服务的技术支持人员申请开通。 (可选)开通DLI服务Spark生命周期白名单 如果待迁移的元数据有生命周期表(即DDL带有LIFECY
在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。 单击页面右上角的“连接管理”按钮,进入连接管理页面。 单击页面右上角的“创建目的端连接”按钮,右侧弹出新增连接窗口。 连接类型选择“数据湖探索 (DLI
Check failed 问题描述 进行大数据数据迁移时,部分表迁移失败,报错:CRC Check failed 解决方法 通过修改DLI作业中迁移sql,将源端timestamp字段类型转成String类型,进行数据迁移。 父主题: 大数据数据迁移
Delta Lake数据校验任务存在以下约束与限制: 源端EMR环境的Spark版本为3.3.1时,支持Delta Lake(有元数据)和Delta Lake(无元数据)的数据校验。 源端EMR环境的Spark版本为2.4.8时,仅支持Delta Lake(有元数据)的数据校验。 Lin
容器资源需要先完成深度采集,再进行迁移方案设计。 中间件、数据库、存储等资源可直接进行迁移方案设计。支持对AWS RDS(包括MySQL、MariaDB、Aurora、PGSQL、SQLServer、Oracle)和AWS DocumentDB数据库进行深度采集,以获取数据库更详细的信息。 对象存储资源可以进行深度采集和存储迁移方案配置。
ll脚本传输至/root/rda目录并执行,以自动化采集系统信息。 数据库采集 权限要求:需要使用具有最高权限的账号进行数据库采集,以确保能够访问所有必要的数据。对于不同的数据库系统,应使用以下账号: MySQL:使用root账号。 PostgreSQL:使用postgres账号。
资源消耗:Edge在采集和迁移运行过程中会消耗CPU和内存资源。在迁移任务量大时,这可能会对源端的业务运行造成影响。 端口占用:Edge会占用源端主机上的一些端口,也可能会对源端业务产生影响。 源端主机需要对安装Edge的Windows主机开放指定端口: Windows开放5985端口。 Linux开放22端口。
整。为规避这一风险,首次迁移时请谨慎使用“不覆盖”策略。 选择“不覆盖”策略进行数据迁移时,如果迁移任务因错误中断后重启或从暂停状态恢复,可能会造成部分数据未完全迁移,而任务显示成功的现象,影响数据的完整性。为规避这一风险,请谨慎使用“不覆盖”策略。 直接覆盖 对于源端和目的端存
迁移实施 元数据全量迁移 元数据增量感知 全量数据迁移 增量数据迁移 父主题: 大数据数据迁移
COMPUTE statistics noscan的配置单元元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。 spark.sql.dynamicPartitionOverwrite
创建执行机连接 执行机是获取数据的任务执行单元,需要分别与源端和目的端的执行机建立连接,然后执行数据统计,统计结果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
主机规格评估成功后,在资源配置明细区域,单击主机资源操作列的“更改目的端规格”,右侧弹出资源详情窗口。 单击磁盘对应的目的端规格处的“更改规格”,弹出修改窗口。 参考源端主机磁盘信息并结合实际情况,修改目的端磁盘的资源总用量(磁盘容量)。 例如,源端主机系统盘为50G,数据盘为20G,但实际使用量远低于此,
节点创建 Master节点ECS规格 用于管理迁移节点和列举节点。 节点数量为1,无法修改。 迁移节点ECS规格 迁移节点用于执行迁移和对比的动作,推荐规格8U16G。 规格选定后,后续无法更改。 设置的节点数量需要同时满足如下要求: 迁移节点数+列举节点数+1 ≤100 迁移节点数+列举节点数+1