检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
迁移工作流状态一直处于“运行中”,如何判断迁移是否正常? 迁移工作流除了“开始迁移”、“开始同步”两个阶段运行时间比较久以外,其它步骤一般运行不会超过3分钟。如果长时间卡在某一步,可能是因为MgC Agent(原Edge)上报结果给MgC的过程中丢失。 解决办法: 方法一:单击工
Agent,注册用户并连接迁移中心。 步骤六:创建大数据迁移任务 完成步骤一到步骤五的操作,并了解大数据校验任务的使用须知后。按照以下步骤创建大数据数据迁移任务。 创建源端MaxCompute连接。 创建目的端DLI连接。 创建元数据迁移任务或数据迁移任务并执行。
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
创建元数据连接 创建元数据来源类型的连接,获取源端大数据库表清单。 目前支持的连接类型,参见表1。 表1 支持的元数据连接类型 类别 连接类型 大数据组件 Hive Metastore Doris HBase ClickHouse Delta Lake(有元数据) Delta Lake(无元数据)
创建元数据连接 创建元数据来源类型的连接,获取源端大数据库表清单。 目前支持的连接类型,参见表1。 表1 支持的元数据连接类型 类别 连接类型 大数据组件 Hive Metastore Doris HBase ClickHouse Delta Lake(有元数据) Delta Lake(无元数据)
源端信息参数说明 参数 说明 数据站点类型 选择“HTTP/HTTPS数据源”。 列表路径 填写在步骤二存放URL列表文件的文件夹名称(在本文示例中为minioUrl/),注意要在文件夹名称后面加上“/”。 表3 目的端信息参数说明 参数 说明 数据站点类型 选择“华为云OBS”
从而使该字段所在的表元数据迁移失败。 注意事项 CSV模板文件编辑 当使用MgC提供的CSV模板文件进行数据筛选时,请不要使用Excel对CSV模板文件进行编辑,通过Excel编辑并保存的模板文件无法被MgC识别。 DLI队列连接选择 元数据迁移和数据迁移需要使用不同的DLI队列连接,元数据迁移需要使用DLI
推荐带宽:每台机器不低于30 Mbits/s。 共用带宽建议:若多台机器共用,平均不低于50 Mbit/s。 迁移带宽 重要性:影响数据传输速度和迁移时间。 推荐值与预估时长:详情请参见迁移需要多长时间? CPU和内存要求 内存:至少预留520 MB。 CPU:Linux系统预留不少于0.3核,Windows系统不低于1核。
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
调研采集过程是否会对源端业务产生影响? MgC采用高效的数据采集算法,确保数据采集可以在较短的时间内完成,有效避免了长时间的资源占用,最大限度减少了对源端业务的影响。 父主题: 产品咨询
从而使该字段所在的表元数据迁移失败。 注意事项 CSV模板文件编辑 当使用MgC提供的CSV模板文件进行数据筛选时,请不要使用Excel对CSV模板文件进行编辑,通过Excel编辑并保存的模板文件无法被MgC识别。 DLI队列连接选择 元数据迁移和数据迁移需要使用不同的DLI队列连接,元数据迁移需要使用DLI
Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” 问题描述 对Hive进行大数据校验,校验任务执行成功,查看校验结果,发现部分字段的“源端数据”和“目的端数据”显示为“0”或“-1”。 问题分析 出现该问题可能是因为数值超出了Hive支持的数值范围。 在数据处理中,如果遇到
覆盖目的端文件夹; 说明: 对于空文件夹,覆盖策略与文件相同。 迁移元数据 - 选择是否迁移元数据。 勾选,则迁移源端对象元数据。 不勾选,仅迁移Content-Type、Content-Encoding元数据。 清理集群 - 选择工作流是否创建清理集群步骤。 勾选,迁移工作流将
在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。 在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据表1,配置元数据同步任务参数。 表1 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。
也可以自定义名称。 元数据连接 根据实际需求,选择已创建的元数据连接类型。 数据库 填写需要进行元数据同步的数据库名称。 须知: 元数据连接为MaxCompute类型时,该参数为必填参数,不能为空。其他元数据连接类型,该参数为可选参数,不填则代表同步全部数据库。 并发线程数 设置
元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8
数据源采集失败,如何重新采集? 采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 在任务列表页面,单击采集任务操作列的“查看”,进入任务详情页面。 单击采集项操作列的“新增数据源”,弹出新增数据源窗口。 选择区域和资源类型,单击“确认”按钮。新增数据源成功,系统开始对新增的数据源进行采集。
数据迁移失败,提示超过DLI网管流控上限 问题描述 进行大数据数据迁移失败,在数据湖探索的Spark作业查看报错信息为:The throttling thershold has been reached 问题分析 出现该问题,是因为您创建的资源数量已达到DLI服务流控限制阈值。 解决方法
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任