检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
部署迁移工具Edge 使用迁移中心的大数据血缘功能前,需要先在可以访问源端元数据来源的环境中部署迁移工具Edge。 迁移工具Edge不具备自动重启功能,严禁在任务执行期间重启Edge,以避免任务失败。 操作步骤 安装Edge的方法请参考下载并安装Edge。 安装成功后,将Edge与迁移中心进行连接,方法请参考连接迁移中心。
Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” 问题描述 对Hive进行大数据校验,校验任务执行成功,查看校验结果,发现部分字段的“源端数据”和“目的端数据”显示为“0”或“-1”。 问题分析 出现该问题可能是因为数值超出了Hive支持的数值范围。 在数据处理中,如果遇到
大数据-Hive Metastore凭证文件获取方法 参考访问FusionInsight Manager登录Manager,进入系统页面。 在左侧导航栏,选择“权限>用户”,进入用户页面。 在用户列表,选择要在Edge添加凭证的用户,单击操作列“更多>下载认证凭据”,可以下载凭证文件中的krb5
数据迁移失败,提示超过DLI网管流控上限 问题描述 进行大数据数据迁移失败,在数据湖探索的Spark作业查看报错信息为:The throttling thershold has been reached 问题分析 出现该问题,是因为您创建的资源数量已达到DLI服务流控限制阈值。 解决方法
血缘采集概述 通过血缘采集,可以建立起数据元素之间的关系和依赖关系,从而形成一个清晰的数据血缘图。 目前支持血缘采集的文件类型以及采集须知,参见下表。 文件类型 采集须知 血缘模板 需要下载血缘模板,并填写相应数据。 父主题: 血缘采集
客户端,进行sql操作,出现用同一个命令存在返回值不同的情况。 这是因为在进行大数据对数的求和计算时,由于分布式计算顺序的不确定性,可能会导致计算结果的不一致性。特别是处理接近或等于double类型最大值(1.7976931348623157E+308)的数据时,加上一个较小的数值(如2.0)可能会导致数值溢
创建血缘采集任务 前提条件 已完成元数据采集。 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。 在血缘采集区域,单击“创建任务”,弹出创建血缘采集任务窗口。 根据实际作业类型,选择文件类型并配置对应参数。
当执行求和操作(如sum或allsum)时,如果结果值的位数超过了Double类型的有效位数,会导致精度丢失。 查看校验结果 登录迁移中心管理控制台。 在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。在页面左上角的当前项目下拉列表中选择迁移项目。 在功能入口区域,单击“校验结果”,进入校验结果页面。
创建统计任务并执行校验 利用创建的源端连接和目的端连接,分别创建源端和目的端统计任务,获取源端和目的端的数据信息,以便于进行数据校验。 支持的大数据组件和统计方式说明请参见大数据校验概述。 注意事项 创建的源端统计任务和目的端统计任务的统计方式必须保持一致。 HBase安全集群任务
数据采集架构 迁移中心(MgC)采集数据的方式主要包括以下两种: 利用Edge远程在线采集 通过调用API在线采集云平台资源 利用Edge远程在线采集 适用于公有云、私有云(如VMware、Hyper-V等虚拟化环境)以及数据中心(IDC)部署,或者以上部署方式的混合场景。迁移中心
已创建血缘采集任务,且状态为“已完成”。 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。 在血缘采集区域,单击“查看血缘图”,进入血缘图页面。 通过数据库名、表名筛选需要查看的血缘图。如果进行了大数据校验,还可以通过校验批次进行筛选。
创建执行机连接 执行机是获取数据的任务执行单元,需要分别与源端和目的端的执行机建立连接,然后执行数据统计,统计结果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
连接迁移中心 将Edge与云端MgC控制台建立连接,协助MgC控制台进行资源采集和执行迁移工作流任务。 前提条件 已下载并安装Edge,并完成用户注册。 操作步骤 使用注册的用户名、密码登录Edge控制台,在左侧导航树选择“连接迁移中心”,进入连接迁移中心页面。 在第一步:输入云凭证
通过对比可以得到结论,同比华为云上相应规格,无论按需还是包月,源端价格都低于华为云。 举例二:如果源端资源M,以包年包月方式购买,账单区间为5个月,账单显示应付价为500元,资源M相对应华为云规格N按需价格为 0.2元/小时,包月价为80元/月,价格对比如下表: 表2 源端与华为云价格对比 项目
Check failed 问题描述 进行大数据数据迁移时,部分表迁移失败,报错:CRC Check failed 解决方法 通过修改DLI作业中迁移sql,将源端timestamp字段类型转成String类型,进行数据迁移。 父主题: 大数据数据迁移
e日志报错信息如下: 问题分析 出现该问题可能是因为请求已达到接口流控上限。 解决方法 请联系技术支持,提高接口流控的阈值。 父主题: 大数据校验
vector %s 问题描述 进行大数据数据迁移时,部分表迁移失败,报错:no more field nodes for for field %s and vector %s 解决方法 基于源端表创建临时表,使用临时表进行数据迁移。 父主题: 大数据数据迁移
如何防止采集数据泄露? MgC通过以下方式确保采集数据的安全: 数据加密传输:采用加密技术来保护数据在传输过程中的安全 本地加密存储凭证:Edge上的凭证信息都会经过加密处理后保存在本地,不会通过网络传输到云端。 本地数据采集与存储:通过Edge线下采集的信息会被安全地保存在本地
成长地图 | 华为云 迁移中心 迁移中心(Migration Center, MgC)是华为云一站式迁移和现代化平台,承载华为云迁移方法论和最佳实践,可以帮助您轻松完成上云,该平台既提供快速平迁能力,也提供应用现代化建议和改造能力。 产品介绍 立即使用 成长地图 由浅入深,带您玩转MgC
迁移其他云平台存储数据至华为云 适用场景 通过独立专享迁移集群以及配置迁移专线,简单、快捷实现对象存储、文件存储一站式上云,提升上云效率。本文介绍如何使用迁移中心MgC将其他云平台的对象存储或文件存储数据迁移到华为云。 当前支持以下区域(Region): 华北-北京四 华北-乌兰察布一