检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大数据校验概述 迁移中心 MgC为多种大数据计算/存储引擎,如Hive、Hbase、Doris和MaxCompute等,提供了一致性校验方法。通过一致性校验,您可以更加放心地进行大数据迁移操作,确保数据的准确性和可靠性,从而避免了数据丢失或不一致的风险。 校验方式说明 全量校验:
机资源。 添加数据库 登录迁移中心管理控制台。 单击左侧导航栏的“调研>应用发现”,进入应用发现页面。在页面左上角的当前项目下拉列表中选择迁移项目。 如果是首次进入页面并且还未进行过任何资源发现或创建应用等操作,则无法查看资源列表,需要在操作流程中,单击手动创建应用后面的“去创建”,完成应用创建。
户名/密码”,填写在CloudTable服务创建的目的端ClickHouse集群的登录用户名和密码。 数据库链接 填写连接到CloudTable(ClickHouse)的数据库链接地址。可以在ClickHouse集群的基本信息获取,对应参数为“集群访问地址”。 表3 CloudTable(HBase)服务参数配置说明
源端服务器的系统、应用、文件等数据迁移到目的端服务器后,服务器的SID、网卡MAC地址等信息发生改变,导致OS、应用等License失效。此类问题,迁移服务概不负责。对于Windows License可以使用华为云License服务器获取新License,应用License用户自行解决。
Doris凭证。 数据库地址 填写连接到源端Doris数据库的Doris FE实例IP地址。 Doris FE实例IP地址可通过登录MRS集群的Manager界面,单击“集群 > 服务 > Doris > 实例”,查看任一FE实例的IP地址。 数据库端口 填写连接到源端Doris数据库的连接端口。
创建元数据连接 创建元数据来源类型的连接,获取源端大数据库表清单。 目前支持的连接类型,参见表1。 表1 支持的元数据连接类型 类别 连接类型 大数据组件 Hive Metastore Doris HBase ClickHouse Delta Lake(有元数据) Delta Lake(无元数据)
提供对象存储迁移能力,可以将其他云平台对象存储服务中的数据迁移至华为云对象存储服务OBS中。 云备份(Cloud Backup and Recovery,CBR) 提供对云硬盘、弹性云服务器的备份保护服务。 镜像服务(Image Management Service,IMS 通过镜像创建弹性云服务器。
(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8.创建的元数据连接。 数据库(可选) 填写需要进行元数据同步的数据库名称,如果有多个数据库,库名之间用逗号隔开。不填则代表同步全部数据库。 并发线程数 设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可
(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8.创建的元数据连接。 数据库(可选) 填写需要进行元数据同步的数据库名称,如果有多个数据库,库名之间用逗号隔开。不填则代表同步全部数据库。 并发线程数 设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可
R等服务费用: 云备份费用 跨可用区(AZ)迁移,主要是使用云备份服务中的“云服务器备份”的功能,在迁移过程中,假如源端没有绑定相关的存储库,则迁移服务会按需创建一个容量为源端服务器总容量1.5倍的存储库,用于辅助迁移,该存储库在迁移结束后自动删除。 有关云备份服务的收费标准,请参见CBR计费说明。
默认创建名称为“数据湖元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8.创建的元数据连接。 数据库(可选) 填写需要进行元数据同步的数据库名称。不填则代表同步全部数据库。 并发线程数 设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但
(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8.创建的元数据连接。 数据库(可选) 填写需要进行元数据同步的数据库名称,如果有多个数据库,库名之间用逗号隔开。不填则代表同步全部数据库。 并发线程数 设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可
方式请参考添加资源凭证,类型选择“大数据-Doris”。 数据库地址 填写连接到Doris集群部署的服务器IP地址。 数据库端口 填写连接到Doris集群部署的服务器的端口。默认为3306。 数据库名 填写Doris数据库名称。 表4 HBase连接参数配置说明 参数 配置说明 所属源
默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8.创建的元数据连接。 数据库 填写需要进行元数据同步的数据库名称,如果有多个数据库,库名之间用逗号隔开。 须知: 元数据连接为MaxCompute类型时,该参数为必填参数,不能为空。 并发线程数
默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8.创建的元数据连接。 数据库 填写需要进行元数据同步的数据库名称,如果有多个数据库,库名之间用逗号隔开。 须知: 元数据连接为MaxCompute类型时,该参数为必填参数,不能为空。 并发线程数
Hive校验的sum统计结果显示未达标 问题描述 对Hive进行大数据校验,Hive中的double字段保存的值为 1.7976931348623157E308 和 -1.7976931348623157E308 时 sum 统计结果显示未达标。 问题分析 使用spark-sql
(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8.创建的元数据连接。 数据库(可选) 填写需要进行元数据同步的数据库名称,如果有多个数据库,库名之间用逗号隔开。不填则代表同步全部数据库。 并发线程数 设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可
默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8.创建的元数据连接。 数据库(可选) 填写需要进行元数据同步的数据库名称。不填则代表同步全部数据库。 并发线程数 设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但
将血缘模板下载到本地,并填写模板内的参数。其中,如下参数值为必填字段。 目标数据库(TargetDataset) 目标表(TargetTable) 目标连接名称(TargetConnectionName) 目标组件类型(TargetComponentType) 上游数据库(SourceDataset) 上游表(SourceTable)
在Excel中,将原有数据复制并粘贴到一个新的Excel文件中。 保存新创建的Excel文件,确保文件格式为.xlsx或.xls。 将新保存的Excel文件上传到MgC中,重新创建采集任务。 父主题: 应用发现