检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择HBase的版本。 在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
创建大数据组件连接 对大数据组件数据进行一致性校验时,需要与大数据组件建立连接,用于数据查询。 目前支持创建连接的大数据组件包括: Doris HBase ClickHouse 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。在页面左上角的当前项目下拉列表中选择迁移项目。
导入的数据表。 导出数据表 支持将Delta Lake和Hudi有元数据的数据表导出为CSV格式。无元数据的数据表不支持导出。 在表管理页面,选择库表清单页签。 单击列表上方的“导出 > 导出数据表”按钮,弹出导出窗口。 选择需要导出的数据表所在表组,单击“确认”。 导出完成后,单击“导出
元数据全量迁移 将源端数据库中的所有元数据迁移到华为云数据湖探索(DLI) 。 元数据迁移不支持事务表(即DDL中带有transactional=true字段的表)。 前提条件 已完成所有准备工作。 已创建源端连接。 已创建目的端连接。 操作步骤 登录迁移中心控制台。 在左侧导航
Export all to Excel”。 选择保存路径,将资源导出到本地。 步骤二:将导出的文件上传至OBS 登录华为云OBS控制台,创建一个用于存储RVTools导出资源文件的标准存储桶。方法请参考创建桶。 参考上传对象,将导出的RVTools资源文件上传至OBS标准存储桶。 步骤三:导入RVTools资源
Export all to Excel”。 选择保存路径,将资源导出到本地。 步骤二:将导出的文件上传至OBS 登录华为云OBS控制台,创建一个用于存储RVTools导出资源文件的标准存储桶。方法请参考创建桶。 参考上传对象,将导出的RVTools资源文件上传至OBS标准存储桶。 步骤三:导入RVTools资源
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
归档存储(冷存储)数据迁移 背景概述 冷存储是一种针对不频繁访问数据的长期备份解决方案,例如,平均一年访问一次的归档存储或平均几年访问一次的深度归档存储。这种存储方式具有高安全性、持久性和成本低等优势。 在迁移冷存储数据时,一个主要的考虑因素是数据访问的延迟。由于数据通常处于"冻结"
Lake(无元数据) Hudi(有元数据) Hudi(无元数据) 大数据云服务 MaxCompute 阿里云云数据库ClickHouse 前提条件 已完成准备工作。 操作步骤 创建元数据连接的详细介绍请参考创建元数据连接。 大数据校验场景仅支持Linux版本的Edge,安装方法请参考下载并安装Linux版本Edge。
元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。 元数据连接 选择步骤8
Thrift服务端口 填写连接MetaStore的端口,默认为9083。 在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明
创建元数据连接 创建元数据来源类型的连接,获取源端大数据库表清单。 目前支持的连接类型,参见表1。 表1 支持的元数据连接类型 类别 连接类型 大数据组件 Hive Metastore Doris HBase ClickHouse Delta Lake(有元数据) Delta Lake(无元数据)
ssl_client_private_key_password 否 如果证书密钥文件中包含的私钥已加密,则需要填写密码或口令短语。 ssl_client_certificate_key_file 否 填写证书与其私钥的串联文件(.pem)路径。如果证书的私钥存储在单独的文件中,则应将其与证书文件串联。 auth_source
创建大数据云服务连接 对大数据云服务数据进行一致性校验时,需要分别与源端和目的端云服务建立连接,用于数据查询和计算。 目前支持创建连接的大数据云服务包括: 数据湖探索(DLI) CloudTable(ClickHouse) CloudTable(HBase) 操作步骤 登录迁移中心管理控制台。
Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” 问题描述 对Hive进行大数据校验,校验任务执行成功,查看校验结果,发现部分字段的“源端数据”和“目的端数据”显示为“0”或“-1”。 问题分析 出现该问题可能是因为数值超出了Hive支持的数值范围。 在数据处理中,如果遇到
也可以自定义名称。 元数据连接 根据实际需求,选择已创建的元数据连接类型。 数据库 填写需要进行元数据同步的数据库名称。 须知: 元数据连接为MaxCompute类型时,该参数为必填参数,不能为空。其他元数据连接类型,该参数为可选参数,不填则代表同步全部数据库。 并发线程数 设置
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
0/0 Linux主机 用户名/密码 用户名/密钥 选择用户名和密码时,输入源端主机的登录用户名、密码。 选择用户名和密钥时,输入源端主机登录用户名、口令(密钥文件对应的密码)、上传.pem类型的密钥文件。 须知: 如果密钥文件未加密,则口令无需填写。 网段限制填写网段地址,可以是单个IP地址或IP地址段。例如:
在元数据采集区域,单击“创建任务 > 元数据同步”按钮,右侧弹出创建任务-元数据同步窗口。 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。 表2 元数据同步任务参数配置说明 参数 配置说明 任务名称 默认创建名称为“元数据同步任
数据源采集失败,如何重新采集? 采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 在任务列表页面,单击采集任务操作列的“查看”,进入任务详情页面。 单击采集项操作列的“新增数据源”,弹出新增数据源窗口。 选择区域和资源类型,单击“确认”按钮。新增数据源成功,系统开始对新增的数据源进行采集。