检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建执行机连接 执行机是获取数据的任务执行单元,需要分别与源端和目的端的执行机建立连接,然后执行数据统计,统计结果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
创建执行机连接 执行机是获取数据的任务执行单元,需要分别与源端和目的端的执行机建立连接,然后执行数据统计,统计结果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据)
选择在Edge添加的Doris凭证。凭证的添加方式请参考添加资源凭证,类型选择“大数据-Doris”。 数据库地址 填写连接到Doris集群部署的服务器IP地址。 数据库端口 填写连接到Doris集群部署的服务器的端口。默认为3306。 数据库名 填写Doris数据库名称。 表4 HBase连接参数配置说明
采集元数据 创建元数据连接 创建并运行元数据同步任务 创建并运行数据湖元数据同步任务 查看元数据 父主题: 大数据血缘
源端EMR环境的Spark版本为3.3.1时,支持Delta Lake(有元数据)和Delta Lake(无元数据)的数据校验。 源端EMR环境的Spark版本为2.4.8时,仅支持Delta Lake(有元数据)的数据校验。 Hbase校验不支持纯冷数据表。 在进行Hive 2.x与Hive
大数据数据迁移(MaxCompute迁移到DLI) 大数据迁移概述 使用须知 准备工作 创建源端连接 创建目的端连接 创建迁移任务 查看并导出执行结果 自定义参数说明 父主题: 新版
通过列表上方的搜索框可以对任务执行结果进行过滤,如有过滤,则只导出过滤后的数据。 图1 导出执行结果 单击“导出管理”按钮,右侧弹出导出管理窗口。 当导出进度为导出成功后,单击操作列的“下载”,可以将导出结果下载到本地。 图2 下载导出结果 父主题: 大数据数据迁移
采集元数据 创建元数据连接 创建并运行元数据同步任务 创建并运行数据湖元数据同步任务 查看元数据 父主题: 迁移准备
vector %s 问题描述 进行大数据数据迁移时,部分表迁移失败,报错:no more field nodes for for field %s and vector %s 解决方法 基于源端表创建临时表,使用临时表进行数据迁移。 父主题: 大数据数据迁移
大数据校验 大数据校验概述 准备工作 创建源端连接 创建表组并添加数据表 创建目的端连接 创建统计任务并执行校验 查看并导出校验结果 自定义参数说明 父主题: 新版
大数据校验 大数据校验概述 准备工作 创建源端连接 创建表组并添加数据表 创建目的端连接 创建统计任务并执行校验 查看并导出校验结果 自定义参数说明 父主题: 旧版
出相应的资源,并在资源列表展示资源的详细信息。此外,利用解析后的信息,您还可以使用迁移中心的规格评估功能,为您推荐与阿里云资源相匹配的华为云资源规格。 支持导入的阿里云资源类型包括: 云服务器 ECS实例和云盘 对象存储 OSS桶 云数据库 RDS MySQL实例 云数据库 Redis实例
出相应的资源,并在资源列表展示资源的详细信息。此外,利用解析后的信息,您还可以使用迁移中心的规格评估功能,为您推荐与阿里云资源相匹配的华为云资源规格。 支持导入的阿里云资源类型包括: 云服务器 ECS实例和云盘 对象存储 OSS桶 云数据库 RDS MySQL实例 云数据库 Redis实例
MaxCompute中存储的数据。 前提条件 已完成准备工作。 操作步骤 登录迁移中心控制台。 在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。在页面左上角的当前项目下拉列表中选择在完成准备工作时所创建的迁移项目。 单击页面右上角的“连接管理”按钮,进入连接管理页面。
大数据迁移概述 迁移场景 将阿里云 MaxCompute数据迁移至华为云数据湖探索(DLI)。 数据迁移原理图 图1 大数据数据迁移原理图 迁移操作流程 图2 大数据数据迁移流程图 父主题: 大数据数据迁移(MaxCompute迁移到DLI)
通过列表上方的搜索框可以对任务执行结果进行过滤,如有过滤,则只导出过滤后的数据。 图1 导出执行结果 单击“导出管理”按钮,右侧弹出导出管理窗口。 当导出进度为导出成功后,单击操作列的“下载”,可以将导出结果下载到本地。 图2 下载导出结果 父主题: 大数据数据迁移(MaxCompute迁移到DLI)
MaxCompute中存储的数据。 前提条件 已完成准备工作。 操作步骤 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择在完成准备工作时创建的大数据迁移项目。 在左侧导航栏选择“实施>大数据数据迁移”,进入大数据数据迁移页面。 单击页面右上角的“连接管理”按钮,进入迁移准备页面。
大数据校验 新增大数据校验数据连接时,凭证列表数据缺失 Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” Hive校验的sum统计结果显示未达标 DLI校验任务出现大量失败表 Delta 数据量较大时,如何优化校验任务? 创建HBase目的端连接安全集群下的换包操作指南
数据迁移失败,提示超过DLI网管流控上限 问题描述 进行大数据数据迁移失败,在数据湖探索的Spark作业查看报错信息为:The throttling thershold has been reached 问题分析 出现该问题,是因为您创建的资源数量已达到DLI服务流控限制阈值。 解决方法
出相应的资源,并在资源列表展示资源的详细信息。此外,利用解析后的信息,您还可以使用迁移中心的规格评估功能,为您推荐与阿里云资源相匹配的华为云资源规格。 支持导入的阿里云资源类型包括: 云服务器 ECS实例和云盘 对象存储 OSS桶 云数据库 RDS MySQL实例 云数据库 Redis实例