检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大数据校验 Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” Hive校验的sum统计结果显示未达标 DLI校验任务出现大量失败表 Delta 数据量较大时,如何优化校验任务?
大数据血缘 部署迁移工具Edge 采集元数据 血缘采集
采集元数据 创建元数据连接 创建并运行元数据同步任务 创建并运行数据湖元数据同步任务 查看元数据 父主题: 大数据血缘
费用和华为云使用费用,为您云间迁移提供参考。 支持区域: 全部 创建分析任务 资源发现与采集 支持多种类的资源采集,包括:云平台、主机、数据库、容器、大数据、中间件等。通过对采集到的信息进行调研评估,为用户上云提供配置推荐和方案设计。 支持区域: 全部 资源发现与采集 手动添加资源
列表。 单击操作列的“更多>删除”,可以删除该微服务。 导出应用关联信息 在应用管理页面,单击应用框中的“导出”,可以导出接入层调用链、数据库依赖表、中间件依赖表、应用关联表,用于下线分析。 父主题: 应用管理
新增大数据校验数据连接时,凭证列表数据缺失 问题描述 进行大数据校验,在新增连接时,凭证的下拉列表中没有数据或没有连接类型所对应的凭证。 问题分析 出现该问题,可能的原因如下: 凭证添加错误:在Edge添加的凭证类型与新增连接所需的凭证类型不对应。 凭证同步失败:在Edge添加的凭证未能同步到MgC。
部分表迁移失败,报错:CRC Check failed 问题描述 进行大数据数据迁移时,部分表迁移失败,报错:CRC Check failed 解决方法 通过修改DLI作业中迁移sql,将源端timestamp字段类型转成String类型,进行数据迁移。 父主题: 大数据数据迁移
maxPartitionBytes 134217728 读取文件时要打包到单个分区中的最大字节数。 spark.sql.badRecordsPath - Bad Records的路径。 spark.sql.legacy.correlated.scalar.query.enabled false 该参数设置为true:
Hive校验的sum统计结果显示未达标 问题描述 对Hive进行大数据校验,Hive中的double字段保存的值为 1.7976931348623157E308 和 -1.7976931348623157E308 时 sum 统计结果显示未达标。 问题分析 使用spark-sql
DeltaLake(无元数据)迁移至MRS DeltaLake数据校验 本文主要介绍将自建DeltaLake环境上的数据迁移至华为云MRS DeltaLake之后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。 DeltaLake不存在元数据,无法通过数据湖元数据同步方式进
不使用EIP场景下进行大数据数据迁移 本节介绍不具备公网场景下Edge通过SNAT/VPN等方式完成大数据迁移和对数的操作方法。本文以阿里云作为源端,Edge安装在阿里云ECS进行举例。 步骤一:配置华为云VPN 参考站点入云VPN企业版的华为云控制台操作步骤,分别配置VPN网关、对端网关以及VPN连接。
创建目的端连接 创建目的端连接是为了将源端数据写入到华为云DLI。 使用须知 元数据迁移:只需要配置一条连接到DLI SQL队列的连接。 数据迁移:需要配置两条连接,分别为连接到DLI SQL队列的连接和连接到DLI通用队列的连接。 前提条件 已完成准备工作。 操作步骤 登录迁移中心控制台。
如何防止采集数据泄露? MgC通过以下方式确保采集数据的安全: 数据加密传输:采用加密技术来保护数据在传输过程中的安全 本地加密存储凭证:Edge上的凭证信息都会经过加密处理后保存在本地,不会通过网络传输到云端。 本地数据采集与存储:通过Edge线下采集的信息会被安全地保存在本地
归档存储(冷存储)数据迁移 背景概述 冷存储是一种针对不频繁访问数据的长期备份解决方案,例如,平均一年访问一次的归档存储或平均几年访问一次的深度归档存储。这种存储方式具有高安全性、持久性和成本低等优势。 在迁移冷存储数据时,一个主要的考虑因素是数据访问的延迟。由于数据通常处于"冻
Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” 问题描述 对Hive进行大数据校验,校验任务执行成功,查看校验结果,发现部分字段的“源端数据”和“目的端数据”显示为“0”或“-1”。 问题分析 出现该问题可能是因为数值超出了Hive支持的数值范围。 在数据处理中,
大数据-Hive Metastore凭证文件获取方法 参考访问FusionInsight Manager登录Manager,进入系统页面。 在左侧导航栏,选择“权限>用户”,进入用户页面。 在用户列表,选择要在Edge添加凭证的用户,单击操作列“更多>下载认证凭据”,可以下载凭证文件中的krb5
数据源采集失败,如何重新采集? 采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 在任务列表页面,单击采集任务操作列的“查看”,进入任务详情页面。 单击采集项操作列的“新增数据源”,弹出新增数据源窗口。 选择区域和资源类型,单击“确认”按钮。新增数据源成功,系统开始对新增的数据源进行采集。
创建表组并添加数据表 将源端数据表加入表组中,为后续对数作业做准备。 每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。
迁移其他云平台存储数据至华为云 适用场景 通过独立专享迁移集群以及配置迁移专线,简单、快捷实现对象存储、文件存储一站式上云,提升上云效率。本文介绍如何使用迁移中心MgC将其他云平台的对象存储或文件存储数据迁移到华为云。 当前支持以下区域(Region): 华北-北京四 华北-乌兰察布一
Delta 数据量较大时,如何优化校验任务? 本文介绍当源端Delta数据量较大(如超过10000张表)时,如何使用MgC大数据校验功能进行一致性校验的方法。 操作步骤 参考创建元数据连接,创建第一个Delta元数据连接。 使用步骤1.创建的第一个元数据连接,创建元数据同步任务,将源端的元数据同步至迁移中心。