检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS Hive/CDH/EMR迁移至MRS Hive数据校验 本文主要介绍MRS Hive版本间数据迁移以及将自建CDH/EMR环境上的数据迁移至华为云MRS Hive之后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。 准备工作 需要先在源端内网环境中安装用于配合数据校
数据-Hive Metastore”凭证和目的端“MRS执行机”凭证,认证方式分别选择“AK/SK”、“用户名/密钥”、“用户名/密码”。凭证的添加方法请参考添加资源凭证。 MaxCompute侧的AK/SK获取方法请参考查看RAM用户的AccessKey信息。 Hive Met
在页面上方菜单栏选择“集群>Hive”,进入Hive概览页,单击右上角“更多>下载客户端”,弹出下载客户端窗口。 客户端类型选择“仅配置文件”,单击“确定”按钮。 将下载的文件包解压,在/Hive/config文件夹下可以获取core-site.xml、hivemetastore-site
Hive校验的sum统计结果显示未达标 问题描述 对Hive进行大数据校验,Hive中的double字段保存的值为 1.7976931348623157E308 和 -1.7976931348623157E308 时 sum 统计结果显示未达标。 问题分析 使用spark-sql
Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” 问题描述 对Hive进行大数据校验,校验任务执行成功,查看校验结果,发现部分字段的“源端数据”和“目的端数据”显示为“0”或“-1”。 问题分析 出现该问题可能是因为数值超出了Hive支持的数值范围。 在数据处理中,
据组件建立连接,用于数据查询。 目前支持创建连接的大数据组件包括: Doris HBase ClickHouse Hive Metastore 操作步骤 登录迁移中心管理控制台。 在左侧导航栏选择“实施>大数据校验”,进入大数据校验页面。在页面左上角的当前项目下拉列表中选择迁移项目。
MetaStore在安全集群下,需要启用安全连接并选择凭证。凭证的获取以及添加方法请参考添加资源凭证中的大数据-Hive Metastore。 Hive版本 选择源端Hive的实际版本。 注意: 如果源端Hive为2.1.1版本,此处需要选择1.x版本。 MetaStore节点IP 填写连接MetaStore的IP地址。
MetaStore在安全集群下,需要启用安全连接并选择凭证。凭证的获取以及添加方法请参考添加资源凭证中的大数据-Hive Metastore。 Hive版本 选择源端Hive的实际版本。 注意: 如果源端Hive为2.1.1版本,此处需要选择1.x版本。 MetaStore节点IP 填写连接MetaStore的IP地址。
任务管理页签,可以查看已创建的元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”,可以修改任务参数配置。 单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以
执行机是获取数据的任务执行单元,需要分别与源端和目的端的执行机建立连接,然后执行数据统计,统计结果将用于数据校验。 以下大数据组件需要通过创建执行机连接来进行数据校验: Hive Metastore Delta Lake(有元数据) Delta Lake(无元数据) Hudi(有元数据) Hudi(无元数据) 需
建议执行时间选择业务的低峰期。 高级选项 并发连接数:进行数据统计时,单个执行机的任务并发数。默认为3,取值范围:1~10。 注意: 在创建阿里云Hive校验任务时,请根据源端数据量和EMR Master节点的规格,合理设置并发连接数。建议按照以下两个条件进行设置: 条件一:同时
开始性能采集后,您还可以进行如下操作: 查看采集数据 单击主机名称,进入主机详情页面,在性能信息区域,可以查看采集到的主机性能数据。其中,7天和30天最大值为每小时汇总的定时任务,采集时长需超过1小时才能获取数据。 单击操作列的“查看”,可以查看采集周期内每项数据的详细数值和曲线图。
指定时间校验:用户可以选择一个时间段,校验该时间段内的数据。只能选择当前时间之前的时间段进行校验。 支持的源端、目的端组件 源端组件 目的端组件 Hive Hbase Doris MaxCompute ClickHouse Delta Lake Hudi Hive DLI MRS(Doris) MRS(Hbase)
MB。 单击“确认”,创建血缘采集任务完成。系统自动开始进行血缘采集。 单击“查看任务”,进入血缘采集页面,可以在任务列表中查看采集任务状态。 当任务状态为“已完成”时,单击页面右上角的“查看血缘”,可以查看血缘关系图。 父主题: 血缘采集
务管理页签,可以查看已创建的数据湖元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”,可以修改任务参数配置。 单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录
大数据校验 Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” Hive校验的sum统计结果显示未达标 DLI校验任务出现大量失败表 Delta 数据量较大时,如何优化校验任务?
提示“请检查当前用户是否具有IAM权限”,如何处理? 问题描述 使用TCO对比功能或评估推荐功能时,提示“请检查当前用户是否具有IAM权限”。 问题分析 出现该提示可能是因为登录账号未授予“IAM ReadOnly”权限。 解决方法 为您的账号授予“IAM ReadOnly”权限
ClickHouse数据校验 MRS Doris迁移至MRS Doris数据校验 MRS Hive/CDH/EMR迁移至MRS Hive数据校验 MaxCompute迁移至MRS Hive数据校验 MRS HBase迁移至MRS HBase数据校验 DeltaLake(有元数据)迁移至MRS
0/0 大数据-Hive Metastore 用户名/密钥 凭证文件需要同时上传core-site.xml、hivemetastore-site.xml、hive-site.xml、krb5.conf、user.keytab五个文件。获取方式参见大数据-Hive Metastore凭证文件获取方法。
参数配置完成后,单击“确认”按钮,完成数据表新增。在库表清单列表中可以查看新增的数据表。 批量导入数据表 登录迁移中心管理控制台。 在左侧导航栏选择“调研>大数据血缘”,进入大数据血缘页面。在页面左上角的当前项目下拉列表中选择迁移项目。 在元数据采集区域,单击“查看库表清单”,进入元数据采集页面的库表清单页签。