检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive校验的sum统计结果显示未达标 问题描述 对Hive进行大数据校验,Hive中的double字段保存的值为 1.7976931348623157E308 和 -1.7976931348623157E308 时 sum 统计结果显示未达标。 问题分析 使用spark-sql
在校验结果列表中,可以进行如下操作: 查看校验详情:单击分区达标详情列的“查看”按钮,展开该数据表的作业详情。单击操作列的“查看详情”,进入校验详情页面,查看该数据表的校验详细信息。 查看执行历史及状态:单击操作列的“查看历史”,可以查看该表的所有执行批次和达标状态。 导出校验结果 在校验结果页面,单击“导出”按钮,弹出导出校验结果窗口。
大数据校验 Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” Hive校验的sum统计结果显示未达标 DLI校验任务出现大量失败表 Delta 数据量较大时,如何优化校验任务?
迁移对源端和目的端有什么要求? 迁移会占用源端和目的端大量的QPS(每秒查询率)和带宽。因此,建议在迁移前先进行测试,以评估实际迁移过程中源端和目的端的QPS和带宽占用情况。如果占用率过高,请调整源端和目的端QPS和带宽限制,以确保对现有业务的影响最小化。 父主题: 存储迁移
元数据全量迁移 将源端数据库中的所有元数据迁移到华为云数据湖探索(DLI) 。 元数据迁移不支持事务表(即DDL中带有transactional=true字段的表)。 前提条件 已完成所有准备工作。 已创建源端连接。 已创建目的端连接。 操作步骤 登录迁移中心控制台。 在左侧导航
添加阶段/步骤 您可以在工作流标准模板的迁移阶段/步骤,添加卡点,对迁移阶段/步骤进行控制。 只有迁移阶段/步骤状态为等待中/暂停,才可以选择该阶段/步骤进行添加。迁移阶段/步骤处于运行中/完成状态时,无法添加。 如果上一阶段/步骤处于运行中/暂停/完成状态,该阶段/步骤只能选择添加后置阶段/步骤。
全量数据迁移 将源端数据库中的所有数据迁移到目的端华为云数据湖探索(DLI)。 前提条件 已完成所有准备工作。 已创建源端连接。 已创建目的端连接。 开始迁移前,需要联系技术支持人员,将您添加到允许jar程序访问DLI元数据功能的白名单中。 操作步骤 登录迁移中心控制台。 在左侧
Delta 数据量较大时,如何优化校验任务? 本文介绍当源端Delta数据量较大(如超过10000张表)时,如何使用MgC大数据校验功能进行一致性校验的方法。 操作步骤 参考创建元数据连接,创建第一个Delta元数据连接。 使用步骤1.创建的第一个元数据连接,创建元数据同步任务,将源端的元数据同步至迁移中心。
增量数据迁移 将上一次迁移后,在源端数据库中发生变化(新增、修改或删除)的数据同步至目的端华为云数据湖探索(DLI)。 前提条件 已完成所有准备工作。 已创建源端连接。 已创建目的端连接。 已最少完成一次全量数据迁移。 开始迁移前,需要联系技术支持人员,将您添加到允许jar程序访问DLI元数据功能的白名单中。
自定义参数说明 在创建数据湖探索 DLI校验任务时,支持的自定义参数及说明参见表1。 表1 DLI校验任务支持的自定义参数说明 参数名称 默认值 描述 mgc.mc2dli.table.partition.enable true DLI表分区为空或者分区不存在时需要通过查询DLI的元数据去判断分区存不存在。
影响小对象迁移速度的关键因素有哪些? 在迁移小对象的过程中,以下是一些可能影响小对象迁移速度的因素以及相应的建议: 迁移集群的CPU负载:集群的CPU负载过高,可能会减慢处理小对象迁移的速度。 建议:优化集群的CPU资源分配,或者增加更多的迁移节点来分散负载。 源端和目的端的QP
配置rollback_hosts_linux.sh脚本 根据提供的脚本示例,结合实际情况,修改示例中的相关配置。 前提条件 已完成准备工作。 操作步骤 在执行脚本的主机上创建一个名为“rollback_hosts_linux.sh”的文件,然后将以下脚本示例的内容复制到文件中。如
配置update_hosts_linux.sh脚本 根据提供的脚本示例,结合实际情况,修改示例中的相关配置。 前提条件 已完成准备工作。 操作步骤 在执行脚本的主机上创建一个名为“update_hosts_linux.sh”的文件,然后将以下脚本示例的内容复制到文件中。如果您已经
迁移后主机私有IP保持不变 迁移中心 MgC的主机迁移工作流,提供了保持IP不变功能,可以实现主机迁移后保持私有IP不变,减少因IP变动而需要对业务代码进行的修改工作。 免责声明 业务可用性风险 本功能旨在帮助用户在迁移后保持主机的私有IP地址与源端一致,但不保证切换IP后的业务
采集项列表 本节为您列出各类型采集方式所包含的采集项以及用途。 网段扫描 采集项 说明 作用 ip 主机IP 用于深度采集 port 主机端口 用于深度采集 osType 系统类型 用于深度采集 name 主机名称 用于深度采集 主机(含深度采集) 采集项 说明 作用 name 主机名称
添加资源凭证 凭证是资源采集的唯一认证方式,在进行资源采集前,您需要在Edge上添加源端资源凭证,并同步至迁移中心。在Edge上添加的凭证都会加密存储在您本地,同步时密码、密钥等凭证信息并不会上传至迁移中心。 在Edge添加的资源凭证存储有效期为60天,超过60天后,凭证会过期,需要重新添加。
创建主机迁移工作流 迁移中心 MgC内置了由最佳实践总结而来的主机迁移工作流标准模板,您可以根据实际迁移场景,在工作流中插入迁移阶段和步骤,支持一键式运行和实时监控迁移进展。 前提条件 已完成主机资源采集。 已将待迁移主机关联应用。 已完成待迁移主机的规格评估。 操作步骤 登录迁移中心管理控制台。
创建主机迁移工作流 本节介绍如何使用主机迁移标准模板创建主机迁移工作流。 建议单个工作流中包含的主机数量不超过100台。 同一用户同时进行迁移的主机数量上限为1000台,超出此数量的主机会在工作流第一步暂停并处于等待状态,直至有资源释放或主机完成迁移,等待中的主机将按照创建时间顺序依次自动执行工作流后续步骤。
元数据增量感知 识别出上一次迁移后,在源端数据库中发生变化的元数据,并同步至目的端华为云数据湖探索(DLI)。 前提条件 已创建源端连接。 已创建目的端连接。 最少完成一次元数据全量迁移。 准备工作 开通spark 3.3.1白名单 使用该功能前,请联系技术支持人员,将您添加到spark
资源采集常见问题和处理方法 资源采集相关问题与处理方法参下表。 问题 处理建议 该任务名已存在。 请重新输入任务名。 创建采集任务失败。 请联系技术支持人员或提交工单。 采集项所关联的采集任务不存在。 请为采集项重新关联采集任务。 采集项重复。 请检查采集任务中是否存在相同的采集项,或联系技术支持人员。