检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
大数据数据迁移 数据迁移失败,提示超过DLI网管流控上限 部分表迁移失败,报错:CRC Check failed 部分表迁移失败,报错:no more field nodes for for field %s and vector %s
大数据数据迁移 使用须知 准备工作 创建源端连接 创建目的端连接 迁移实施 查看并导出执行结果 自定义参数说明
在资源配置明细区域,单击主机资源操作列的“更改目的端规格”,右侧弹出资源详情窗口。 单击主机规格后的“更改规格”,可以修改目的端主机规格和镜像。 单击磁盘对应的目的端规格处的“更改规格”,可以修改目的端磁盘的存储类型和资源总用量(磁盘容量)。Linux主机的磁盘容量可以根据源端主机磁盘的实际使用量,进行
影响大对象迁移速度的关键因素有哪些? 在迁移大对象的过程中,迁移集群的以下几个关键因素可能会影响迁移速度: 网络带宽限制:网络带宽不足,可能成为迁移速度的主要制约因素。 建议:升级带宽或选择低峰时段进行迁移。 迁移集群规格:如果迁移集群的规格小于推荐规格(8U16G)可能会因处理能力不足,成为迁移速度的制约因素。
数据传输的高效性与网络资源的合理分配。 建议将带宽利用率控制在总带宽的90%以下。例如,NAT网络EIP总带宽为20 Gbit/s,则建议实际使用带宽不超过18 Gbit/s。 CC/DC专线迁移 网络流出、流入带宽 观察专线的流入、流出带宽变化情况 - 查看公网迁移的出、入方向带宽指标的方法如下:
不覆盖:第一个同名对象迁移到OBS后,后续同名对象(无论URL是否相同)直接跳过不会被迁移,只保留第一个迁移的同名对象。 直接覆盖:后一个迁移的同名对象会覆盖前一个迁移的同名对象,只保留最后一个迁移的同名对象。 条件覆盖:对于后续迁移的同名对象,根据以下条件决定是否覆盖。 如果最后修改时间较新,则覆盖前一个同名对象。
大数据校验 大数据校验概述 准备工作 创建源端连接 创建表组并添加数据表 创建目的端连接 创建统计任务并执行校验 查看并导出校验结果 自定义参数说明
采集元数据 创建元数据连接 创建并运行元数据同步任务 创建并运行数据湖元数据同步任务 查看元数据 父主题: 大数据血缘
元数据连接为Delta(无元数据)连接时,模板中的source_path和target_path参数为必填项。 模板参数填写完成并保存后,单击导入窗口的“添加文件”按钮,将填写后的模板文件上传。 上传成功后,单击“确认”按钮,系统开始导入,并且会在任务实例管理页签中的任务实例列表中,新增一条导入数据表的任务实例记录。您可以通过任务实例查看导入状态。
迁移工具 选择在完成准备工作时与迁移中心连接成功的Edge。 阿里云凭证 选择完成准备工作时,在Edge侧添加的阿里云(AK/SK)凭证。 项目名称 输入待迁移数据所在的MaxCompute项目名称。项目名称可在MaxCompute控制台的项目管理中获取。 Endpoint
型相匹配。 元数据迁移与库的数量 在进行元数据迁移时,MgC会根据识别到的源端数据库的数量,在DLI中自动创建相应的库。如果是整库迁移,通常只会创建一个库;而表迁移可能需要创建多个库。通常,DLI的库数量上限为10。如果DLI空间不足,可能会导致元数据迁移失败,因此在元数据迁移前
动迁移时,单击操作列的“运行”,手动启动迁移。 迁移任务运行后,单击操作列的“查看实例”,进入任务进度页签,可以查看该任务产生的运行实例以及迁移进度。 单击状态列的“重新运行”,可以多次运行迁移实例。 单击进度统计列的“查看”,进入进度详情页面。可以查看迁移的数据表清单、状态并导出任务结果。
)”,也可以自定义名称。 迁移工具 选择在完成准备工作时与迁移中心连接成功的Edge。 源端配置 源端连接 选择创建的源端连接。 增量区间 选择T-N区间作为增量数据的迁移范围,即任务开始执行时间的前 24 x N 小时内的增量数据。例如:选择T-1,2024/06/06 14:50执行任务,则表示迁移从
迁移实施 元数据全量迁移 元数据增量感知 全量数据迁移 增量数据迁移 父主题: 大数据数据迁移
大数据校验 Hive校验结果中的源端数据和目的端数据显示为“0”或“-1” Hive校验的sum统计结果显示未达标 DLI校验任务出现大量失败表 Delta 数据量较大时,如何优化校验任务?
大数据血缘 部署迁移工具Edge 采集元数据 血缘采集
完成所有表信息的添加后,保存CSV文件的更改。 将编辑并保存好的CSV文件上传至MgC。 目的端配置 覆盖策略 对已有表的处理策略 跳过:如果目的端已经存在同名的数据表,将忽略该表,不会对其进行任何操作。 重建:如果目的端已经存在同名的数据表,该表及其数据将被完全删除,并根据源端的定义重新创建。
血缘采集 血缘采集概述 创建血缘采集任务 查看血缘关系 父主题: 大数据血缘
于后续作业的运行。添加方法请参考添加队列。 创建DLI增强型跨源连接 登录DLI管理控制台,在左侧导航栏单击“资源管理 > 弹性资源池”,可进入弹性资源池管理页面。 单击弹性资源池名称前的,在展开的信息中,获取该弹性资源池的网段。 将弹性资源池的网段加入ECS安全组的入方向规则中。
作,确保数据的准确性和可靠性,从而避免了数据丢失或不一致的风险。 校验方式说明 全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小