检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
完成所有表信息的添加后,保存CSV文件的更改。 将编辑并保存好的CSV文件上传至MgC。 目的端配置 覆盖策略 对已有表的处理策略 跳过:如果目的端已经存在同名的数据表,将忽略该表,不会对其进行任何操作。 重建:如果目的端已经存在同名的数据表,该表及其数据将被完全删除,并根据源端的定义重新创建。
选择完成准备工作时,在Edge侧添加的华为云(AK/SK)凭证。如果所选凭证与登录迁移中心账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。 区域 选择目的端DLI所在区域。如果未勾选“所选凭证与登录迁移中心凭证相同”,则需要手
在使用大数据校验功能前,请务必先完成以下必要的准备工作。 创建项目 通过创建独立的项目,可以将不同的操作场景进行区分和隔离,从而实现更好的组织管理和资源分配。创建方法请参考项目管理。 准备迁移工具Edge 在启用大数据校验功能前,需要先在源端环境中安装用于配合大数据校验的迁移工具Edge。大数据校
创建源端连接 创建源端云服务连接 创建源端组件连接 父主题: 大数据校验
迁移工具 选择在源端环境中部署的迁移工具Edge。 执行机凭证 选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口。 Spark客户端目录 填写Spark客户端的安装目录路径。 环境变量地址
血缘采集 血缘采集概述 创建血缘采集任务 查看血缘关系 父主题: 大数据血缘
实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
大批量主机同时迁移时,可能出现的异常问题 大批量主机迁移时,会频繁调用API接口,API接口压力过大从而导致部分步骤报错,卡点后的步骤建议尽量分批次确定,或者重试即可。 大批量主机迁移时,可能会导致通信通道阻塞,无法正常显示工作流状态。 父主题: 主机迁移工作流
每运行一次迁移任务,即会生成一条任务实例。在任务实例的进度详情页面,可以查看并导出任务的执行结果。 导出的结果文件可以在生成的15天内下载,15天后自动删除。 前提条件 已创建迁移任务并运行。 操作步骤 在任务进度列表,单击进度统计列的“查看”,进入进度详情页面。 单击列表上方的“导出”按钮,系统开始导出
用户自定义 元数据连接 选择步骤8.创建的元数据连接。 注意: 表组中的所有表必须来源于同一个元数据来源。 校验标准 选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。 说明(可选)
您关心的是分区内数据的最新状态或最近一段时间内的数据变更,可以选择“更新时间”作为筛选条件。 创建时间:指分区被首次创建时的时间戳。如果您关心的是分区从创建开始到某个时间点内的数据,可以选择“创建时间”作为筛选条件。 分区上限:用于限制查询或处理的分区数量,避免不必要的全表扫描或
元数据连接 根据实际需求,选择创建的源端连接。 注意: 表组中的所有表必须来源于同一个元数据来源。 校验标准 选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。 说明(可选)
Spark应用每个Executor的CPU核数。该配置项会替换“sc_type”中对应的默认参数。 numExecutors 1-100 Spark应用Executor的个数。该配置项会替换“sc_type”中对应的默认参数。 executorMemory 1-16 G Spark应用的Executor内存,参数配置例如:2G
用户自定义 元数据连接 选择步骤8.创建的元数据连接。 注意: 表组中的所有表必须来源于同一个元数据来源。 校验标准 选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。 说明(可选)
用户自定义 元数据连接 选择步骤8.创建的元数据连接。 注意: 表组中的所有表必须来源于同一个元数据来源。 校验标准 选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。 说明(可选)
创建目的端连接 创建执行机连接 创建目的端云服务连接 创建目的端组件连接 父主题: 大数据校验
数据迁移失败,提示超过DLI网管流控上限 问题描述 进行大数据数据迁移失败,在数据湖探索的Spark作业查看报错信息为:The throttling thershold has been reached 问题分析 出现该问题,是因为您创建的资源数量已达到DLI服务流控限制阈值。 解决方法 请联系DLI服务技术支持人员,调整流控上限。
OBS迁移到NAS,如果源端存在同名但大小写不同的对象,会如何处理? 从OBS到NAS的异构迁移过程中,由于OBS允许大小写不同的同名对象存在,而文件系统不允许任何形式的同名对象,因此源端OBS中大小写不同的同名对象将根据创建工作流时,迁移配置中所选的“同名覆盖方式”策略进行处理,目的端同
在左侧导航树选择“VPN > IPsec连接”。 单击“创建IPsec连接”,选择步骤2配置的VPN网关,并配置策略参数,确保与华为云侧的策略配置保持一致。 配置完成后,单击“确定”。 配置路由信息。在阿里云上增加到华为云VPC子网的路由信息。 在左侧导航树选择“VPN > VPN网关”。 单击VPN网
选择步骤3.与MgC建立连接的Edge工具。 执行机凭证 选择步骤4.在Edge侧添加的源端Delta Lake执行机凭证。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口,默认为22端口。 Spark客户端目录 填写Spark客户端的bin目录的绝对路径