切勿选择DLI SQL队列。 自定义参数(可选) 根据实际需求进行配置,支持的自定义参数详情请参考conf参数说明和自定义参数说明。 如果是公网迁移,需要填写以下4个参数: spark.dli.metaAccess.enable:填写true。 spark.dli.job.agency
csv" 描述:CSV文件路径,包含源端主机信息。 参数默认值:target_servers.csv 修改建议:使用绝对路径,或确保相对路径是正确的。 修改示例:CSV_FILE="/home/username/configs/servers.csv" HOSTS_FILE="hosts_content
项目ID 输入需要校验的数据所在的项目ID。获取方法请参考获取项目的名称和ID。 队列名称 输入需要进行校验的DLI队列名称。队列类型必须是SQL队列。 采集资源使用信息 可选参数。开启后,通过该连接创建的统计任务将收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。
对应参数填写到模板内。 每个模板最多支持导入10,000张表。 同一表组内的表必须属于同一个元数据来源。 模板中单元格不允许存在公式且必须是文本格式,否则会导致解析失败。 元数据连接为Delta(有元数据)或Hudi(有元数据)连接时,模板中的source_path参数为必填项。
配置的VPC和子网,对已绑定目的端的主机不生效。如果所选应用中的主机均已绑定目的端,则无需进行目的端配置。 在高级设置区域,保持IP不变参数选择“是”,仔细阅读高危操作提示并了解使用该功能的免责声明后,单击“确认”,启动IP不变功能。 本文只介绍保持IP不变参数的配置方法,其余参数根据实际需求配置。
切勿选择DLI SQL队列。 自定义参数(可选) 根据实际需求进行配置,支持的自定义参数详情请参考conf参数说明和自定义参数说明。 如果是公网迁移,需要填写以下4个参数: spark.dli.metaAccess.enable:填写true。 spark.dli.job.agency
txt文件行数不超过100000行。 单个列表文件大小不能超过300 MB。 列表文件存放目录下的列表文件个数不能超过10000个。 列表文件必须是UTF-8无BOM格式编码格式。 列表文件中每行长度不要超过65535,否则会导致迁移失败。 列表文件的元数据中不能设置“ContentEncoding”,否则会导致迁移失败。
全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小时级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。在24小时内自动进行多次校验,可以持
不勾选,仅迁移Content-Type、Content-Encoding元数据。 (可选)根据表2,配置高级选项。 表2 高级选项参数说明 参数 说明 割接前是否增量同步 选择是,会在迁移阶段的业务验证步骤后增加自动执行的“增量迁移”步骤。 选择否,在迁移阶段的业务验证步骤执行完后,直接进入业务割接阶段。 过滤配置
描述:CSV文件存放路径,包含源端主机信息。 参数默认值:C:\Users\Public\target_servers.csv 修改建议:使用绝对路径,或确保相对路径是正确的。如果CSV文件路径发生变化,需要更新填写的路径。 修改示例:$csvFile = "C:\Users\username\Documents\servers
不勾选,仅迁移Content-Type、Content-Encoding元数据。 (可选)根据表2,配置高级选项。 表2 高级选项参数说明 参数 说明 割接前是否增量同步 选择是,会在迁移阶段的业务验证步骤后增加自动执行的“增量迁移”步骤。 选择否,在迁移阶段的业务验证步骤执行完后,直接进入业务割接阶段。 过滤配置
对象列表文件大小不能超过30 MB。 对象列表文件类型必须为.txt类型,并且元数据ContentType只能为text/plain。 对象列表文件必须是UTF-8无BOM格式编码格式。 对象列表文件每行只能包含一个对象名称,且对象名称使用URL Encode编码。 对象列表文件行长度不超过16KB,否则迁移失败。
更多源端连接和MgC Agent所安装主机的计算资源。 自定义参数 可以通过自定义参数设置同步的特定表或分区、过滤条件等。 如果需要同步的是阿里云 EMR环境中的元数据,请添加如下参数: 参数名:conf 参数值:spark.sql.catalogImplementation=hive
csv" 描述:CSV 文件路径,包含源端主机信息。 参数默认值:target_servers.csv 修改建议:使用绝对路径,或确保相对路径是正确的。 修改示例:CSV_FILE="/home/username/configs/servers.csv" 配置项参数修改完成并保存后,
对象列表文件大小不能超过30 MB。 对象列表文件类型必须为.txt类型,并且元数据ContentType只能为text/plain。 对象列表文件必须是UTF-8无BOM格式编码格式。 对象列表文件每行只能包含一个对象名称,且对象名称使用URL Encode编码。 对象列表文件行长度不超过16KB,否则迁移失败。
项目ID 输入需要校验的数据所在的项目ID。获取方法请参考获取项目的名称和ID。 队列名称 输入需要进行校验的DLI队列名称。队列类型必须是SQL队列。 采集资源使用信息 可选参数。开启后,通过该连接创建的统计任务将收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。
支持人员。 在左侧导航栏选择“其他 > 迁移集群管理”,进入迁移集群管理页面。 单击页面右上角的“创建集群”按钮,进入创建集群页面。 如果是首次创建迁移集群,需要您同意华为云账号进行相关的委托授权。单击,可以查看委托权限所包含的细粒度权限。 根据表2,配置参数。 表2 集群参数配置说明
计算物理核心上托管的虚拟CPU的所有数量。如果工作负载包含虚拟机,则使用此数据来计算底层物理服务器的数量。 选择“否”,不涉及Vmware虚拟化。 选择“是”,设置虚拟化的vCPU数量。默认值300个,1≤取值范围<100000000。 设置“存储”区域参数,具体参数说明参见表3。 表3 设置存储参数
数据迁移所依赖的jar包分别为:migration-dli-spark-1.0.0.jar、fastjson-1.2.54.jar、datasource.jar。这三个jar包是数据迁移过程中不可或缺的,三个jar包的用途和获取方法如下: migration-dli-spark-1.0.0.jar 用途:用于创建spark会话并提交sql语句。
数据迁移所依赖的jar包分别为:migration-dli-spark-1.0.0.jar、fastjson-1.2.54.jar、datasource.jar。这三个jar包是数据迁移过程中不可或缺的,三个jar包的用途和获取方法如下: migration-dli-spark-1.0.0.jar 用途:用于创建spark会话并提交sql语句。
您即将访问非华为云网站,请注意账号财产安全