检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
与MgC建立连接的MgC Agent。 执行机凭证 选择步骤6.在MgC Agent侧添加的源端Delta Lake执行机凭证。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口,默认为22端口。 Spark客户端目录 填写Spark客户端的bin目录的绝对路径
中的第一个元数据连接保持一致。 “N”需要根据您现有的ECS资源和表的数量来确定。在ECS资源充足且表数量非常多的情况下,增加元数据连接的数量可以提高数据校验的效率。 为避免数据重复,除了步骤1.创建的第一个元数据连接以外,新增的元数据连接不需要创建同步任务进行元数据采集。 参考创建表组并添加数据
选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口,默认为22端口。 安装目录 填写MRS/CDH客户端的安装目录路径。即安装客户端时,“./install.sh” 所填写的地址。 SQL文件地址
选择在源端环境中安装的MgC Agent(原Edge)。 执行机凭证 选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口,默认为22端口。 安装目录 填写MRS/CDH客户端的安装目录路径。即安装客户端时,“
每添加完一个表的信息后,使用回车键换行。 完成所有表信息的添加后,保存CSV文件的更改。 将编辑并保存好的CSV文件上传至MgC。 目的端配置 目的端连接 选择创建的目的端DLI 通用队列连接。 注意: 切勿选择DLI SQL队列。 自定义参数(可选) 根据实际需求进行配置,支持的自定义
如何查看采集失败原因? 如果任务状态为“失败”,单击操作列的“查看”,可以查看采集失败的数据源,将鼠标放到数据源的采集状态上,可以查看失败原因。采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 父主题: 资源采集
MgC自定义策略 如果系统预置的MgC权限,不满足您的授权要求,可以创建自定义策略。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。 JSON视图创建自定义策略:可
每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。 在创建用于MaxCompute迁移到DLI数据校验的表组时,建议先创建coun
根据所选的区域,自动查询账号在该区域下的项目。 区域:选择需要校验的数据所在区域/项目。 项目:选择需要校验的数据所在项目。 集群ID:输入需要校验的数据所在集群ID。 如果所选凭证与登录迁移中心 MgC的账号凭证不同,请手动输入如下参数信息: 区域ID:输入需要校验的数据所在区
实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
作,确保数据的准确性和可靠性,从而避免了数据丢失或不一致的风险。 校验方式说明 全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小
数据源采集失败,如何重新采集? 采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 在任务列表页面,单击采集任务操作列的“查看”,进入任务详情页面。 单击采集项操作列的“新增数据源”,弹出新增数据源窗口。 选择区域和资源类型,单击“确认”按钮。新增数据源成功,系统开始对新增的数据源进行采集。
单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 图3 任务实例管理 元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。 在创建用于MaxCompute迁移到DLI数据校验的表组时,建议先创建coun
MgC自定义策略 如果系统预置的MgC权限,不满足您的授权要求,可以创建自定义策略。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。 JSON视图创建自定义策略:可
元数据连接为Delta(无元数据)连接时,模板中的source_path和target_path参数为必填项。 模板参数填写完成并保存后,单击导入窗口的“添加文件”按钮,将填写后的模板文件上传。 上传成功后,单击“确认”按钮,系统开始导入,并且会在任务实例管理页签中的任务实例列表中,新增一条导入数据表的任务实例记录。您可以通过任务实例查看导入状态。
通过采集任务获取元数据 创建采集任务的方法请参考创建并运行元数据同步任务。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 手动添加数据表 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。 在左侧导航栏选
执行机凭证 选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口。 Spark客户端目录 填写Spark客户端的安装目录路径。 环境变量地址 填写环境变量文件(配置文件)的绝对路径,例如:
数据流:数据流涉及从源端到目的端的数据传输。为确保数据流的畅通,需要检查目的端服务器的安全组配置,确保目的端安全组对源端IP开放了指定的迁移端口。如果源端主机无法直接访问公网或与目的端直接通信,需要配置代理服务器。在这种情况下,需要额外考虑以下因素: 代理服务器的配置,确保它能够正确转发源端主机的流量。
根据所选的区域,自动查询账号在该区域下的项目。 区域:选择需要校验的数据所在区域/项目。 项目:选择需要校验的数据所在项目。 集群ID:输入需要校验的数据所在集群ID。 如果所选凭证与登录迁移中心 MgC的账号凭证不同,请手动输入如下参数信息: 区域ID:输入需要校验的数据所在区