检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
、可定制的迁移工作流,根据采集的源端主机性能数据,推荐最合适的华为云主机规格。 创建大数据迁移任务:进行大数据迁移,支持将阿里云 MaxCompute数据迁移至华为云 数据湖探索(DLI)。 创建大数据校验任务:对大数据进行一致性校验。 约束与限制 单个账号允许同时在线的MgC Agent总数最多为100个。
使用该功能,需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限(ReadOnly)。 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。 区域:选择需要校验的数据所在区域/项目。
华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。
用户自定义 元数据连接 选择步骤12.创建的元数据连接。 注意: 表组中的所有表必须来源于同一个元数据来源。 校验标准 选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。 说明(可选)
中的第一个元数据连接保持一致。 “N”需要根据您现有的ECS资源和表的数量来确定。在ECS资源充足且表数量非常多的情况下,增加元数据连接的数量可以提高数据校验的效率。 为避免数据重复,除了步骤1.创建的第一个元数据连接以外,新增的元数据连接不需要创建同步任务进行元数据采集。 参考创建表组并添加数据
单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当数据湖元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 数据湖元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当数据湖元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 数据湖元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
动迁移时,单击操作列的“运行”,手动启动迁移。 迁移任务运行后,单击操作列的“查看实例”,进入任务进度页签,可以查看该任务产生的运行实例以及迁移进度。 单击状态列的“重新运行”,可以多次运行迁移实例。 单击进度统计列的“查看”,进入进度详情页面。可以查看迁移的数据表清单、状态并导出任务结果。
每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。 在创建用于MaxCompute迁移到DLI数据校验的表组时,建议先创建coun
使用该功能,需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限(ReadOnly)。 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。 区域:选择需要校验的数据所在区域/项目。
作,确保数据的准确性和可靠性,从而避免了数据丢失或不一致的风险。 校验方式说明 全量校验:全量对比所有数据,适用于需要对比历史数据的场景。 日级增量校验:依靠元数据中的创建或更新时间,获取数据变化(增量)分区,再进行校验。支持单日或连续多日增量数据的统计,是最常用的校验方式。 小
元数据连接为Delta(无元数据)连接时,模板中的source_path和target_path参数为必填项。 模板参数填写完成并保存后,单击导入窗口的“添加文件”按钮,将填写后的模板文件上传。 上传成功后,单击“确认”按钮,系统开始导入,并且会在任务实例管理页签中的任务实例列表中,新增一条导入数据表的任务实例记录。您可以通过任务实例查看导入状态。
通过采集任务获取元数据 创建采集任务的方法请参考创建并运行元数据同步任务。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 手动添加数据表 登录迁移中心管理控制台。在左侧导航栏的项目下拉列表中选择创建的大数据迁移项目。 在左侧导航栏选
如何查看采集失败原因? 如果任务状态为“失败”,单击操作列的“查看”,可以查看采集失败的数据源,将鼠标放到数据源的采集状态上,可以查看失败原因。采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 父主题: 资源采集
每次最多支持导入10,000张表。 待导入的表必须属于同一个元数据来源。 导入数据表时,系统不会校验数据表加入的分组数量和对数标准。为保持对数的准确性,建议同一数据表加入的分组不超过3个,并避免加入对数标准相同的分组。 在创建用于MaxCompute迁移到DLI数据校验的表组时,建议先创建coun
实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。 图3 任务实例管理 元数据采集完成后,在元数据列表单击血缘列的“去采集”,可以创建血缘采集任务。
数据源采集失败,如何重新采集? 采集失败的数据源,处理完失败原因后,需要删除后通过新增数据源重新采集。 在任务列表页面,单击采集任务操作列的“查看”,进入任务详情页面。 单击采集项操作列的“新增数据源”,弹出新增数据源窗口。 选择区域和资源类型,单击“确认”按钮。新增数据源成功,系统开始对新增的数据源进行采集。
执行机凭证 选择执行机的登录凭证。凭证的添加方法请参考添加资源凭证中的大数据-执行机。 执行机IP 填写连接执行机的IP地址。 执行机连接端口 填写连接执行机的端口。 Spark客户端目录 填写Spark客户端的安装目录路径。 环境变量地址 填写环境变量文件(配置文件)的绝对路径,例如:
MgC的账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。 区域:选择需要校验的数据所在区域/项目。 项目:选择需要校验的数据所在项目。 集群ID:输入需要校验的数据所在集群ID。 如果所选凭证与登录迁移中心 MgC的账号凭证不同,请手动输入如下参数信息: