检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
组件选择“数据湖探索 DLI”,任务类型选择“元数据全量迁移”,单击“下一步”,进入详细配置页面。 根据表1,配置元数据全量迁移任务参数。 表1 元数据全量迁移参数配置说明 区域 参数 配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI元数据全量迁移-4位
选择存储迁移标准模板,单击“开始配置”按钮,进行工作流配置。 根据表1,配置基础信息参数。 表1 基础信息参数配置说明 参数 说明 名称 用户自定义。 区域 在下拉菜单中选择目的端桶所在区域。 描述 用户自定义。 集群 选择在完成准备工作时,创建的集群作为迁移集群。 根据表2、表3,配置源端、目的端信息。
选择存储迁移标准模板,单击“开始配置”按钮,进行工作流配置。 根据表1,配置基础信息参数。 表1 基础信息参数配置说明 参数 说明 名称 用户自定义。 区域 在下拉菜单中选择创建的目的端桶所在区域。 描述 用户自定义。 集群 选择在完成准备工作时,创建的集群作为迁移集群。 根据表2、表3,配置源端、目的端信息。
迁移工具(Edge)所安装主机的计算资源。 参数配置完成后,单击“确认”按钮,创建元数据同步任务完成。 单击“采集任务”,进入元数据采集页面。在任务管理页签,可以查看已创建的元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”,可以修改任务参数配置。 单击操作列的“运行
的端组件选择“数据湖探索 DLI”,任务类型选择“增量数据迁移”,单击“下一步”,进入详细配置页面。 根据表1,配置增量数据迁移任务参数。 表1 增量数据迁移参数配置说明 区域 参数 配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI增量数据迁移-4位随机数(字母和数字)”,也可以自定义名称。
表中选择创建的应用迁移项目。 单击左侧导航栏的“设计>迁移方案设计”,进入迁移方案设计页面。 单击目的端规格配置框中的“目的端配置表”,进入目的端配置表页面。 在资源配置明细的主机页签,单击主机资源绑定目的端列的“去绑定”,弹出绑定目的端窗口。 选择源端主机关联的应用所在区域以及
的端组件选择“数据湖探索 DLI”,任务类型选择“增量数据迁移”,单击“下一步”,进入详细配置页面。 根据表1,配置增量数据迁移任务参数。 表1 增量数据迁移参数配置说明 区域 参数 配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI增量数据迁移-4位随机数(字母和数字)”,也可以自定义名称。
如果是首次创建迁移集群,需要您同意华为云账号进行相关的委托授权。委托权限所包含的细粒度权限请前往委托权限说明查看。 根据表1,配置参数。 表1 集群参数配置说明 区域 参数 配置说明 限制说明 基础配置 集群名称 自定义名称。 同一账户下集群名称不可重名。 区域 选择创建集群的区域。 与目的端区域保持一致。
评估执行完成后,单击“关闭”按钮,进行工作流配置。 根据表1参数说明,配置工作流参数。 表1 参数说明 区域 参数 说明 工作流详情 名称 用户自定义 描述 用户自定义 应用程序 应用名称 选择步骤4中自定义的应用名称。 迁移设置 区域 选择待迁移可用区所在Region,与创建的应用配置保持一致。 目的可用区
单击存储迁移成本调研框,进入存储迁移成本调研参数配置页面。 在源端详情区域,根据实际情况,选择源端平台和源端类型,并输入源端文件个数、总文件大小。 在目的端详情区域,选择目的端区域和目的端类型。 在高级特性选择网络模式、偏好设置,并输入期望迁移时间。 配置完以上参数后,单击“创建评估”按钮。系统会根据配置参数,并给出不同的迁移方案。
单击存储迁移成本调研框,进入存储迁移成本调研参数配置页面。 在源端详情区域,根据实际情况,选择源端平台和源端类型,并输入源端文件个数、总文件大小。 在目的端详情区域,选择目的端区域和目的端类型。 在高级特性选择网络模式、偏好设置,并输入期望迁移时间。 配置完以上参数后,单击“创建评估”按钮。系统会根据配置参数,并给出不同的迁移方案。
选择存储迁移标准模板,单击“开始配置”按钮,进行工作流配置。 根据表1,配置基础信息参数。 表1 基础信息参数配置说明 参数 说明 名称 用户自定义。 区域 在下拉菜单中选择创建的目的端桶所在区域。 描述 用户自定义。 集群 选择在完成准备工作时,创建的集群作为迁移集群。 根据表2、表3,配置源端、目的端信息。
autoBroadcastJoinThreshold 209715200 配置执行连接时显示所有工作节点的表的最大字节大小。通过将此值设置为“-1”,可以禁用显示。 说明: 当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。
选择“在线调研”页签,单击“云平台采集”,进入云平台采集参数配置页面。 图1 云平台采集 根据公网发现任务参数说明,配置公网发现任务参数。 表1 公网发现任务参数说明 区域 参数 说明 是否必选 基础配置 任务名称 自定义发现任务名称。 是 任务说明 输入发现任务说明。 否 任务配置 源端 选择阿里云。 是 凭证
autoBroadcastJoinThreshold 209715200 配置执行连接时显示所有工作节点的表的最大字节大小。通过将此值设置为“-1”,可以禁用显示。 说明: 当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。
分别创建源端Delta统计任务和目的端Delta统计任务并执行,方法请参考创建统计任务并执行校验。需要注意,在配置任务时,命令参数中的Spark-submit命令需要配置mgc.delta.metadata.client.ips参数,参数值为所有元数据连接的IP地址和端口,用英文逗号分隔。
复杂迁移(大数据迁移)项目:适用于需要进行大数据迁移和大数据一致性校验等复杂数据处理场景。 操作步骤 登录迁移中心管理控制台。 单击左侧导航栏的“配置管理”,进入配置管理页面。 选择“项目管理”页签,单击“创建项目”,右侧弹出创建新项目窗口。 图1 创建项目 在弹出的窗口中,仔细查看并了解项目类
部署迁移工具Edge 使用迁移中心的大数据血缘功能前,需要先在可以访问源端元数据来源的环境中部署迁移工具Edge。 迁移工具Edge不具备自动重启功能,严禁在任务执行期间重启Edge,以避免任务失败。 操作步骤 安装Edge的方法请参考下载并安装Edge。 安装成功后,将Edge
连接类型选择“Delta Lake(无元数据)”,单击“下一步”。 根据表1,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。 表1 Delta Lake(无元数据)连接参数配置说明 参数 配置说明 所属源 选择源端。 连接名称 默认创建名称为“Delta-Lake-无
云边协同 添加资源凭证 配置OBS桶 设备管理 事件记录