检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MgC进行数据一致性校验的步骤和方法。 准备工作 需要先在源端内网环境中安装用于配合数据校验的工具MgC Agent(原Edge)并注册用户,方法请参见安装Linux版本的MgC Agent。 操作步骤 登录迁移中心管理控制台。 单击左侧导航栏的“配置管理”,进入配置管理页面。 选择“项目管理”页签,单击“创建项目”,右侧弹出创建新项目窗口。
组件选择“数据湖探索 DLI”,任务类型选择“元数据增量感知”,单击“下一步”,进入详细配置页面。 根据表1,配置元数据增量感知任务参数。 表1 元数据增量感知参数配置说明 区域 参数 配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI元数据增量感知-4位
22端口,也可以单独指定。 采集原理:通过枚举网段下所有IP地址,得到扫描范围,然后依次循环使用TCP连接到对应IP的远程连接端口。如果3389存在监听则判定该IP操作系统为Windows,如果22端口存在监听则判定该IP操作系统为Linux。 性能采集 权限要求: Window
组件选择“数据湖探索 DLI”,任务类型选择“元数据增量感知”,单击“下一步”,进入详细配置页面。 根据表1,配置元数据增量感知任务参数。 表1 元数据增量感知参数配置说明 区域 参数 配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI元数据增量感知-4位
的端组件选择“数据湖探索 DLI”,任务类型选择“全量数据迁移”,单击“下一步”,进入详细配置页面。 根据表1,配置全量数据迁移任务参数。 表1 全量数据迁移参数配置说明 区域 参数 配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI全量数据迁移-4位随机数(字母和数字)”,也可以自定义名称。
MgC进行数据一致性校验的步骤和方法。 准备工作 需要先在源端内网环境中安装用于配合数据校验的工具MgC Agent(原Edge)并注册用户,方法请参见安装Linux版本的MgC Agent。 操作步骤 登录迁移中心管理控制台。 单击左侧导航栏的“配置管理”,进入配置管理页面。 选择“项目管理”页签,单击“创建项目”,右侧弹出创建新项目窗口。
的端组件选择“数据湖探索 DLI”,任务类型选择“全量数据迁移”,单击“下一步”,进入详细配置页面。 根据表1,配置全量数据迁移任务参数。 表1 全量数据迁移参数配置说明 区域 参数 配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI全量数据迁移-4位随机数(字母和数字)”,也可以自定义名称。
组件选择“数据湖探索 DLI”,任务类型选择“元数据全量迁移”,单击“下一步”,进入详细配置页面。 根据表1,配置元数据全量迁移任务参数。 表1 元数据全量迁移参数配置说明 区域 参数 配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI元数据全量迁移-4位
连接类型选择“ClickHouse”,单击“下一步”,进入详细配置页面。 根据ClickHouse组件参数配置说明,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。 表4 ClickHouse组件参数配置说明 参数 配置说明 所属源 选择目的端。 连接名称 默认创建名称为“C
组件选择“数据湖探索 DLI”,任务类型选择“元数据全量迁移”,单击“下一步”,进入详细配置页面。 根据表1,配置元数据全量迁移任务参数。 表1 元数据全量迁移参数配置说明 区域 参数 配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI元数据全量迁移-4位
的端组件选择“数据湖探索 DLI”,任务类型选择“增量数据迁移”,单击“下一步”,进入详细配置页面。 根据表1,配置增量数据迁移任务参数。 表1 增量数据迁移参数配置说明 区域 参数 配置说明 基本信息 任务名称 默认创建名称为“MaxCompute到DLI增量数据迁移-4位随机数(字母和数字)”,也可以自定义名称。
对列表中的容器资源进行深度采集,以获取容器的详细规格、节点配置、持久卷配置以及网络策略等详细信息。具体操作步骤请参考容器深度采集。 在MgC Agent添加采集凭证时,类型选择容器,配置文件上传AWS容器集群的登录配置文件。 图4 在MgC Agent添加深度采集凭证
列表中选择迁移项目。 在血缘采集区域,单击“创建任务”,弹出创建血缘采集任务窗口。 根据实际作业类型,选择文件类型并配置对应参数。 文件类型 参数 配置说明 血缘模板 文件 将血缘模板下载到本地,并填写模板内的参数。其中,如下参数值为必填字段。 目标数据库(TargetDataset)
说明: 当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。
说明: 当前仅支持运行命令ANALYZE TABLE COMPUTE statistics noscan的配置单元元存储表,和直接根据数据文件计算统计信息的基于文件的数据源表。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。
选择元数据管理,在大数据血缘分析页签,单击“创建血缘采集任务”,弹出创建血缘采集任务窗口。 图1 创建血缘采集任务 根据实际作业类型,选择文件类型并配置对应参数。 文件类型 参数 配置说明 血缘模板 文件 将血缘模板下载到本地,并填写模板内的参数。其中,如下参数值为必填字段。 目标数据库(TargetDataset)
支持迁移的文件类型:普通文件、目录文件、软链接文件、硬链接文件。 注意: 文件句柄被占用或源端文件被删除,均会导致迁移失败。 不支持字符设备文件、块设备文件、套接字、管道文件等特殊文件的迁移。 软链接不支持元数据的迁移。 父主题: 存储迁移
读取该字段,从而使该字段所在的表元数据迁移失败。 注意事项 CSV模板文件编辑 当使用MgC提供的CSV模板文件进行数据筛选时,请不要使用Excel对CSV模板文件进行编辑,通过Excel编辑并保存的模板文件无法被MgC识别。 DLI队列连接选择 元数据迁移和数据迁移需要使用不同
在迁移过程中,请确保Excel文件中的库表名称与MaxCompute中的实际表名一致(全部小写)。如果Excel文件中填写的库表名称为大写,迁移任务会因为无法正确识别表名导致无法迁移。 注意事项 CSV模板文件编辑 当使用MgC提供的CSV模板文件进行数据筛选时,请不要使用Exc
迁移集群包含的关键指标和说明参见下表。 指标 作用 说明 CPU使用率 监控CPU使用状态 迁移小文件时,该指标比较重要,建议CPU使用率接近但不超过90%。 外网络流入、流出速率 观察网络流量流入、流出速率变化情况 迁移大文件时,该指标比较重要,建议速率能达到2 Gbit/s至3 Gbit/s。 以上指标的查看方法如下: