数据治理中心 DATAARTS STUDIO-创建数据集成作业:新建MySQL到MRS Hive迁移作业

时间:2024-12-04 14:09:34

新建MySQL到 MRS Hive迁移作业

正式业务流程中,需要将MySQL中的原始样例数据需要导入MRS Hive中,并标准化为点数据集和边数据集。

  1. DataArts Studio 数据集成控制台,进入“集群管理”页面,在集群列表中找到所需要的集群,单击“作业管理”
  2. “作业管理”页面,单击“表/文件迁移”,再单击“新建作业”

    图21 表/文件迁移

  3. 按照如下步骤将MySQL中的4张原始数据表,依次迁移到MRS Hive中。

    1. 配置作业vertex_user_rds2hive。

      源端的“表名”选择在新建OBS到MySQL迁移作业中迁移到MySQL的vertex_user,目的端的“表名”选择在创建MRS Hive标准数据表中创建的vertex_user表。其他参数配置如图所示,无需配置高级属性,然后单击“下一步”

      图22 vertex_user_rds2hive作业基础配置

    2. 在字段映射中,根据GES图数据的要求,此处需要新增字段label,作为图文件的标签。
      • vertex_user:label取值为user,并将此字段调整至第2列。
      • vertex_movie:label取值为movie,并将此字段调整至第2列。
      • edge_friends:label取值为friends,并将此字段调整至第3列。
      • edge_rate:label取值为rate,并将此字段调整至第3列。

      将原始数据结构根据GES图导入的要求标准化。则点表vertex_user和vertex_movie需要在第二列补充标签label,边表edge_rate和edge_friends需要在第三列补充标签label。

      点数据集和边数据集应符合GES图数据格式要求。图数据格式要求简要介绍如下,详情可参见一般图数据格式
      • 点数据集罗列了各个点的数据信息。一行为一个点的数据。格式如下所示,id是点数据的唯一标识。
        id,label,property 1,property 2,property 3,…
      • 边数据集罗列了各个边的数据信息,一行为一条边的数据。GES中图规格是以边的数量进行定义的,如一百万边。格式如下所示,id 1、id 2是一条边的两个端点的id。
        id 1, id 2, label, property 1, property 2, …
      图23 vertex_user_rds2hive新增字段映射

    3. 调整字段顺序,点文件中将label调整至第2列,边文件将label调整至第3列。调整完成后如图25所示,然后单击下一步。
      图24 vertex_user_rds2hive调整字段顺序

      图25 vertex_user_rds2hive字段映射

    4. 任务配置无需修改,直接保存并运行即可。
      图26 任务配置

  4. 等待作业运行完成后,如果作业成功,则vertex_user表已成功迁移到MRS Hive中。

    图27 vertex_user_rds2hive作业运行成功

  5. 参考24,完成vertex_movie_rds2hive、edge_friends_rds2hive和edge_rate_rds2hive作业的创建,将4张原始表从MySQL标准化到MRS Hive中。
support.huaweicloud.com/bestpractice-dataartsstudio/dataartsstudio_05_0304.html