数据治理中心 DATAARTS STUDIO-步骤3:数据集成入湖:新建表/文件迁移作业

时间:2024-08-21 11:25:47

新建表/文件迁移作业

  1. DataArts Studio 数据集成控制台,进入“集群管理”页面,在集群列表中找到所需要的集群,单击“作业管理”
  2. “作业管理”页面,单击“表/文件迁移”,再单击“新建作业”

    图8 表/文件迁移

  3. 按照如下步骤完成作业参数的配置。

    1. 图9所示,配置作业名称、源端作业参数和目的端作业参数,然后单击“下一步”
      • 作业名称:source-sdi
      • 源端作业配置
        • 源连接名称:obs-link
        • 桶名:fast-demo
        • 源目录或文件:/2017_Yellow_Taxi_Trip_Data.csv
        • 文件格式 CS V格式
        • 显示高级属性:单击“显示高级属性”,在“高级属性”中,系统提供了默认值,请根据实际业务数据的格式设置各项参数。
          在本示例中,根据准备数据源中的样例数据格式,需注意以下参数的设置,其他参数经过一一确认均保留默认值即可。
          • 字段分隔符:默认值为逗号,本示例保留默认值即可。
          • 前N行为标题行:设置为“是”,本示例首行是标题行。
          • 标题行数:配置为1。
          • 编码类型:默认值为UTF-8,本示例保留默认值即可。
      • 目的端作业配置
        • 目的连接名称:mrs-link。
        • 数据库名称:demo_sdi_db。
        • 表名:sdi_taxi_trip_data。
        • 导入前清空数据:是。

          在本示例中,目的端作业参数“导入前清空数据”配置为“是”,表示每次作业运行都会先清空数据再导入。在实际业务中,请视情况而定,需谨慎设置,以免造成数据丢失。

        图9 作业配置
    2. 在字段映射中,请参考以下说明配置字段映射以及日期字段的时间格式,如图10所示,配置完成后,单击“下一步”
      • 字段映射:在本示例中,由于数据迁移的目标表字段顺序和原始数据的字段顺序是一样的,因此这里不需要调整字段映射的顺序。

        如果目标表字段顺序和原始数据不一致,请一一将源字段指向含义相同的目的字段。请将鼠标移至某一个字段的箭头起点,当光标显示为“+”的形状时,按住鼠标,将箭头指向相同含义的目的字段,然后松开鼠标。

      • 时间格式:样例数据中第2、第3个字段为时间字段,数据格式如“02/14/2017 04:08:11 PM”,因此此处设置这两个字段的时间格式为“MM/dd/yyyy hh:mm:ss a”,可以在输入框中手动输入该格式。

        时间格式请根据实际的数据格式进行设置,例如:

        “yyyy/MM/dd HH:mm:ss”代表将时间转换为24小时制,例如2019/08/18 15:35:45。

        “yyyy/MM/dd hh:mm:ss a”代表将时间转换为12小时制,例如2019/06/27 03:24:21 PM。

      图10 字段映射
    3. 根据需要配置任务的重试和定时执行。
      图11 任务配置

      单击“显示高级属性”,可配置“抽取并发数”以及“是否写入脏数据”,如图12所示。

      • 抽取并发数:您可以根据业务量进行配置。数据源端如果是文件类型,当有多个文件时,增大并发数可以提升抽取速率。
      • 是否写入脏数据:建议配置为“是”,然后参考图12配置相关参数。脏数据是指与目的端字段不匹的数据,该数据可以被记录到指定的OBS桶中。用户配置脏数据归档后,正常数据可以写入目的端,迁移作业不会因脏数据中断。在本示例中,“OBS桶”配置为在准备数据源中的桶fast-demo,您需要前往OBS控制台,在fast-demo桶中单击“新建文件夹”创建一个目录,例如error-data,然后再将图12中的“脏数据目录”配置为该目录。
      图12 任务高级属性

  4. 单击“保存”完成作业的创建。

    返回“表/文件迁移”页面后,可在作业列表中查看到新建的作业。

    图13 迁移作业运行结果

support.huaweicloud.com/qs-dataartsstudio/dataartsstudio_04_0005.html