数据治理中心 DATAARTS STUDIO-步骤3:数据集成入湖:新建表/文件迁移作业
新建表/文件迁移作业
- 在 DataArts Studio 数据集成控制台,进入“集群管理”页面,在集群列表中找到所需要的集群,单击“作业管理”。
- 在“作业管理”页面,单击“表/文件迁移”,再单击“新建作业”。
图8 表/文件迁移
- 按照如下步骤完成作业参数的配置。
- 如图9所示,配置作业名称、源端作业参数和目的端作业参数,然后单击“下一步”。
- 作业名称:source-sdi
- 源端作业配置
- 目的端作业配置
- 目的连接名称:mrs-link。
- 数据库名称:demo_sdi_db。
- 表名:sdi_taxi_trip_data。
- 导入前清空数据:是。
在本示例中,目的端作业参数“导入前清空数据”配置为“是”,表示每次作业运行都会先清空数据再导入。在实际业务中,请视情况而定,需谨慎设置,以免造成数据丢失。
- 在字段映射中,请参考以下说明配置字段映射以及日期字段的时间格式,如图10所示,配置完成后,单击“下一步”。
- 字段映射:在本示例中,由于数据迁移的目标表字段顺序和原始数据的字段顺序是一样的,因此这里不需要调整字段映射的顺序。
如果目标表字段顺序和原始数据不一致,请一一将源字段指向含义相同的目的字段。请将鼠标移至某一个字段的箭头起点,当光标显示为“+”的形状时,按住鼠标,将箭头指向相同含义的目的字段,然后松开鼠标。
- 时间格式:样例数据中第2、第3个字段为时间字段,数据格式如“02/14/2017 04:08:11 PM”,因此此处设置这两个字段的时间格式为“MM/dd/yyyy hh:mm:ss a”,可以在输入框中手动输入该格式。
时间格式请根据实际的数据格式进行设置,例如:
“yyyy/MM/dd HH:mm:ss”代表将时间转换为24小时制,例如2019/08/18 15:35:45。
“yyyy/MM/dd hh:mm:ss a”代表将时间转换为12小时制,例如2019/06/27 03:24:21 PM。
- 字段映射:在本示例中,由于数据迁移的目标表字段顺序和原始数据的字段顺序是一样的,因此这里不需要调整字段映射的顺序。
- 根据需要配置任务的重试和定时执行。
图11 任务配置
单击“显示高级属性”,可配置“抽取并发数”以及“是否写入脏数据”,如图12所示。
- 如图9所示,配置作业名称、源端作业参数和目的端作业参数,然后单击“下一步”。
- 单击“保存”完成作业的创建。
返回“表/文件迁移”页面后,可在作业列表中查看到新建的作业。
图13 迁移作业运行结果