云服务器内容精选

  • 新建表/文件迁移作业 在 DataArts Studio 数据集成控制台,进入“集群管理”页面,在集群列表中找到所需要的集群,单击“作业管理”。 在“作业管理”页面,单击“表/文件迁移”,再单击“新建作业”。 图8 表/文件迁移 按照如下步骤完成作业参数的配置。 如图9所示,配置作业名称、源端作业参数和目的端作业参数,然后单击“下一步”。 作业名称:source-sdi 源端作业配置 源连接名称:obs-link 桶名:fast-demo 源目录或文件:/2017_Yellow_Taxi_Trip_Data.csv 文件格式: CS V格式 显示高级属性:单击“显示高级属性”,在“高级属性”中,系统提供了默认值,请根据实际业务数据的格式设置各项参数。 在本示例中,根据准备数据源中的样例数据格式,需注意以下参数的设置,其他参数经过一一确认均保留默认值即可。 字段分隔符:默认值为逗号,本示例保留默认值即可。 前N行为标题行:设置为“是”,本示例首行是标题行。 标题行数:配置为1。 编码类型:默认值为UTF-8,本示例保留默认值即可。 目的端作业配置 目的连接名称:mrs-link。 数据库名称:demo_sdi_db。 表名:sdi_taxi_trip_data。 导入前清空数据:是。 在本示例中,目的端作业参数“导入前清空数据”配置为“是”,表示每次作业运行都会先清空数据再导入。在实际业务中,请视情况而定,需谨慎设置,以免造成数据丢失。 图9 作业配置 在字段映射中,请参考以下说明配置字段映射以及日期字段的时间格式,如图10所示,配置完成后,单击“下一步”。 字段映射:在本示例中,由于数据迁移的目标表字段顺序和原始数据的字段顺序是一样的,因此这里不需要调整字段映射的顺序。 如果目标表字段顺序和原始数据不一致,请一一将源字段指向含义相同的目的字段。请将鼠标移至某一个字段的箭头起点,当光标显示为“+”的形状时,按住鼠标,将箭头指向相同含义的目的字段,然后松开鼠标。 时间格式:样例数据中第2、第3个字段为时间字段,数据格式如“02/14/2017 04:08:11 PM”,因此此处设置这两个字段的时间格式为“MM/dd/yyyy hh:mm:ss a”,可以在输入框中手动输入该格式。 时间格式请根据实际的数据格式进行设置,例如: “yyyy/MM/dd HH:mm:ss”代表将时间转换为24小时制,例如2019/08/18 15:35:45。 “yyyy/MM/dd hh:mm:ss a”代表将时间转换为12小时制,例如2019/06/27 03:24:21 PM。 图10 字段映射 根据需要配置任务的重试和定时执行。 图11 任务配置 单击“显示高级属性”,可配置“抽取并发数”以及“是否写入脏数据”,如图12所示。 抽取并发数:您可以根据业务量进行配置。数据源端如果是文件类型,当有多个文件时,增大并发数可以提升抽取速率。 是否写入脏数据:建议配置为“是”,然后参考图12配置相关参数。脏数据是指与目的端字段不匹的数据,该数据可以被记录到指定的OBS桶中。用户配置脏数据归档后,正常数据可以写入目的端,迁移作业不会因脏数据中断。在本示例中,“OBS桶”配置为在准备数据源中的桶fast-demo,您需要前往OBS控制台,在fast-demo桶中单击“新建文件夹”创建一个目录,例如error-data,然后再将图12中的“脏数据目录”配置为该目录。 图12 任务高级属性 单击“保存”完成作业的创建。 返回“表/文件迁移”页面后,可在作业列表中查看到新建的作业。 图13 迁移作业运行结果