数据治理中心 DATAARTS STUDIO-配置FTP/SFTP源端参数

时间:2024-12-04 08:59:48

配置FTP/SFTP源端参数

表1 FTP/SFTP作为源端时的作业参数

参数类型

参数名

说明

取值样例

基本参数

源目录或文件

要传输的目录或单个文件路径。

FROM_DIRECTORY/ or FROM_DIRECTORY/example.csv

文件格式

传输数据时使用的格式。

支持 CS V格式,JSON格式及二进制格式。

其中CSV和JSON仅支持迁移到数据表场景,二进制格式适用于文件迁移场景。

CSV格式

JSON类型

文件格式为JSON格式时支持此参数。

JSON文件中存储的JSON对象的类型,可以选择JSON对象或JSON数组。

JSON对象

记录节点

文件类型为JSON对象时支持此参数。

记录数据的根节点。该节点对应的数据为JSON数组,系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分割。

data.list

高级属性

使用rfc4180解析器

文件格式为CSV格式时支持此参数。

是否使用rfc4180解析器解析CSV文件。

换行符

文件格式为CSV格式时支持此参数。

文件中的换行符,默认自动识别"\n"、"\r"或"\r\n"。

\n

使用包围符

文件格式为CSV格式时支持此参数。

使用包围符来括住字符串值。包围符内的字段分隔符被视为字符串值的一部分,目前只支持"作为包围符。

使用转义符

文件格式为CSV格式时支持此参数。

CSV只支持\作为转义符。

选择是,CSV数据行中的\作为转义符使用。

选择否,CSV中的\作为数据不会进行转义。

使用正则表达式分隔字段

文件格式为CSV格式时支持此参数。

是否使用正则表达式分隔字段。

正则表达式

文件格式为CSV格式且使用正则表达式分隔字段为是时支持此参数。

分隔字段的正则表达式。

^(\d.*\d) (\w*) \[(.*)\] ([\w\.]*) (\w.*).*

字段分隔符

文件格式为CSV格式且使用正则表达式分隔字段为否时支持此参数。

文件中的字段分隔符。

,

首行为标题行

文件格式为CSV格式时支持此参数。

如果指定了该参数,程序在抽取数据时将读取第一行作为标题行。

编码类型

文件格式为CSV格式或JSON格式时支持此参数。

文件编码类型。

只有文本文件可以设置编码类型,否则设置无效。

支持的文件编码类型有UTF-8 、 GBK。

UTF-8

压缩格式

压缩格式。

默认无。支持的压缩格式有GZIP,ZIP及TAR.GZ。

GZIP

压缩文件后缀

压缩格式为GZIP,ZIP或TAR.GZ时支持此参数。

需要解压缩的文件的后缀名。

当一批文件中以该值为后缀时,才会执行解压缩操作,否则就保持原样传输。当输入"*"时或输入为空时,所有文件都会被解压。

tar.gz

文件分隔符

多文件列表时指定的文件分隔符。

|

启动作业标识文件

当源端路径下存在启动作业的标识文件时才启动任务,否则会挂起等待一段时间。

标识文件名

启动作业标识文件为是时支持此参数。

启动作业的标识文件名。输入文件名后,只有在源端路径下存在该文件的情况下才会执行迁移任务。标识文件不会被迁移。

ok.txt

等待时间

启动作业标识文件为是时支持此参数。

等待标识文件的时间。

超时后任务会失败,当等待时间设置为0且源端路径下不存在标识文件,任务会立即失败。单位:秒。

60

标识文件类型

启动作业标识文件为是时支持此参数。

标识文件的类型。

  • MARK_DONE:只有在源端路径下存在标识文件的情况下才会执行迁移任务。
  • MARK_DOING:只有在源端路径下不存在标识文件的情况下才会执行迁移任务。

MARK_DONE

过滤类型

传输满足过滤条件的文件。

支持的过滤条件有:无,通配符及正则表达式。

目录过滤器

过滤类型为通配符或正则表达式时支持此参数。

用于过滤输入路径下的一级或多级目录。

  • 通配符使用input*/test*
  • 正则表达式使用intput.*/test.*

文件过滤器

过滤类型为通配符或正则表达式时支持此参数。

用于过滤输入路径下的文件。

  • 通配符使用*csv
  • 正则表达式使用.*\.csv

时间过滤

用于过滤满足时间范围的文件。

  • 文件的修改时间晚于输入的起始时间或早于输入的终止时间才会被传输。
  • 同时输入起始时间和终止时间,文件的修改时间在这个区间内才会被传输。

起始时间

时间过滤为是时支持此参数。

指定一个时间值,当文件的修改时间晚于该时间才会被传输。早于当前时间且不能晚于终止时间。时间格式为“yyyy-MM-dd HH:mm:ss”。

2018-01-01 00:00:00

终止时间

时间过滤为是时支持此参数。

指定一个时间值,当文件的修改时间早于该时间才会被传输。早于当前时间且不能早于起始时间。时间格式为“yyyy-MM-dd HH:mm:ss”。

2018-01-01 00:00:00

忽略不存在原路径/文件

在迁移过程中发现文件在源路径下不存在的情况下是否报错。如果将其设为是, 那么文件在源路径下不存在的情况下也能成功执行。

是否跳过空行

文件格式为CSV格式时支持此参数。

如果某行数据为空,则跳过此行。

null值

文件格式为CSV格式时支持此参数。

由于文本文件中无法用字符串定义null值,此配置项定义将何种字符串标识为null。

例如:如果配置为null,则数据中如果存在某行某列值为“null”,则会被解析为null值。

-

MD5文件名后缀

文件格式为二进制格式时支持此参数。

校验 CDM 抽取的文件,是否与源文件一致。

.md5

support.huaweicloud.com/usermanual-dataartsstudio/dataartsstudio_01_1474.html