数据湖探索 DLI-FileSystem结果表:参数说明

时间:2024-11-16 13:21:43

参数说明

表1 参数说明

参数

是否必选

默认值

类型

说明

connector

String

固定位filesystem。

path

String

OBS路径。

format

String

文件格式。

支持csv、parquet格式。

sink.rolling-policy.file-size

128MB

MemorySize

单个part文件最大大小,超过该数值会滚动产生新文件。

说明:

RollingPolicy 定义了何时关闭给定的In-progress Part文件,并将其转换为Pending状态,然后再转换为Finished状态。 Finished状态的文件,可供查看并且可以保证数据的有效性,在出现故障时不会恢复。 在STREAMING模式下,滚动策略结合Checkpoint间隔(到下一个Checkpoint成功时,文件的Pending状态才转换为Finished状态)共同控制Part文件对下游readers是否可见以及这些文件的大小和数量。

sink.rolling-policy.rollover-interval

30 min

Duration

单个Part文件处于打开状态的最长时间,超过该时间会滚动产生新文件(默认值30分钟,以避免产生大量小文件)。检查频率是通过sink.rolling-policy.check-interval参数控制的。

说明:

该参数数字与单位之间必须要有空格。

支持的时间单位包括: d,h,min,s,ms等。

对于bulk格式的文件(parquet、orc、avro),checkpoint的时间间隔也会控制单个part文件打开的最长时间。

sink.rolling-policy.check-interval

1 min

Duration

基于时间的滚动策略的检查间隔。

该属性控制了基于sink.rolling-policy.rollover-interval属性检查文件是否该被滚动的检查频率。

auto-compaction

false

Boolean

在流式 sink 中是否开启自动合并功能。数据首先会被写入临时文件。当checkpoint完成后,该checkpoint产生的临时文件会被合并。

compaction.file-size

`sink.rolling-policy.file-size`的大小

MemorySize

合并目标文件大小,默认值为滚动文件大小。

说明:
  • 只有在同个checkpoint内的文件会被合并,因此最终文件的数量至少等于checkpoint的数量。
  • 如果合并时间较长,可能会引起反压,延长checkpoint所需时间。
  • 开启该功能后,checkpoint时会产生最终文件,并打开新的文件接收下个checkpoint产生的数据。
support.huaweicloud.com/sqlref-flink-dli/dli_08_0439.html