数据湖探索 DLI-FileSystem结果表:参数说明
参数说明
参数 |
是否必选 |
默认值 |
类型 |
说明 |
---|---|---|---|---|
connector |
是 |
无 |
String |
固定位filesystem。 |
path |
是 |
无 |
String |
OBS路径。 |
format |
是 |
无 |
String |
文件格式。 支持csv、parquet格式。 |
sink.rolling-policy.file-size |
否 |
128MB |
MemorySize |
单个part文件最大大小,超过该数值会滚动产生新文件。
说明:
RollingPolicy 定义了何时关闭给定的In-progress Part文件,并将其转换为Pending状态,然后再转换为Finished状态。 Finished状态的文件,可供查看并且可以保证数据的有效性,在出现故障时不会恢复。 在STREAMING模式下,滚动策略结合Checkpoint间隔(到下一个Checkpoint成功时,文件的Pending状态才转换为Finished状态)共同控制Part文件对下游readers是否可见以及这些文件的大小和数量。 |
sink.rolling-policy.rollover-interval |
否 |
30 min |
Duration |
单个Part文件处于打开状态的最长时间,超过该时间会滚动产生新文件(默认值30分钟,以避免产生大量小文件)。检查频率是通过sink.rolling-policy.check-interval参数控制的。
说明:
该参数数字与单位之间必须要有空格。 支持的时间单位包括: d,h,min,s,ms等。 对于bulk格式的文件(parquet、orc、avro),checkpoint的时间间隔也会控制单个part文件打开的最长时间。 |
sink.rolling-policy.check-interval |
否 |
1 min |
Duration |
基于时间的滚动策略的检查间隔。 该属性控制了基于sink.rolling-policy.rollover-interval属性检查文件是否该被滚动的检查频率。 |
auto-compaction |
否 |
false |
Boolean |
在流式 sink 中是否开启自动合并功能。数据首先会被写入临时文件。当checkpoint完成后,该checkpoint产生的临时文件会被合并。 |
compaction.file-size |
否 |
`sink.rolling-policy.file-size`的大小 |
MemorySize |
合并目标文件大小,默认值为滚动文件大小。
说明:
|