MapReduce服务 MRS-创建FlinkServer作业写入数据至Hudi表:WITH主要参数说明

时间:2025-01-26 10:49:31

WITH主要参数说明

表2 WITH主要参数说明

方式

配置项

是否必选

默认值

描述

读取

read.tasks

4

读Hudi表task并行度

read.streaming.enabled

false

是否开启流读模式

read.streaming.start-commit

默认从最新commit

Stream和Batch增量消费,指定“yyyyMMddHHmmss”格式时间的开始消费位置(闭区间)

read.end-commit

默认到最新commit

Stream和Batch增量消费,指定“yyyyMMddHHmmss”格式时间的结束消费位置(闭区间)

写入

write.tasks

4

写Hudi表task并行度

index.bootstrap.enabled

false

是否开启索引加载,开启后会将已存表的最新数据一次性加载到state中。

如果有全量数据接增量的需求,且已经有全量的离线Hoodie表,需要接上实时写入,同时保证数据不重复,可以开启索引加载功能。

write.index_bootstrap.tasks

4

如果启动作业时索引加载缓慢,可以调大该值,调大该值后可以加快bootstrap阶段的效率,但bootstrap阶段会阻塞CheckPoint

compaction.async.enabled

true

是否开启在线压缩

compaction.schedule.enabled

true

是否阶段性生成压缩plan,即使关闭在线压缩的情况下也建议开启

compaction.tasks

10

压缩Hudi表task并行度

index.state.ttl

7D

索引保存的时间,默认为7天(单位:天),小于“0”表示永久保存

索引是判断数据重复的核心数据结构,对于长时间的更新,比如更新一个月前的数据,需要将该值调大

support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_24180.html