MapReduce服务 MRS-创建FlinkServer作业写入数据至Hudi表:WITH主要参数说明
WITH主要参数说明
方式 |
配置项 |
是否必选 |
默认值 |
描述 |
---|---|---|---|---|
读取 |
read.tasks |
否 |
4 |
读Hudi表task并行度 |
read.streaming.enabled |
否 |
false |
是否开启流读模式 |
|
read.streaming.start-commit |
否 |
默认从最新commit |
Stream和Batch增量消费,指定“yyyyMMddHHmmss”格式时间的开始消费位置(闭区间) |
|
read.end-commit |
否 |
默认到最新commit |
Stream和Batch增量消费,指定“yyyyMMddHHmmss”格式时间的结束消费位置(闭区间) |
|
写入 |
write.tasks |
否 |
4 |
写Hudi表task并行度 |
index.bootstrap.enabled |
否 |
false |
是否开启索引加载,开启后会将已存表的最新数据一次性加载到state中。 如果有全量数据接增量的需求,且已经有全量的离线Hoodie表,需要接上实时写入,同时保证数据不重复,可以开启索引加载功能。 |
|
write.index_bootstrap.tasks |
否 |
4 |
如果启动作业时索引加载缓慢,可以调大该值,调大该值后可以加快bootstrap阶段的效率,但bootstrap阶段会阻塞CheckPoint |
|
compaction.async.enabled |
否 |
true |
是否开启在线压缩 |
|
compaction.schedule.enabled |
否 |
true |
是否阶段性生成压缩plan,即使关闭在线压缩的情况下也建议开启 |
|
compaction.tasks |
否 |
10 |
压缩Hudi表task并行度 |
|
index.state.ttl |
否 |
7D |
索引保存的时间,默认为7天(单位:天),小于“0”表示永久保存 索引是判断数据重复的核心数据结构,对于长时间的更新,比如更新一个月前的数据,需要将该值调大 |
- Hudi服务_什么是Hudi_如何使用Hudi
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce服务_什么是存算分离_如何配置MRS集群存算分离
- ModelArts模型训练_创建训练作业_如何创建训练作业
- MapReduce服务_什么是Flink_如何使用Flink
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- MapReduce服务_什么是Loader_如何使用Loader
- MapReduce服务_什么是Flume_如何使用Flume
- MapReduce服务_什么是Yarn_如何使用Yarn