数据湖探索 DLI-Hudi源表:注意事项
注意事项
- 建议Hudi作为Source表时设置限流
Hudi表作为Source表时,为防止数据上限超过流量峰值导致作业出现异常,建议设置限流(read.rate.limit),限流上限应该为业务上线压测的峰值。
- 及时对Hudi表进行Compaction,防止Hudi source算子checkpoint完成时间过长
当Hudi Source算子checkpoint完成时间长时,检查该Hudi表Compaction是否正常。因为当长时间不做Compaction时list性能会变差。
- 流读Hudi MOR表时,建议开启log index特性提升Flink流读性能
Hudi的Mor表可以通过log index提升读写性能, Sink和Source表添加属性 'hoodie.log.index.enabled'='true'
- 创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。