数据湖探索 DLI-Hudi源表:注意事项

时间:2024-12-27 10:34:32

注意事项

  • 建议Hudi作为Source表时设置限流

    Hudi表作为Source表时,为防止数据上限超过流量峰值导致作业出现异常,建议设置限流(read.rate.limit),限流上限应该为业务上线压测的峰值。

  • 及时对Hudi表进行Compaction,防止Hudi source算子checkpoint完成时间过长

    当Hudi Source算子checkpoint完成时间长时,检查该Hudi表Compaction是否正常。因为当长时间不做Compaction时list性能会变差。

  • 流读Hudi MOR表时,建议开启log index特性提升Flink流读性能

    Hudi的Mor表可以通过log index提升读写性能, Sink和Source表添加属性 'hoodie.log.index.enabled'='true'

  • 创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。
support.huaweicloud.com/sqlref-flink-dli/dli_08_15055.html