数据湖探索 DLI-Hudi数据表Clean规范:规则

时间:2025-02-12 15:00:27

规则

Hudi表必须执行Clean。

对于Hudi的MOR、COW表,都需要开启Clean。

  • Hudi表在写入数据时会自动判断是否需要执行Clean,因为Clean的开关默认打开(hoodie.clean.automatic默认为true)。
  • Clean操作并不是每次写数据时都会触发,至少需要满足两个条件:
    1. Hudi表中需要有旧版本的文件。对于COW表来说,只要保证数据被更新过就一定存在旧版本的文件。对于MOR表来说,要保证数据被更新过并且做过Compaction才能有旧版本的文件。
    2. Hudi表满足hoodie.cleaner.commits.retained设置的阈值。如果是Flink写hudi,则至少提交的checkpoint要超过这个阈值;如果是批写Hudi,则批写次数要超过这个阈值。
support.huaweicloud.com/sqlref-hudi-dli/dli_hudi_0014.html