数据湖探索 DLI-Hudi数据表Archive规范:规则

时间:2025-02-12 15:00:27

规则

Hudi表必须执行Archive。

对于Hudi的MOR类型和COW类型的表,都需要开启Archive。

  • Hudi表在写入数据时会自动判断是否需要执行Archive,因为Archive的开关默认打开(hoodie.archive.automatic默认为true)。
  • Archive操作并不是每次写数据时都会触发,至少需要满足以下两个条件:
    • Hudi表满足hoodie.keep.max.commits设置的阈值。如果是Flink写hudi至少提交的checkpoint要超过这个阈值;如果是Spark写hudi,写Hudi的次数要超过这个阈值。
    • Hudi表做过Clean,如果没有做过Clean就不会执行Archive。
support.huaweicloud.com/sqlref-hudi-dli/dli_hudi_0015.html