云服务器内容精选

华为云首页用户手册

Hudi数据表管理操作规范

MAPREDUCE服务 MRS-Hudi数据表Compaction规范:规则

规则有数据持续写入的表，24小时内至少执行一次compaction。对于MOR表，不管是流式写入还是批量写入，需要保证每天至少完成1次Compaction操作。如果长时间不做compaction，Hudi表的log将会越来越大，这必将会出现以下问题： Hudi表读取很慢，且需要很大的资源。这是由于读MOR表涉及到log合并，大log合并需要消耗大量的资源并且速度很慢。长时间进行一次Compaction需要耗费很多资源才能完成，且容易出现OOM。阻塞Clean，如果没有Compaction操作来产生新版本的Parquet文件，那旧版本的文件就不能被Clean清理，增加存储压力。 CPU与内存比例为1:4~1:8。 Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并，需要消耗较高的内存资源，按照之前的表设计规范以及实际流量的波动结合考虑，建议Compaction作业CPU与内存的比例按照1:4~1:8配置，保证Compaction作业稳定运行。当Compaction出现OOM问题，可以通过调大内存占比解决。

MAPREDUCE服务 MRS Hudi数据表管理操作规范
数据湖探索 DLI-Hudi数据表Archive规范:规则

规则 Hudi表必须执行Archive。对于Hudi的MOR类型和COW类型的表，都需要开启Archive。 Hudi表在写入数据时会自动判断是否需要执行Archive，因为Archive的开关默认打开(hoodie.archive.automatic默认为true)。 Archive操作并不是每次写数据时都会触发，至少需要满足以下两个条件： Hudi表满足hoodie.keep.max.commits设置的阈值。如果是Flink写hudi至少提交的checkpoint要超过这个阈值；如果是Spark写hudi，写Hudi的次数要超过这个阈值。 Hudi表做过Clean，如果没有做过Clean就不会执行Archive。

数据湖探索 DLI Hudi数据表管理操作规范