MAPREDUCE服务 MRS-Hudi表模型设计规范:建议

时间:2024-11-06 21:54:31

建议

  • Spark批处理场景,对写入时延要求不高的场景,采用COW表。

    COW表模型中,写入数据存在写放大问题,因此写入速度较慢;但COW具有非常好的读取性能力。而且批量计算对写入时延不是很敏感,因此可以采用COW表。

  • Hudi表的写任务要开启Hive元数据同步功能。

    SparkSQL天然与Hive集成,无需考虑元数据问题。该条建议针对的是通过Spark Datasource API或者Flin写Hudi表的场景,通过这两种方式写Hudi时需要增加向Hive同步元数据的配置项;该配置的目的是将Hudi表的元数据统一托管到Hive元数据服务中,为后续的跨引擎操作数据以及数据管理提供便利。

support.huaweicloud.com/devg-rule-mrs/mrs_07_450111.html