MAPREDUCE服务 MRS-建议

时间:2023-11-13 09:55:57

建议

目前Hudi主要适用在实时入湖和增量数据ETL的场景,针对存量的历史数据可以批量导入Hudi表。

针对增量数据基本都是新增数据,侧重于读取数据的性能场景,更适合适用COW表。

针对对入湖性能有较高要求且增量数据中含有大量新增更新数据的场景,更适合用MOR表。

对于分区键的设置,根据业务建议使用日期字段来进行分区。

Hudi实时入湖时资源配置与Kafka的partition有一定关系,在消费kafka时一个partition只能被一个executor-core消费,因此过多配置executor-core会造成一定程度的资源浪费。

Spark streaming实时入湖的消费批次参数设置需要根据实际情况,满足每批次的间隔时间稍小于消费一批次消息写入Hudi表的时间。

Hudi写入的并行度设置不宜过大,适当缩小并行度可以缩短处理时间。

support.huaweicloud.com/devg-lts-mrs/mrs_07_450102.html