MAPREDUCE服务 MRS-建议
建议
目前Hudi主要适用在实时入湖和增量数据ETL的场景,针对存量的历史数据可以批量导入Hudi表。
针对增量数据基本都是新增数据,侧重于读取数据的性能场景,更适合适用COW表。
针对对入湖性能有较高要求且增量数据中含有大量新增更新数据的场景,更适合用MOR表。
对于分区键的设置,根据业务建议使用日期字段来进行分区。
Hudi实时入湖时资源配置与Kafka的partition有一定关系,在消费kafka时一个partition只能被一个executor-core消费,因此过多配置executor-core会造成一定程度的资源浪费。
Spark streaming实时入湖的消费批次参数设置需要根据实际情况,满足每批次的间隔时间稍小于消费一批次消息写入Hudi表的时间。
Hudi写入的并行度设置不宜过大,适当缩小并行度可以缩短处理时间。
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- MapReduce服务_什么是MapReduce服务_什么是HBase
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce服务_什么是Hue_如何使用Hue
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- MapReduce服务_什么是Kafka_如何使用Kafka
- MapReduce服务_什么是ZooKeeper_如何使用ZooKeeper
- MapReduce服务_什么是ClickHouse_如何使用ClickHouse
- MapReduce服务_什么是HDFS_HDFS特性
- MapReduce服务_什么是Yarn_如何使用Yarn