MAPREDUCE服务 MRS-Hudi Clustering操作说明:Clustering架构
Clustering架构
Hudi通过其写入客户端API提供了不同的操作,如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡,Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配置设置为“0”,以强制新数据写入新的文件组,或设置为更高的值以确保新数据被“填充”到现有小的文件组中,直到达到指定大小为止,但其会增加摄取延迟。
为能够支持快速摄取的同时不影响查询性能,引入了Clustering服务来重写数据以优化Hudi 数据湖 文件的布局。
Clustering服务可以异步或同步运行,Clustering会添加了一种新的REPLACE操作类型,该操作类型将在Hudi元数据时间轴中标记Clustering操作。
Clustering服务基于Hudi的MVCC设计,允许继续插入新数据,而Clustering操作在后台运行以重新格式化数据布局,从而确保并发读写者之间的快照隔离。
总体而言Clustering分为两个部分:
- 调度Clustering:使用可插拔的Clustering策略创建Clustering计划。
- 识别符合Clustering条件的文件:根据所选的Clustering策略,调度逻辑将识别符合Clustering条件的文件。
- 根据特定条件对符合Clustering条件的文件进行分组。每个组的数据大小应为targetFileSize的倍数。分组是计划中定义的"策略"的一部分。此外还有一个选项可以限制组大小,以改善并行性并避免混排大量数据。
- 将Clustering计划以avro元数据格式保存到时间线。
- 执行Clustering:使用执行策略处理计划以创建新文件并替换旧文件。
- 读取Clustering计划,并获得ClusteringGroups,其标记了需要进行Clustering的文件组。
- 对于每个组使用strategyParams实例化适当的策略类(例如:sortColumns),然后应用该策略重写数据。
- 创建一个REPLACE提交,并更新HoodieReplaceCommitMetadata中的元数据。
- MapReduce服务_什么是MapReduce服务_什么是HBase
- MPA遵从性说明通用指南
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- GaussDB架构_GaussDB数据库架构_高斯数据库架构-华为云
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- MapReduce服务_什么是Hue_如何使用Hue
- MapReduce服务_什么是Kafka_如何使用Kafka
- GaussDB操作_GaussDB版本_高斯数据库操作
- ModelArts计费说明_计费简介_ModelArts怎么计费
- 开通企业邮箱快速入门计费说明