Apache Hudi-
版本: V1.0 | 交付方式: 镜像 |
适用于: Linux | 上架日期: 2023-11-07 02:10:46 |
Apache Hudi,也被发音为“hoodie”,是下一代流 数据湖 平台。它直接在数据湖中引入了核心的仓库和 数据库 功能。Hudi提供了两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。此外,Hudi还支持表、事务、高效的upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发,同时保持数据以 开源 文件格式保留。
以下是Apache Hudi的一些主要特性:
①支持多种类型操作:Hudi表允许多种类型操作,包括非常常用的upsert。为了支持upsert,Hudi依赖索引机制来定位记录在哪些文件中。
②支持分区和非分区 数据集 :Hudi支持分区和非分区的数据集。分区数据集是将一组文件(数据)放在称为分区的桶中的数据集。
③使用索引加快更删操作:对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表,这个设计,对于任意给定的基文件,能限定要读取的文件范围。
④支持事务:Hudi支持事务,这使得在处理大量数据时可以确保数据的完整性和一致性。
⑤高效的upserts/删除:Hudi提供高效的upserts和删除操作,这对于实时或近实时数据处理的场景非常有用。
⑥高级索引:Hudi支持高级索引,这使得用户可以更快地查询和检索数据。
⑦流式摄取服务:Hudi支持流式摄取服务,这使得用户可以实时将数据添加到数据湖中。
⑧数据群集/压缩优化以及并发:Hudi支持数据群集、压缩优化以及并发,这使得它在处理大量数据时能够保持高效和可扩展性。