华为云计算 云知识 Apache Hudi-

Apache Hudi-

Apache Hudi
适用于:Linux
商品简介:Apache Hudi是下一代流数据湖平台,它直接在数据湖中引入了核心的仓库和数据库功能。Hudi提供了两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。
商品亮点:内置OBS作为连接源
Apache Hudi
商品说明
版本: V1.0 交付方式: 镜像
适用于: Linux 上架日期: 2023-11-07 02:10:46

Apache Hudi,也被发音为“hoodie”,是下一代流 数据湖 平台。它直接在数据湖中引入了核心的仓库和 数据库 功能。Hudi提供了两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。此外,Hudi还支持表、事务、高效的upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发,同时保持数据以 开源 文件格式保留。

以下是Apache Hudi的一些主要特性:

①支持多种类型操作:Hudi表允许多种类型操作,包括非常常用的upsert。为了支持upsert,Hudi依赖索引机制来定位记录在哪些文件中。
②支持分区和非分区 数据集 :Hudi支持分区和非分区的数据集。分区数据集是将一组文件(数据)放在称为分区的桶中的数据集。
③使用索引加快更删操作:对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表,这个设计,对于任意给定的基文件,能限定要读取的文件范围。
④支持事务:Hudi支持事务,这使得在处理大量数据时可以确保数据的完整性和一致性。
⑤高效的upserts/删除:Hudi提供高效的upserts和删除操作,这对于实时或近实时数据处理的场景非常有用。
⑥高级索引:Hudi支持高级索引,这使得用户可以更快地查询和检索数据。
⑦流式摄取服务:Hudi支持流式摄取服务,这使得用户可以实时将数据添加到数据湖中。
⑧数据群集/压缩优化以及并发:Hudi支持数据群集、压缩优化以及并发,这使得它在处理大量数据时能够保持高效和可扩展性。

查看详情

云商店免费试用中心

立即体验
Flexus应用服务器L实例 2核2G 免费体验