华为云计算云知识 Apache Hudi-

Apache Hudi-

时间: 2023-11-07 02:10:47

猜你想看：

华为云产品区块链服务BCS 云安全产品关系型云数据库

适用于：Linux

商品简介：Apache Hudi是下一代流数据湖平台，它直接在数据湖中引入了核心的仓库和数据库功能。Hudi提供了两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

商品亮点：内置OBS作为连接源

商品说明

版本: V1.0	交付方式: 镜像
适用于: Linux	上架日期: 2023-11-07 02:10:47

Apache Hudi，也被发音为“hoodie”，是下一代流数据湖平台。它直接在数据湖中引入了核心的仓库和数据库功能。Hudi提供了两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。此外，Hudi还支持表、事务、高效的upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发，同时保持数据以开源文件格式保留。

以下是Apache Hudi的一些主要特性：

①支持多种类型操作：Hudi表允许多种类型操作，包括非常常用的upsert。为了支持upsert，Hudi依赖索引机制来定位记录在哪些文件中。
②支持分区和非分区数据集：Hudi支持分区和非分区的数据集。分区数据集是将一组文件（数据）放在称为分区的桶中的数据集。
③使用索引加快更删操作：对于Copy-On-Write表，索引能加快更删的操作，因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表，这个设计，对于任意给定的基文件，能限定要读取的文件范围。
④支持事务：Hudi支持事务，这使得在处理大量数据时可以确保数据的完整性和一致性。
⑤高效的upserts/删除：Hudi提供高效的upserts和删除操作，这对于实时或近实时数据处理的场景非常有用。
⑥高级索引：Hudi支持高级索引，这使得用户可以更快地查询和检索数据。
⑦流式摄取服务：Hudi支持流式摄取服务，这使得用户可以实时将数据添加到数据湖中。
⑧数据群集/压缩优化以及并发：Hudi支持数据群集、压缩优化以及并发，这使得它在处理大量数据时能够保持高效和可扩展性。

查看详情

云商店免费试用中心

立即体验

Apache Hudi

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

专题
文章