数据湖探索 DLI-Upsert Kafka:功能描述
功能描述
Apache Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统,具有高吞吐量、内置分区、支持数据副本和容错的特性,适合在大规模消息处理场景中使用。Upsert Kafka 连接器支持以upsert方式从Kafka topic中读取数据并将数据写入Kafka topic。表类型支持源表和结果表。
- 作为source,upsert-kafka 连接器生产changelog流,其中每条数据记录代表一个更新或删除事件。
数据记录中的value被解释为同一key的最后一个value的UPDATE,如果有这个key(如果不存在相应的key,则该更新被视为INSERT)。用表来类比,changelog 流中的数据记录被解释为UPSERT,也称为INSERT/UPDATE,因为任何具有相同key的现有行都被覆盖。另外,value为空的消息将会被视作为DELETE消息。
- 作为sink,upsert-kafka连接器可以消费changelog流。它会将INSERT/UPDATE_AFTER数据作为正常的Kafka消息写入,并将DELETE数据以value为空的Kafka消息写入(表示对应 key 的消息被删除)。Flink将根据主键列的值对数据进行分区,从而保证主键上的消息有序,因此同一主键上的更新/删除消息将落在同一分区中。
类别 |
详情 |
---|---|
支持表类型 |
源表、结果表 |
- kafka是什么_kafka介绍_分布式消息服务Kafka版
- 什么是数据湖探索服务_数据湖探索DLI用途与特点
- 什么是Flink OpenSource SQL_数据湖探索_Flink OpenSource SQL
- Kafka架构_Kafka如何实现负载均衡_Kafka数据存储方式-华为云
- 分布式消息系统Kafka_分布式消息系统_分布式消息kafka可以解决什么问题-华为云
- 什么是跨源连接-数据湖探索DLI跨源连接
- MapReduce服务_什么是Kafka_如何使用Kafka
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- 什么是弹性资源池_数据湖探索DLI弹性资源池
- 分布式消息服务Kafka版与分布式消息服务RocketMQ版的区别_Kafka与RocketMQ对比_Kafka与RocketMQ差异