MAPREDUCE服务 MRS-常用概念:Structured Streaming常用概念
Structured Streaming常用概念
- Input Source
输入数据源,数据源需要支持根据offset重放数据,不同的数据源有不同的容错性。
- Sink
数据输出,Sink要支持幂等性写入操作,不同的sink有不同的容错性。
- outputMode
结果输出模式,当前支持3种输出模:
- Complete Mode:整个更新的结果集都会写入外部存储。整张表的写入操作将由外部存储系统的连接器完成。
- Append Mode:当时间间隔触发时,只有在Result Table中新增加的数据行会被写入外部存储。这种方式只适用于结果集中已经存在的内容不希望发生改变的情况下,如果已经存在的数据会被更新,不适合适用此种方式。
- Update Mode:当时间间隔触发时,只有在Result Table中被更新的数据才会被写入外部存储系统。注意,和Complete Mode方式的不同之处是不更新的结果集不会写入外部存储。
- Trigger
输出触发器,当前支持以下几种trigger:
- 默认:以微批模式执行,每个批次完成后自动执行下个批次。
- 固定间隔:固定时间间隔执行。
- 一次执行:只执行一次query,完成后退出。
- 连续模式:实验特性,可实现低至1ms延迟的流处理(推荐100ms)。
Structured Streaming支持微批模式和连续模式。微批模式不能保证对数据的低延迟处理,但是在相同时间下有更大的吞吐量;连续模式适合毫秒级的数据处理延迟,当前暂时还属于实验特性。
在当前版本中,若需要使用流流Join功能,则output模式只能选择append模式。
- GaussDB常用概念_产品介绍_高斯数据库常用概念-华为云
- 什么是Spark_如何使用Spark_Spark的功能是什么
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- MapReduce服务_什么是MapReduce服务_什么是HBase
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce服务_什么是HetuEngine_如何使用HetuEngine
- MapReduce服务_什么是Hue_如何使用Hue
- MapReduce服务_什么是Kafka_如何使用Kafka
- 什么是数字人_声音克隆_数字人直播-华为云1
- MapReduce服务_什么是HDFS_HDFS特性