MAPREDUCE服务 MRS-Spark常用配置参数:Spark Streaming Kafka

时间:2024-11-28 01:44:26

Spark Streaming Kafka

Receiver是Spark Streaming一个重要的组成部分,它负责接收外部数据,并将数据封装为Block,提供给Streaming消费。最常见的数据源是Kafka,Spark Streaming对Kafka的集成也是最完善的,不仅有可靠性的保障,而且也支持从Kafka直接作为RDD输入。

表7 参数说明

参数

描述

默认值

spark.streaming.kafka.maxRatePerPartition

使用Kafka direct stream API时,从每个Kafka分区读取数据的最大速率(每秒记录数量)。

-

spark.streaming.blockInterval

在被存入Spark之前Spark Streaming Receiver接收数据累积成数据块的间隔(毫秒)。推荐最小值为50毫秒。

200ms

spark.streaming.receiver.maxRate

每个Receiver接收数据的最大速率(每秒记录数量)。配置设置为0或者负值将不会对速率设限。

-

spark.streaming.receiver.writeAheadLog.enable

是否使用ReliableKafkaReceiver。该Receiver支持流式数据不丢失。

false

support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_1931.html