MAPREDUCE服务 MRS-由于kafka配置的限制,导致Spark Streaming应用运行失败:回答
回答
如下图所示,Spark Streaming应用中定义的逻辑为,从kafka中读取数据,执行对应处理之后,然后将结果数据回写至kafka中。
例如:Spark Streming中定义了批次时间,如果数据传入Kafka的速率为10MB/s,而Spark Streaming中定义了每60s一个批次,回写数据总共为600MB。而Kafka中定义了接收数据的阈值大小为500MB。那么此时回写数据已超出阈值。此时,会出现上述错误。
解决措施:
方式一:推荐优化Spark Streaming应用程序中定义的批次时间,降低批次时间,可避免超过kafka定义的阈值。一般建议以5-10秒/次为宜。
方式二:将kafka的阈值调大,建议在 MRS Manager中的Kafka服务进行参数设置,将socket.request.max.bytes参数值根据应用场景,适当调整。
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 什么是Spark_如何使用Spark_Spark的功能是什么
- 大数据分析是什么_使用MapReduce_创建MRS服务
- MapReduce服务_什么是Kafka_如何使用Kafka
- MapReduce服务_什么是Flume_如何使用Flume
- MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云
- 分布式消息系统Kafka_分布式消息系统_分布式消息kafka可以解决什么问题-华为云
- 数据备份归档在哪里_数据分析存储系统_大数据存储管理
- Hudi服务_什么是Hudi_如何使用Hudi
- MapReduce服务_什么是ZooKeeper_如何使用ZooKeeper