MAPREDUCE服务 MRS-Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records:回答
MAPREDUCE服务 MRS-Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records:回答
回答
Kafka重启成功后应用会按照batch时间把2017/05/11 10:57:00~2017/05/11 10:58:00缺失的RDD补上(如图2所示),尽管UI界面上显示读取的数据个数为“0”,但实际上这部分数据在补的RDD中进行了处理,因此,不存在数据丢失。
Kafka重启时间段的数据处理机制如下。
Spark Streaming应用使用了state函数(例如:updateStateByKey),在Kafka重启成功后,Spark Streaming应用生成2017/05/11 10:58:00 batch任务时,会按照batch时间把2017/05/11 10:57:00~2017/05/11 10:58:00缺失的RDD补上(Kafka重启前Kafka上未读取完的数据,属于2017/05/11 10:57:00之前的batch),如图2所示。
- MapReduce服务_什么是Kafka_如何使用Kafka
- MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用
- 分布式消息中间件实战_分布式消息实战_分布式消息-华为云
- 什么是Spark_如何使用Spark_Spark的功能是什么
- GaussDB华为部署_高斯数据库_高斯数据库华为部署_华为云
- MRS优势_什么是MRS_MRS功能
- 什么是Manager_Manager的功能_MRS运维管理
- kafka是什么_kafka介绍_分布式消息服务Kafka版
- MapReduce服务_什么是Hue_如何使用Hue
- 日志监控与告警_日志告警规则_如何配置日志告警_日志分析_日志服务