分布式消息服务KAFKA版-消息从生产到消费时延高达6分钟:分析过程

时间:2024-11-11 15:36:41

分析过程

  1. 怀疑是业务堆积,处理慢导致时延。

    通过查看监控数据,发现业务请求并不是很多,堆积最多时也只有50条消息,同时每秒新增消息只有10条左右,应该还没有到达处理极限。

  2. 排查EIP流量情况,发现入流量存在下降的场景。

    联系EIP服务技术人员协助排查,未发现问题。

  3. 从业务日志中分析消费组行为。

    通过查看服务端日志,消费组存在大量rebalance动作,大部分rebalance都会秒级完成,但偶尔会有分钟级别的rebalance耗时,而rebalance过程中是无法正常消费的,只有在rebalance动作完成才可以进行消费。

    该现象与问题现象描述的偶现长时间时延行为相吻合,问题确定。

support.huaweicloud.com/trouble-kafka/kafka-trouble-0709001.html