你好,我想再咨询一个问题。 offset提交超时,日志如下。 情况:六台kafka机器(ip1,ip2,ip3,ip4,ip5,ip6),只有一台kafka【ip1】会出现这个情况,这个是kafka服务器的问题吗,有找运维咨询,他说配置都是一样的。 Discovered group coordinator ip1:9092 (id: 2147483643 rack: null) Group coordinator ip1:9092 (id: 2147483643 rack: null) is unavailable or invalid, will attempt rediscovery Offset commit failed on partition eventPrd-0 at offset 979460: The request timed out.
1、该集群是刚刚搭建好在测试,还是已经运行很久新出的问题。
2、需要描述一下部署环境
3、 挨个telnet 9092,确保每个都是通的。
4、防火墙
该问题就是超时问题,针对环境之间的网络排查,准没错
1.集群是公司运维搭建的,很多应用都在用,集群应该没问题的。
2.部署环境:应用集群,同在一个机房,只有个别机器会有这个问题。
3.出现问题的机器进行telnet 9092,端口都是通的。
4.防火墙肯定开墙的。
5.还有一种情况,例如,我有一台机器在昨天是可以正常生产消息的,今天就一直更新Metadata超时,而别的机器是可以正常发送的。
如果通过重启有故障的发送程序恢复,先排除集群故障。
1、个别机器有问题,是轮着来,今天这个明天那个,还是固定在某台?
2、整个集群收到的发送量有多大,带宽是否接近打满?
3、检查
检查对应的topic的分区是否正常。
bin/kafka-topics.sh --describe --zookeeper
检查消费者组中的使用情况
bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning --consumer.config config/consumer.properties
1.目前来看是机器是不固定,可能是正常运行着就突然出现异常,有时候重启会解决问题。
2.现在还是实验性阶段,所以发送量不大。
3.有4个分区三个副本,观察也是无问题的。
如果系统分区都是正常的,接收的消息也是正常的,那你可以考虑用kafka自带的压测工具压一下,定位程序代码的问题。
Discovered group coordinator ip:9092 (id: 2147483643 rack: null)
Revoking previously assigned partitions []
看消费者日志有打印出这个,这个会有影响嘛
偶尔打没问题,轮询打,就是zk版本引起的问题了。
zk推荐版本
3.4.6
或3.4.9
好的,感谢回答~ 谢谢
你好,我想再咨询一个问题。
offset提交超时,日志如下。
情况:六台kafka机器(ip1,ip2,ip3,ip4,ip5,ip6),只有一台kafka【ip1】会出现这个情况,这个是kafka服务器的问题吗,有找运维咨询,他说配置都是一样的。
Discovered group coordinator ip1:9092 (id: 2147483643 rack: null)
Group coordinator ip1:9092 (id: 2147483643 rack: null) is unavailable or invalid, will attempt rediscovery
Offset commit failed on partition eventPrd-0 at offset 979460: The request timed out.
你的答案