0.8.2.1版本的kafkaclient,生产消息,获取metadata超时,超时时间60000 ms

匣与桔 发表于: 2019-11-11   最后更新时间: 2019-11-12 00:40:58   2,031 游览

发送消息到kafka,获取metadata超时,一直处于wait状态,端口是通的,6台集群。

我有两个线程发到不同topic消息,有时重启后只有一个topic可以正常发送,另一个则超时,重启后有时会恢复正常,有时会反过来(超时的恢复正常,正常的发送超时)。

 代码不方便贴出来,在公司电脑,代码无法copy出来。

报错信息:没有调发送后的回调函数,看ThreadDump是获取Medata超时

网上说的都是需要改配置,我这个有时可以正常发送,配置应该没问题吧

还请帮忙给个排查思路

发表于 2019-11-11
添加评论

1、该集群是刚刚搭建好在测试,还是已经运行很久新出的问题。
2、需要描述一下部署环境
3、 挨个telnet 9092,确保每个都是通的。
4、防火墙
该问题就是超时问题,针对环境之间的网络排查,准没错

匣与桔 -> 半兽人 5年前

1.集群是公司运维搭建的,很多应用都在用,集群应该没问题的。
2.部署环境:应用集群,同在一个机房,只有个别机器会有这个问题。
3.出现问题的机器进行telnet 9092,端口都是通的。
4.防火墙肯定开墙的。
5.还有一种情况,例如,我有一台机器在昨天是可以正常生产消息的,今天就一直更新Metadata超时,而别的机器是可以正常发送的。

半兽人 -> 匣与桔 5年前

如果通过重启有故障的发送程序恢复,先排除集群故障。
1、个别机器有问题,是轮着来,今天这个明天那个,还是固定在某台?
2、整个集群收到的发送量有多大,带宽是否接近打满?
3、检查

检查对应的topic的分区是否正常。

 bin/kafka-topics.sh --describe --zookeeper

检查消费者组中的使用情况

 bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning  --consumer.config config/consumer.properties
匣与桔 -> 半兽人 5年前

1.目前来看是机器是不固定,可能是正常运行着就突然出现异常,有时候重启会解决问题。
2.现在还是实验性阶段,所以发送量不大。
3.有4个分区三个副本,观察也是无问题的。

半兽人 -> 匣与桔 5年前

如果系统分区都是正常的,接收的消息也是正常的,那你可以考虑用kafka自带的压测工具压一下,定位程序代码的问题。

匣与桔 -> 半兽人 5年前

Discovered group coordinator ip:9092 (id: 2147483643 rack: null)
Revoking previously assigned partitions []
看消费者日志有打印出这个,这个会有影响嘛

半兽人 -> 匣与桔 5年前

偶尔打没问题,轮询打,就是zk版本引起的问题了。
zk推荐版本3.4.63.4.9

匣与桔 -> 半兽人 5年前

好的,感谢回答~ 谢谢

匣与桔 -> 半兽人 5年前

你好,我想再咨询一个问题。
offset提交超时,日志如下。
情况:六台kafka机器(ip1,ip2,ip3,ip4,ip5,ip6),只有一台kafka【ip1】会出现这个情况,这个是kafka服务器的问题吗,有找运维咨询,他说配置都是一样的。
Discovered group coordinator ip1:9092 (id: 2147483643 rack: null)
Group coordinator ip1:9092 (id: 2147483643 rack: null) is unavailable or invalid, will attempt rediscovery
Offset commit failed on partition eventPrd-0 at offset 979460: The request timed out.

你的答案

查看kafka相关的其他问题或提一个您自己的问题