多谢回复,根据你的建议,我总结了一下集群中的相关数据,请帮忙看一下可能引起所述问题的会是哪一项呢?
其中每个节点内存和cpu分别是256G和48 processor
节点 1 2 3 4 5
kafka占用内存 32G 32G 32G 32G 32G
连接数 2063 1260 18911 4769 4868
GC总时长 406.178 124.346 581.161 613.546 242.607
kafka server的运行日志, 已经解决,分享下解决方法:
1.下载apache-log4j-extras-1.2.17.jar并拷贝到KAFKA_HOME/libs/ 下
大虾, 异常发生时我查看消费者日志和server日志并且确认了客户端和服务端版本一致,均为0.11.0.1,所以应该不是版本不一致导致的。
对了,问题发生是,server端因为Full GC 时间过长,那段时间内server是不可用的,不知道会不会导致这个问题。