zookeeper集群为3台,版本为3.4.6,运行正常的情况下,有一个follower突然挂掉,毫无征兆的挂掉,现在排查找不到具体原因,希望有遇到过的解答一下:
以下是我排查的记录过程:
1、由于服务器都是双网卡配置的,怀疑网卡突然挂掉,连接不上导致超时,但是排查linux系统下的网络日志并未发现网络有断网或者网卡切换的情况;
2、采用netstat -ae发现某一台zookeeper服务器所在的处于等待状态的进程为521个,其他服务器均在90左右;
3、服务器分别安装在两个交换机上,网关不同,在第一次测试的时候延时较大,但第二、三、四次后延时在3-4毫秒左右,排除网络延时的情况;
4、服务器的防火墙全部关闭,这个检查过;
5、zookeeper的参数采用默认参数,服务器之间通讯再用如下设置:
server.0=178.19.56.142:4000:4002
server.1=178.19.56.143:4000:4002
server.2=178.19.56.144:4000:4002
现在排查后还是未发现是什么原因导致的某一个zookeeper节点突然挂掉,希望大神可以帮一下,谢谢,把3台zookeeper所在的日志截图一下,麻烦请帮忙看一下。
zk日志我看没什么问题。
你关注一下系统日志,找找有没有强杀的日志,比如zk内存超了,给强杀了。
我们系统内存都是512G的144核,万兆网络,20T硬盘,看那些系统日志呀?我观察了一下网络日志,没报错,还可以查看哪些系统日志?
就是突然的zookeeper挂掉了,那个时间段,没有执行过强制kill杀死zookeeper进程
这种情况真没遇到过了。
目前我所知的是,当在系统进行强杀的情况下,zk是来不及打error这种级别的日志的。
如果是zk自己崩溃,理论上是会有日志打的。
那这种强制杀死的记录会在什么地方进行记录呢?我想看一下这个日志,麻烦说一下具体在linux系统下的什么路径下可以查看吧?
/var/log/messages
你的答案