最近一个项目中kafka集群经常出现一个情况,所有broker都会同时在fetch数据时得不到某一个broker的响应,一直报下图中的错误,会持续很长时间。一旦这个情况出现会影响flume加载,数据接入会停掉。而此时出问题的broker,我看了日志,并没有什么异常,只是日志刷的少了,下图为异常broker日志 还想请前辈看看是哪方面的问题,或者有什么想法建议之类的,本人感激不尽。
1、调大超时时间
2、zk版本3.6或3.9(ps:最近发现非这两个版本会出很多莫名问题)。
1、request.timeout.ms是这个时间吗?但是这个异常如果不人工干预的话,会一致持续存在。调大时间会奏效吗?
2、应该不是zk的问题,我们zk版本是3.4.5
你这个错误表象是网络问题,之前遇到过类似,虽然是内网走千兆网卡,但是依然莫名引起超时导致崩溃。
我针对内部的各类超时时间都放大了,目前再也没出现过了。
那如果kafka之间互相复制时响应时间超过设定的这个超时时间,kafka内部会怎么样处理?
认为此broker节点故障。踢出集群,它当前节点上的消息将不可用。
你的答案