kafka节点非正常退出后重启失败

张乘辉 发表于: 2020-03-11 最后更新时间: 2021-09-08 09:31:17 5,139 游览

kafka版本号：0.11.0.2
在 kafka-manager 查不到节点了，但是进程依然还在，然后通过 kill 命令杀死节点进程后，重启失败了。

重启后报如下错误：

一开始以为是index文件发生损坏损坏的原因，但是看了源码之后发现 0.11版本已经修复该问题了，所以在这里问下各位大佬，是什么原因导致该问题产生的？怎么解决？

该问题出现在 kafka broker 被强制干掉的情况，如果 kill -9 或者所在机器直接异常。

kafka

发表于 2020-03-11

张乘辉

￥6.0

你是强制kill了这个kafka节点，但这个节点有些topic分区是master，还有消息领先follower。follower成为master，丢失掉了这些信息，你在启动这台被kill的机器时，信息和之前的follower不对应，kafka的默认保护这些漏掉的消息，导致check时不正确，需要人工介入处理这些遗漏的消息，保障消息不会丢失。

可以通过配置unclean.leader.election.enable 其描述：是否启用不在ISR中的副本参与选举leader的最后的手段。这样做有可能丢失数据。

按照你下面的方式是ok的，也没问题的。

回答于 5年前

半兽人

张乘辉 -> 半兽人 5年前

0.11.0版本已经将unclean.leader.election.enable默认为false了，而且我看了配置，也是false，意味着可以允许丢掉这部分消息

张乘辉 -> 半兽人 5年前

我下面说的那个删除index文件，其实在0.11已经修复了的，我试过了，在启动过程中，Kafka会自动将损坏的index文件删除并重建，因此启动不成功，不管index损坏的事。而且即使我手动删index文件，也一样启动不成功

张乘辉 -> 张乘辉 5年前

这里我说错了，false是消息不允许丢失，刚刚我试了手动设置为true，还是一样会报：

Attempt to append an offset (110756715) to position 40111 no larger than the last offset appended (110756715) to /dfs5/kafka/data/secLogBillTrackInfoQueryCNPUSH-2/00000000000110325000.index.

半兽人 -> 张乘辉 5年前

额，unclean.leader.election.enable=true才会，但是，你这个不属于这个范畴了，这个只会影响follwer是否允许成为leader。

张乘辉 -> 半兽人 5年前

这个问题应该是0.11版本中的bug，我贴两个issue出来，一起参阅一下：
https://issues.apache.org/jira/browse/KAFKA-3955
https://issues.apache.org/jira/browse/KAFKA-4972
后面我总结出应对方案后也发出来给大家

从源码和日志文件结构中分析 Kafka 重启失败事件：

https://mp.weixin.qq.com/s/zbwGLygjvO_ncgp7FH9QMA

呕心沥血的一次分析，在过程中涉及了Kafka 构建索引文件的细节以及日志文件结构的分析。
遗憾的是找到这个应该说是Kafka的bug之后，发现官方并没有解决方案，只能删除错误日志文件，这太暴力了[流泪]，还是赶紧升级Kafka版本吧！

回答于 5年前

张乘辉

1、记一次 Kafka 重启失败问题排查
https://mp.weixin.qq.com/s/ee7_mhxnj05DxK3EJihyfQ
2、从源码和日志文件结构中分析 Kafka 重启失败事件
https://mp.weixin.qq.com/s/zbwGLygjvO_ncgp7FH9QMA
3、当 Kafka 分区不可用且 leader 副本被损坏时，如何尽量减少数据的丢失？
https://mp.weixin.qq.com/s/b1etPGC97xNjmgdQbycnSg

针对本次事件，我用 3 篇博客详细描述了前因后果，并给出了最后的终极解决方案。

回答于 5年前

张乘辉

启动日志发生大量以下日志：

WARN Found a corrupted index file due to requirement failed: Corrupt index found, index file (/dfs5/kafka/data/secLogBillTrackInfoQueryCNPUSH-2/00000000000110325000.
index) has non-zero size but the last offset is 110325000 which is no larger than the base offset 110325000.}. deleting /dfs5/kafka/data/secLogBillTrackInfoQueryCNPUSH-2/00000000000110325000.
timeindex, /dfs5/kafka/data/secLogBillTrackInfoQueryCNPUSH-2/00000000000110325000.index, and /dfs5/kafka/data/secLogBillTrackInfoQueryCNPUSH-2/00000000000110325000.txnindex and rebuilding ind
ex... (kafka.log.Log)

这是由于非正常退出，index文件损坏的原因，然后kafka在启动过程中将这些index文件删除重建，具体已在文章：

http://bigdatadecode.club/kafka-corrupt%20index%20found.html

中说明了，也就是说这个日志是正常的现象。

回答于 5年前

张乘辉

你的答案

查看kafka相关的其他问题或提一个您自己的问题。

提问

找不到想要的答案？提一个您自己的问题。

kafka节点非正常退出后重启失败

你的答案

昵称