1、kafka五个cluster,每次都是那个cluster挂掉
2、版本v2.5, server.log里无任何error,KAFKA_HEAP_OPTS=-Xms8G -Xmx8G
3、linux 系统log里显示如下:
May 9 11:45:09 kernel: [22427824.708080] Out of memory: Kill process 10689 (java) score 436 or sacrifice child
May 9 11:45:09 kernel: [22427824.710126] Killed process 10689 (java), UID 0, total-vm:35007216kB, anon-rss:6585580kB, file-rss:0kB, shmem-rss:0kB
May 9 11:45:09 systemd[1]: Created slice User Slice of root.
May 9 11:45:09 systemd[1]: Started Session 81916 of user root.
May 9 11:45:12 sh[10688]: /bin/sh: line 1: 10689 Killed /opt/kafka/bin/kafka-server-start.sh /opt/kafka/config/server.properties > /dev/null 2>&1
May 9 11:45:12 systemd[1]: kafka.service: main process exited, code=exited, status=137/n/a
4、还有一个很奇怪的是,五台cluster其中一台挂了,整个集群就不work了,不知道什么原因,在排查是否有topic replica
等于5,这种情况会导致挂了一台就不work吗?
kafka OOM问题
造成OOM的主要原因是调整了系统默认的
最大数
,比如:message.max.bytes
,socket.request.max.bytes
等。更多参考:Kafka Broker配置,搜索关键字
max
。所以相应的JVM也要增加。你出现oom,还要继续加大,说明没有满足阈值。
kafka高可用
五台cluster其中一台挂了,整个集群就不work了,很可能造成这个原因是存储消费者offset的topic是单副本,通过以下命令查询:
bin/kafka-topics.sh --bootstrap-server localhost:9092 --topic __consumer_offsets --describe
如果是单副本,扩容该主题即可。
还真是,茅塞顿开,谢谢
采纳吧
你的答案