kafka中文教程

原创
半兽人 发表于: 2015-01-01   最后更新时间: 2024-02-18 09:24:22  
{{totalSubscript}} 订阅, 871,267 游览

本网翻译整理Apache kafka,提供Apache kafka完整学习文档。


发布 & 订阅
数据流,如消息传递系统

处理
高效并实时

处理
数据安全地在分布式集群中复制存储

kafka

kafka是用于构建实时数据管道和流应用程序。具有横向扩展,容错,wicked fast(变态快)等优点,并已在成千上万家公司运行。

简单说明什么是kafka

Apache kafka是消息中间件的一种,我发现很多人不知道消息中间件是什么,在开始学习之前,我这边就先简单的解释一下什么是消息中间件,只是粗略的讲解,目前kafka已经可以做更多的事情。

举个例子,生产者消费者,生产者生产鸡蛋,消费者消费鸡蛋,生产者生产一个鸡蛋,消费者就消费一个鸡蛋,假设消费者消费鸡蛋的时候噎住了(系统宕机了),生产者还在生产鸡蛋,那新生产的鸡蛋就丢失了。再比如生产者很强劲(大交易量的情况),生产者1秒钟生产100个鸡蛋,消费者1秒钟只能吃50个鸡蛋,那要不了一会,消费者就吃不消了(消息堵塞,最终导致系统超时),消费者拒绝再吃了,”鸡蛋“又丢失了,这个时候我们放个篮子在它们中间,生产出来的鸡蛋都放到篮子里,消费者去篮子里拿鸡蛋,这样鸡蛋就不会丢失了,都在篮子里,而这个篮子就是”kafka“。

鸡蛋其实就是“数据流”,系统之间的交互都是通过“数据流”来传输的(就是tcp、https什么的),也称为报文,也叫“消息”。

消息队列满了,其实就是篮子满了,”鸡蛋“ 放不下了,那赶紧多放几个篮子,其实就是kafka的扩容。

各位现在知道kafka是干什么的了吧,它就是那个"篮子"。

kafka名词解释

后面大家会看到一些关于kafka的名词,比如topic、producer、consumer、broker,我这边来简单说明一下。

  • producer:生产者,就是它来生产“鸡蛋”的。
  • consumer:消费者,生出的“鸡蛋”它来消费。
  • topic:你把它理解为标签,生产者每生产出来一个鸡蛋就贴上一个标签(topic),消费者可不是谁生产的“鸡蛋”都吃的,这样不同的生产者生产出来的“鸡蛋”,消费者就可以选择性的“吃”了。
  • broker:就是篮子了。

大家一定要学会抽象的去思考,上面只是属于业务的角度,如果从技术角度,topic标签实际就是队列,生产者把所有“鸡蛋(消息)”都放到对应的队列里了,消费者到指定的队列里取。

微信公众号

微信公众号,我会定时最新一些技术动态。
WeChat

怎么样才算真正的学会kafka

最近面试发现,很多人用过kafka,但是没人了解原理,我们可是很注重原理的(PS:要不然怎么知道你真的会呢)。

  • kafka消息是否会丢失?为什么?
  • kafka节点之间如何复制备份的?
  • kafka最合理的配置是什么?
  • kafka的Leader选举机制是什么?
  • kafka对硬件的配置有什么要求?
  • kafka的消息保证有几种方式?
  • kafka为什么会丢消息?

......你是否都答得上来?(欢迎大家补充!)

这些问题在下面的文章中都可以找到答案,kafka之所以有这么火热,建议各位一定要看一下。

如何学习kafka

还是那句话,学习任何技术,跟学骑自行车一样,不要一开始只关注它的具体细节是什么。先学着怎么骑,骑着骑着就了解大致的原理,这个时候在去看它的原理,会很轻松。

如果你在学习的过程中遇到什么问题,直接评论或者在kafka问题专区中提问。

章节与kafka官网对应一致

第一章:kafka入门
第二章:客户端API
第三章:kafka的配置
第四章:kafka如何设计的
第五章:kafka的实现
第六章:kafka的常用操作,如扩容,删除和增加topic
第七章:kafka硬件和操作系统
第八章:kafka监控
第九章:kafka安全
第十章:kafka连接器
第十一章:kafka 流
第十二章:kafka源码
第十三章:实战笔记(kafka命令大全

我们的内容会根据官网的更新,而定期更新。

更新于 2024-02-18
在线,20分钟前登录

大佬,请问可以看一下我的提问吗?
https://www.orchome.com/17114

好的,在看啦。

子非鱼 2年前

topic:你把它理解为标签,生产者每生产出来一个鸡蛋就贴上一个标签(topic),消费者可不是谁生产的“鸡蛋”都吃的,这样不同的生产者生产出来的“鸡蛋”,消费者就可以选择性的“吃”了。

我觉得将其称为 篮子里的 格子更加贴切

半兽人 -> 子非鱼 2年前

我也觉得用「格子」形容更好!

比比卡 2年前

kafka3.0 kraft协议的集群(没有使用zk) 用啥监控比较好? kafka_exporter最新的版本好像也不支持.

半兽人 -> 比比卡 2年前

你自己已经解决了,转到:
https://www.orchome.com/10704

寻源 2年前

大佬,我是小白,想问一下,同一份日志可以同时输出到多个topic么 。

半兽人 -> 寻源 2年前

可以的,如果还有疑问,到问题专区里详细描述吧。

大佬 想咨询一个Kafka的场景使用问题,我们有一个业务是用kafka来中转发送推送消息,推送消息需要调用第三方接口 ,但是第三方最近做了限流,我们想动态设置kafka的消费速度 是否可以实现

可以,有新的问题,到问题专区问吧。
kafka消费者Java客户端,搜索关键字「消费者流量控制」。

Shine 2年前

大佬新年好!Kafka最新稳定版本是哪个,要有鉴权功能。

半兽人 -> Shine 2年前

如果你还用zk的话,推荐2.7,之后的版本kafka社区的精力都在kraft上。
各个版本的bug及优化,可参考:kafka最新动态

Shine -> 半兽人 2年前

2.7.2这个版本还是2.7.0版本呢?

半兽人 -> Shine 2年前

大版中,取小版本最新的,2.7.2

半兽人 2年前

2022开工大吉。
「今天不走,明天要跑。」 --- 《哈佛图书馆二十条训言》

Ooo 3年前

看完入门这一部分,回答一下第一个问题:kafka 节点直接是如何复制备份的。
1、kafka数据存储以主题分区为单位
2、每个分区可以存储在多台 kafka 服务器上
3、每个分区在某台服务器上以 leader 方式存在,其他服务器以 follower 方式存在
4、leader负责分区的读写,写请求会转发到其他服务器进行消息同步,当消息同步到所有 follower 节点上并且写入完成后,即使大部分节点挂掉了,只剩一个节点了,那么还是能正常服务的。这里就是所谓的 kafka 复制备份吧

Ooo 3年前

大佬666,鸡蛋标签篮子的抽象可以的

半兽人 -> Ooo 3年前

快夸我

Ooo -> 半兽人 3年前

大佬棒棒哒!

3年前

大佬 yyds

半兽人 -> 3年前

一起 yyds

查看kafka更多相关的文章或提一个关于kafka的问题,也可以与我们一起分享文章