kafka中文教程

本网翻译整理Apache kafka,提供整理Apache kafka的完整学习文档。

布 & 订阅                        理                     

数据流,如消息传递系统                     高效并实时                   数据流安全地在分布式集群中复制存储

                              screenshot

kafka是用于构建实时数据管道和流应用程序。具有横向扩展,容错,wicked fast(变态快)等优点,并已在成千上万家公司运行。

简单说明什么是kafka

Apache kafka是消息中间件的一种,我发现很多人不知道消息中间件是什么,在开始学习之前,我这边就先简单的解释一下什么是消息中间件,只是粗略的讲解,目前kafka已经可以做更多的事情。

举个例子,生产者消费者,生产者生产鸡蛋,消费者消费鸡蛋,生产者生产一个鸡蛋,消费者就消费一个鸡蛋,假设消费者消费鸡蛋的时候噎住了(系统宕机了),生产者还在生产鸡蛋,那新生产的鸡蛋就丢失了。再比如生产者很强劲(大交易量的情况),生产者1秒钟生产100个鸡蛋,消费者1秒钟只能吃50个鸡蛋,那要不了一会,消费者就吃不消了(消息堵塞,最终导致系统超时),消费者拒绝再吃了,”鸡蛋“又丢失了,这个时候我们放个篮子在它们中间,生产出来的鸡蛋都放到篮子里,消费者去篮子里拿鸡蛋,这样鸡蛋就不会丢失了,都在篮子里,而这个篮子就是”kafka“。
鸡蛋其实就是“数据流”,系统之间的交互都是通过“数据流”来传输的(就是tcp、http什么的),也称为报文,也叫“消息”。
消息队列满了,其实就是篮子满了,”鸡蛋“ 放不下了,那赶紧多放几个篮子,其实就是kafka的扩容。
各位现在知道kafka是干什么的了吧,它就是那个"篮子"。

kafka名词解释

后面大家会看到一些关于kafka的名词,比如topic、producer、consumer、broker,我这边来简单说明一下。

  • producer:生产者,就是它来生产“鸡蛋”的。
  • consumer:消费者,生出的“鸡蛋”它来消费。
  • topic:你把它理解为标签,生产者每生产出来一个鸡蛋就贴上一个标签(topic),消费者可不是谁生产的“鸡蛋”都吃的,这样不同的生产者生产出来的“鸡蛋”,消费者就可以选择性的“吃”了。
  • broker:就是篮子了。

大家一定要学会抽象的去思考,上面只是属于业务的角度,如果从技术角度,topic标签实际就是队列,生产者把所有“鸡蛋(消息)”都放到对应的队列里了,消费者到指定的队列里取。

征集

如果你也想分享一些文章,例子。欢迎入群交流:14085484

注意:本群只与贡献者进行交流,技术问答请到网站上提问,谢谢。

微信公众号

新建的微信公众号,我会定期分享一些实用的操作源码。

screenshot

怎么样才算真正的学会kafka

最近面试发现,很多人用过kafka,但是没人了解原理,我们可是很注重原理的(PS:要不然怎么知道你真的会呢)。

  • kafka节点之间如何复制备份的?
  • kafka消息是否会丢失?为什么?
  • kafka最合理的配置是什么?
  • kafka的leader选举机制是什么?
  • kafka对硬件的配置有什么要求?
  • kafka的消息保证有几种方式?

......你是否都答得上来?(欢迎大家补充!)

这些问题在下面的文章中都可以找到答案,kafka之所以有这么火热,建议各位一定要看一下。

如何学习kafka

还是那句话,学习任何技术,跟学骑自行车一样,不要一开始只关注它的具体细节是什么。先学着怎么骑,骑着骑着就了解大致的原理,这个时候在去看它的原理,会很轻松。

如果你在学习的过程中遇到什么问题,直接评论或者在问题专区中提问,我们在线人员会回复你的问题。

章节与kafka官网对应一致

第一章:开始
第二章:API
第三章:kafka的配置
第四章:kafka如何设计的
第五章:kafka的实现
第六章:kafka的常用操作,如扩容,删除和增加topic。
第七章:安全
第八章:kafka Connect
第九章:kafka 流
第十章:笔记(kafka命令大全

我们的内容会根据官网的更新,而定期更新。







发表于: 3年前   最后更新时间: 3月前   游览量:261093
上一条:
下一条: Apache Kafka下载

评论…


  • 能麻烦指导下么
    你好 ,问下 跨网络访问kafka集群 配置文件需要怎么修改,我现在 在配置文件中加入 advertised.listeners=PLAINTEXT://公网IP:9092  客户端一直提示  WARN Error while fetching metadata with correlation id 0 : {test=UNKNOWN_TOPIC_OR_PARTITION} 
    • 配置成内网地址,那公网怎么访问啊,我看客户端日志 ,会返回这个地址给客户端,如果配置成内网的 ,客户端拿到这个地址就 连接不上了,可以留个联系方式么,麻烦指导下,我微信:15914108993
        您好:
         我有几个问题,我想问Kafka的消费者和生产者客户端在工作时,它们与服务端会产生多少个TCP的长连接?如:1个Consumer会与服务端产生多少个长连接?这些长连接都用作做什么?谢谢
        • 一个主题有多个parition,数据被平均存储在这些parititon中,一个parition只能被一个消费者消费,所以,分区=同时消费者数。消费者和这些分区建立长连接用于持续的拉取消息和心跳。
            你好,我现在想模拟下重复消费的情况,session.timeout.ms 默认是10S  然后我在consumer 消费的时候加上了Thead.sleep(12S) 最后没有导致重复消费是什么情况 
            • 那个我没用过,如果你看到消费者重新分配的日志,才会有消费重复。
              另外,你的消费者客户端直接关闭,然后在启动,应该会拿到重复的信息吧?
                大神,我作为kafka生产者,使用scrapy爬虫爬取数据,在程序运行结束最后,kafka部分会出现个INFO:blocking until all message are sent.一直过不去,这是为什么呀?
                您好,请问对kafka去重有什么有效的手段呢?
                你好,请问一下使用kafka生产者生产消息的时候出现如下错误 : WARN Property topic is not valid (kafka.utils.VerifiableProperties) 怎么处理呢  我找了一些方法都没能解决这个问题 ? 
                • 你到问题专区里详细描述下吧,这个告警说你配置topic属性是无效的。验证不过。另外告警是会自行恢复,但这个不像。
                    你好,请问如何使用golang来消费kafka中的数据呢?
                    你好,请问下,现在我们springboot有在使用kafka,会动态给一些topic写入消息,但是现在发现一个奇怪的问题:如果这个topic是不存在的话,第一次或者前面几次会写入失败,后面才可以写入成功!很奇怪的。请问你觉得是什么原因呢?谢谢!
                    • 对!我现在的版本信息:

                      kafka server是:kafka_2.11-1.0.0

                      java kafka-clients:

                      <dependency>
                         <groupId>org.apache.kafka</groupId>
                         <artifactId>kafka-clients</artifactId>
                         <version>1.0.1</version>
                      </dependency>


                        你好 flink的东西可以写点吗?网上这方面的资料太少了
                      • 评论…
                        • in this conversation