spark Streaming的Direct Approach,设置checkpoint于HDFS中,checkpoint是一个topic维护一个还是一个spark任务维护一个呢,文件个数会随着启动次数增加吗?
文件不仅仅只是随着启动而增加哦,一个任务维护一个
可以看看这篇文章:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80553558
您好,感谢您的答复,您贴的链接我看了,感觉这篇文章指的是的spark实际处理的文件在HDFS中,设置checkpoint不是用来记录偏移量吗?我看启动之后checkpoint文件个数维持在10个,更新时间与sparkStreamingContext中设置的时间相同,新来一个会删除旧的,现在不太明确如果同一个任务使用同一个topic,修改代码后重新启动,kafka会不会维护一套新的checkpoint文件来记录偏移量。
可以验证一下:
1、先到kafka集群中查出所有的消费者,找到对应的消费者组
消费者列表查询
bin/kafka-consumer-groups.sh --new-consumer --bootstrap-server localhost:9092 --list
2、消费消费组的内容,观察里面的内容
bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning --consumer.config config/consumer.properties
另外,列出kafka中所有的topic,判断是否有新的变化
bin/kafka-topics.sh --describe --zookeeper
你的答案