spark Streaming的Direct Approach,设置checkpoint在HDFS中的文件个数会随着启动次数增加吗?

Y。G。D 发表于: 2019-11-11   最后更新时间: 2019-11-11 16:18:02   1,735 游览

spark Streaming的Direct Approach,设置checkpoint于HDFS中,checkpoint是一个topic维护一个还是一个spark任务维护一个呢,文件个数会随着启动次数增加吗?

发表于 2019-11-11
添加评论

文件不仅仅只是随着启动而增加哦,一个任务维护一个
可以看看这篇文章:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80553558

Y。G。D -> 雪花 5年前

您好,感谢您的答复,您贴的链接我看了,感觉这篇文章指的是的spark实际处理的文件在HDFS中,设置checkpoint不是用来记录偏移量吗?我看启动之后checkpoint文件个数维持在10个,更新时间与sparkStreamingContext中设置的时间相同,新来一个会删除旧的,现在不太明确如果同一个任务使用同一个topic,修改代码后重新启动,kafka会不会维护一套新的checkpoint文件来记录偏移量。

雪花 -> Y。G。D 5年前

可以验证一下:

1、先到kafka集群中查出所有的消费者,找到对应的消费者组
消费者列表查询

bin/kafka-consumer-groups.sh --new-consumer --bootstrap-server localhost:9092 --list

2、消费消费组的内容,观察里面的内容

bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning --consumer.config config/consumer.properties

另外,列出kafka中所有的topic,判断是否有新的变化

bin/kafka-topics.sh --describe --zookeeper
你的答案

查看kafka相关的其他问题或提一个您自己的问题