我的spark应用需要统计每秒钟kafka发送过来的条数,一开始用的是zk方式,使用reduceByKey来实现,然后把数据丢到redis中保存,最后再统计一个小时内,总共收到的数量。后来改用直连模式实现,即createDirectStream实现,但后来在对数据的时候发现数据不准,即一个小时内收到的总数和kafka一小时内发送的总数对不上,但之前在zk模式下是没有问题的呀!所以我想这应该是集群的问题,后来我想是不是跟executor-cores这个参数有关,因为我一直用的是6,我的节点也是6个,所以一直没改过,然后我将它改为1再试,结果ok了,数据统计正确。
相关文章
- Spark Streaming 对接Kafka实现实时统计的问题定位和解决
- 十三.Spark SQL之通过Zeppelin进行统计数据的图形化展示
- 大数据Spark+Kafka实时数据分析案例 本案例利用Spark+Kafka实时分析男女生每秒购物人数,利用Spark Streaming实时处理用户购物日志,然后利用websocket将数据实时推送给浏览器,最后浏览器将接收到的数据实时展现,案例的整体框架图如下:
- 160728、Spark Streaming kafka 实现数据零丢失的几种方式
- Spark Streaming的接收KAFKA的数据
- Spark Streaming kafka 实现数据零丢失的几种方式
- Spark Streaming的接收KAFKA的数据
- Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式
- Spark-Streaming获取kafka数据的两种方式:Receiver与Direct的方式
- 160728、Spark Streaming kafka 实现数据零丢失的几种方式