• Spark-Streaming及其工作原理

    时间:2022-06-19 00:27:13

    1.Spark-Streaming及其工作原理SparkStreaming是SparkCoreAPI的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCPSocket。并...

  • spark-streaming 编程(四)自定义输出foreachRDD

    时间:2022-06-03 03:00:23

    foreachRDD可以自定义将结果输出到外部系统,比如hbase,mysql,hdfs等。对于数据库之类的连接,错误的写法是为每一条数据创建一个数据库连接,那样将会导致严重的性能问题。正确的用法是为每一个DStream的分区创建一个连接,这个分区的数据处理完毕后释放。dstream.foreach...

  • 基于spark-streaming实时推荐系统(三)

    时间:2022-03-29 00:17:47

        当博主在写基于spark-streaming实时推荐系统(一),基于spark-streaming实时推荐系统(二)时,心里还曾暗自窃喜:“五年多推荐系统设计研发工作,再搭一套推荐系统还不是轻松的事么!”。只有真正做了之后才知道这其中的辛酸与血泪。   首先博主前期的推荐系统经验主要是基于传...

  • 使用spark-streaming实时读取Kafka数据统计结果存入MySQL

    时间:2022-01-20 12:19:33

    在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益。场景模拟我试图覆盖工程上最为常用的一个场景:1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订单收益2)然后,spark-streaming每十秒实时去消费kafka中的订单数据,并以订单类型分组统计...

  • spark-streaming 编程(四)自定义输出foreachRDD

    时间:2021-11-11 00:42:50

    foreachRDD可以自定义将结果输出到外部系统,比如hbase,mysql,hdfs等。对于数据库之类的连接,错误的写法是为每一条数据创建一个数据库连接,那样将会导致严重的性能问题。正确的用法是为每一个DStream的分区创建一个连接,这个分区的数据处理完毕后释放。dstream.foreach...

  • Spark-Streaming进阶与Spark优化

    时间:2021-10-21 00:41:34

    Spark课堂笔记Spark生态圈:SparkCore:RDD(弹性分布式数据集)SparkSQLSparkStreamingSparkMLLib:协同过滤,ALS,逻辑回归等等-->机器学习SparkGraphx:图计算重点在前三章-----------------SparkCore----...

  • spark-streaming学习笔记总结

    时间:2021-10-15 00:41:28

    基本介绍Spark创建流式应用的本质,还是依赖了spark最核心的那些技术,只是在这些技术上又封装了一层流式接口。Spark的streaming机制简单来说,就是将连续的时间序列切割成不同的离散时间段。针对某个时间段,将该时间段内的所有输入数据组成一个RDD,接下来的工作就如同一个传统的sprark...