069 在SparkStreaming的窗口分析

一：说明

1.图例说明

　　-------------------------------------------------------------------------------------------------------------------------------------------------------------------------

　　 069 在SparkStreaming的窗口分析

2.对比说明

　　DStream:
　　　　batchInterval: 批次产生间隔时间
　　Window DStream:
　　　　windowInterval: 窗口间隔时间，必须是父DStream的batchInterval的倍数(k >= 1, 整数)
　　　　slideInterval：窗口滑动间隔时间，必须是父DStream的batchInterval的倍数(k >= 1, 整数)

3.API

　　使用CTRL+F3，可以参考这篇文档的快捷键：https://blog.csdn.net/qq_36901488/article/details/80704245

　　 069 在SparkStreaming的窗口分析

二：程序

1.程序

 package com.window.it

 import org.apache.spark.{SparkConf, SparkContext}

 import org.apache.spark.storage.StorageLevel

 import org.apache.spark.streaming.{Seconds, State, StateSpec, StreamingContext}

 import org.apache.spark.streaming.dstream.DStream

 import org.apache.spark.streaming.kafka.KafkaUtils

 object ReduceWindow {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf()

       .setAppName("StreamingWindowOfKafka")

       .setMaster("local[*]")

     val sc = SparkContext.getOrCreate(conf)

     val ssc = new StreamingContext(sc, Seconds(5))

     // 当调用updateStateByKey函数API的时候，必须给定checkpoint dir

     // 路径对应的文件夹不能存在

     ssc.checkpoint("hdfs://linux-hadoop01.ibeifeng.com:8020/beifeng/spark/streaming/452512")

     val kafkaParams = Map(

       "group.id" -> "streaming-kafka-78912151",

       "zookeeper.connect" -> "linux-hadoop01.ibeifeng.com:2181/kafka",

       "auto.offset.reset" -> "smallest"

     )

     val topics = Map("beifeng" -> 4) // topics中value是读取数据的线程数量，所以必须大于等于1

     val dstream = KafkaUtils.createStream[String, String, kafka.serializer.StringDecoder, kafka.serializer.StringDecoder](

       ssc, // 给定SparkStreaming上下文

       kafkaParams, // 给定连接kafka的参数信息 ===> 通过Kafka HighLevelConsumerAPI连接

       topics, // 给定读取对应topic的名称以及读取数据的线程数量

       StorageLevel.MEMORY_AND_DISK_2 // 指定数据接收器接收到kafka的数据后保存的存储级别

     ).map(_._2)

     val resultWordCount = dstream

       .filter(line => line.nonEmpty)

       .flatMap(line => line.split(" ").map((_, 1)))

       .reduceByKeyAndWindow(

         (a: Int, b: Int) => a + b,

         Seconds(15), // 窗口大小

         Seconds(10) // 滑动大小

       )

     resultWordCount.print() // 这个也是打印数据

     // 启动开始处理

     ssc.start()

     ssc.awaitTermination() // 等等结束，监控一个线程的中断操作

   }

 }

2.效果

　　这里主要看的是页面的DAG。