Streaming相关文章_第5页

在Spark Streaming上使用Spark Mllib的思路实现
时间：2023-01-26 20:46:36
在Spark Streaming中，数据抽象是DStream(离散数据流)。底层是靠封装RDD实现，而Spark Mllib是早期的机器学习库，主要也是基于RDD抽象数据集实现的算法。因此在Spark Streaming上想要使用Spark Mllib首先就要获取到DStream对应的RDD，而DS...
标签：lib stream spark 实现思路
Spark Streaming源码解读之JobScheduler内幕实现和深度思考
时间：2023-01-25 15:16:03
本期内容 :JobScheduler内幕实现JobScheduler深度思考JobScheduler 是整个Spark Streaming调度的核心，需要设置多线程，一条用于接收数据不断的循环，另外一条是处理线程，同时需要把调度与执行分离开。一、作业流程源码：首先只要定义了BatchDurati...
Spark Streaming 002 统计单词的例子
时间：2023-01-24 18:27:11
1.准备事先在hdfs上创建两个目录：保存上传数据的目录：hdfs://alamps:9000/library/SparkStreaming/datacheckpoint的目录：hdfs://alamps:9000/library/SparkStreaming/CheckPoint_data---...
Spark Streaming源码解读之生成全生命周期彻底研究与思考
时间：2023-01-23 18:19:11
本期内容 :DStream与RDD关系彻底研究Streaming中RDD的生成彻底研究问题的提出：1、 RDD是怎么生成的，依靠什么生成2、执行时是否与Spark Core上的RDD执行有什么不同的3、运行之后我们要怎么处理为什么有第三点 : 是因为Spark Streaming 中会随着相关触...
Spark streaming + Kafka 流式数据处理，结果存储至MongoDB、Solr、Neo4j（自用）
时间：2023-01-22 20:47:35
KafkaStreaming.scala文件 import kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingCo...
标签：mongo stream spark solr kafka 存储
spark streaming从kafka获取数据，计算处理后存储到redis
时间：2023-01-22 20:47:17
原文地址： http://www.fanlegefan.com/archives/sparkstreaminglizi/ 摘要本文主要实现一个简单sparkstreaming小栗子，整体流程是从kafka实时读取数据，计算pv，uv，以及sum(money)操作，最后将计算结果存入...
标签：数据 stream spark 计算 kafka 存储 redis 获取
Spark的Streaming和Spark的SQL简单入门学习
时间：2023-01-22 20:22:08
1、Spark Streaming是什么？a、Spark Streaming是什么？Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例...
spark streaming中使用checkpoint
时间：2023-01-20 10:41:36
从官方的Programming Guides中看到的我理解streaming中的checkpoint有两种，一种指的是metadata的checkpoint，用于恢复你的streaming；一种是rdd的checkpoint的；下面的代码指的是第一种：// Function to create an...
实时计算框架特点及对比：Flink、Spark Streaming、Storm
时间：2023-01-18 11:09:44
随着互联网和大数据技术的发展，实时计算框架也在推陈出新，向着高吞吐、高可用、低延迟准实时的方向发展。具体而言，主流的计算引擎不外乎三个：Flink、Spark Streaming、Storm。本文从几个方面总结了各框架的优缺点，希望对读者进行架构设计和技术选型提供帮助。各框架对比1、设计理念Flin...
Spark Struct Streaming 写入Hbase 出错 Task not serializable: java.io.NotSerializableException
时间：2023-01-16 20:49:27
在使用spark2.2d的Struct Streaming写入Hbase数据库时报错 Task not serializable: java.io.NotSerializableException:org.apache.hadoop.hbase.client.HTable 报错说是什么序...
标签：struct java spark scala stream BLE spark-streaming hbase
使用mapPartitionsWithIndex进行DStream - Spark Streaming
时间：2023-01-16 20:49:15
I want to do something very simple: to check what is the content of each partition in the first RDD of my DStream. This is what I'm doing now: 我想做一些非常...
标签：java apache-spark intellij-idea spark-streaming
控制文件的Spark Streaming
时间：2023-01-16 20:49:03
I am using Spark to read the text files from a folder and load them to hive. 我正在使用Spark从文件夹中读取文本文件并将其加载到配置单元。 The interval for the spark streaming is ...
标签：spark-dataframe apache-spark spark-streaming
Spark Streaming实时写入数据到HBase
时间：2023-01-15 20:46:34
一、概述在实时应用之中，难免会遇到往NoSql数据如HBase中写入数据的情景。题主在工作中遇到如下情景，需要实时查询某个设备ID对应的账号ID数量。踩过的坑也挺多，举其中之一，如一开始选择使用NEO4J图数据库存储设备和账号的关系，当然也有其他的数据，最终构成一个复杂的图关系，但是这个图数据库免...
标签：数据 stream spark 实时计算 hbase
通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中
时间：2023-01-15 20:46:16
文章显示好像有点问题，原文在：http://lqding.blog.51cto.com/9123978/1769814 SparkStreaming的DStream提供了一个dstream.foreachRDD方法，该方法是一个功能强大的原始的API，它允许将数据发送到外部系统。然而,重要的是要...
标签：存储系统数据 stream spark for 存储系统 each
Spark Streaming 读取Kafka数据写入ES
时间：2023-01-15 20:46:04
简介：目前项目中已有多个渠道到Kafka的数据处理，本文主要记录通过Spark Streaming 读取Kafka中的数据，写入到Elasticsearch，达到一个实时（严格来说，是近实时，刷新时间间隔可以自定义）数据刷新的效果。应用场景：业务库系统做多维分析的时候，数据来源各不相同。很多历...
标签：数据 stream spark kafka 读取
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
时间：2023-01-13 07:29:51
【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、...
Spark Streaming源码解读之流数据不断接收和全生命周期彻底研究和思考
时间：2023-01-13 00:20:34
本节的主要内容：一、数据接受架构和设计模式二、接受数据的源码解读Spark Streaming不断持续的接收数据，具有Receiver的Spark 应用程序的考虑。Receiver和Driver在不同进程，Receiver接收数据后要不断给Deriver汇报。因为Driver负责调度，Receive...
Spark Streaming的接收KAFKA的数据
时间：2023-01-13 00:15:52
https://github.com/lw-lin/CoolplaySpark/blob/master/Spark%20Streaming%20%E6%BA%90%E7%A0%81%E8%A7%A3%E6%9E%90%E7%B3%BB%E5%88%97/3.1%20Receiver%20%E5%88...
利用Pycharm本地调试spark-streaming（包含kafka和zookeeper等操作）
时间：2023-01-12 22:52:31
环境准备就不说了！第一步：打开Pycharm，在File->Setting->Project Structure中点击Add Content Root 添加本地python调用java和spark的组件（因为python和spark通讯是通过调用Jvm的相关组件实现的），包含两个压缩...
spark streaming - kafka updateStateByKey 统计用户消费金额
时间：2023-01-11 20:47:44
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额，我们可以使用updateStateByKey来实现从kafka接收用户消费json数据，统计每分钟用户的消费情况，并且统计所有时间所有用户的消费情况(使用updateStateByKey来实现) 数据格式 {"user":"z...
标签：date test spark stream kafka update StateByKey

1 2 3 4 5