Streaming相关文章_第4页

云小课｜MRS数据分析-通过Spark Streaming作业消费Kafka数据
时间：2023-02-24 11:15:41
阅识风云是华为云信息大咖，擅长将复杂信息多元化呈现，其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 ...
Dream_Spark-----Spark 定制版：003~Spark Streaming（三）
时间：2023-02-18 22:30:17
Spark 定制版：003~Spark Streaming（三）本讲内容：a. Spark Streaming Job 架构和运行机制 b. Spark Streaming Job 容错架构和运行机制注：本讲内容基于Spark 1.6.1版本（在2016年5月来说是Spark最新版本）讲解。上节回...
Serverless Streaming：毫秒级流式大文件处理探秘
时间：2023-02-17 14:58:54
摘要：本文将以图片处理的场景作为例子详细描述当前的问题以及华为云FunctionGraph函数工作流在面对该问题时采取的一系列实践。文章作者｜旧浪：华为云Serverless研发专家、平山：华为云中间件Serverless负责人一、背景企业应用从微服务架构向 Serverless（无服务器）架构演进...
标签：Server 文件处理流式处理 FunctionGraph 华为云开发者联盟云服务云计算
Serverless Streaming：毫秒级流式大文件处理探秘
时间：2023-02-17 11:08:24
摘要：本文将以图片处理的场景作为例子详细描述当前的问题以及华为云FunctionGraph函数工作流在面对该问题时采取的一系列实践。文章作者｜旧浪：华为云Serverless研发专家、平山：华为云中间件Serverless负责人一、背景企业应用从微服务架构向 Serverless（无服务器）架构演进...
标签：FunctionGraph Serverless 华为云 Serverless Streaming 流式处理
Spark Streaming源码初探 (3)
时间：2023-02-15 20:47:35
本节分析一下Spark Streaming生成RDD的过程(也是生成Job的过程)，DStream是Spark Streaming的抽象数据表示，底层是RDD实现。由于RDD是为了满足Job需要的，所以触发生成RDD的职责应该是由JobGenerator负责。换句话说：RDD的生成是在Job生成过程...
标签：spark
Spark Streaming源码初探 (2)
时间：2023-02-15 20:47:17
在 Spark Streaming源码初探 (1) 讲解基于Receiver方式创建DStream和简单分析StreamingContext的启动函数，本节将继续上一节的内容，主要从StreamingContext#start方法中的jobScheduler.start()开始。简单回顾一下Str...
标签：stream spark 源码
spark streaming源码分析1 StreamingContext
时间：2023-02-15 20:47:11
博客地址: http://blog.csdn.net/yueqian_zhu/ 首先看一个最简单的例子，了解大致的样子： object NetworkWordCount { def main(args: Array[String]) { if (args.length < 2) ...
标签：ext spark streaming spark stream 源码
【源码学习之spark streaming 1.6.1 】
时间：2023-02-15 20:47:05
说明：个人原创，转载请说明出处 http://www.cnblogs.com/piaolingzxh/p/5634577.html 未完待续 ...
标签：spark streaming 学习 stream spark 源码图解
spark streaming源码解读
时间：2023-02-15 20:46:59
让我们按照源码一步步的解析。请一定一定一定和我们一起跟踪代码。一定要照着做，才能理解。我们先看下StreamingContext创建的时候有哪些成员变量被初始化了。 import org.apache.spark.SparkConf import org.apache.spark.stream...
标签：spark stream 源码
What are the pros&cons between streaming data to Bigquery vs upload data to PubSub and then using data flow to insert data to Bigquery
时间：2023-02-13 15:28:04
As far i know, streaming data to BigQuery would cause duplicate rows as it mentions here https://cloud.google.com/bigquery/streaming-data-into-bigquer...
标签：google-bigquery google-cloud-pubsub google-cloud-dataflow
160728、Spark Streaming kafka 实现数据零丢失的几种方式
时间：2023-02-12 20:49:58
定义问题开始之前先解释下流处理中的一些概念： At most once - 每条数据最多被处理一次（0次或1次） At least once - 每条数据最少被处理一次 (1次或更多) Exactly once - 每条数据只会被处理一次（没有数据会丢失，并且没有数据会被多次处理）...
标签：Spark Streaming kafka 实现数据零丢失的几种方式
如何将每个Spark Streaming迭代数据存储到一个RDD？
时间：2023-02-09 20:49:49
I am new to Spark. I am writing the following script that receives a stream from Kafka, which is then transformed to an RDD. 我是Spark的新手。我正在编写以下脚本来接收来自...
标签：RDD apache-kafka apache-spark pyspark spark-streaming
Darwin Streaming Server 核心代码分析
时间：2023-02-08 19:18:20
基本概念首先，我针对的代码是Darwin Streaming Server 6.0.3未经任何改动的版本。Darwin Streaming Server从设计模式上看，采用了Reactor的并发服务器设计模式，如果对Reactor有一定的了解会有助于对Darwin Streaming Server核...
Darwin Streaming Server用vs2005编译运行过程
时间：2023-02-08 19:18:08
原创。一：编译Darwin6.0.3版本是最新版本，也提供了.dsw文件。但是使用vs2005和vc6是编译不过的。所以，采用Darwin5.5.5版本。使用vc6打开WinNTSupport文件夹下的.dsw工程，直接batch build，可一步生成。使用vc编译速度快，但是调试和看代码不如20...
Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows窗口是否可以实现最近一小时统计
时间：2023-02-04 23:09:24
WaterMark除了可以限定来迟数据范围，是否可以实现最近一小时统计？WaterMark目的用来限定参数计算数据的范围：比如当前计算数据内max timestamp是12::00，waterMark限定数据分为是60 minutes，那么如果此时输入11:00之前的数据就会被舍弃不参与统计，视为来...
Spark Streaming：TCP（基本类型）数据源
时间：2023-01-29 20:56:21
1 简介在Spark Streaming的数据源中，TCP的Sockt流和文件流是支持的基本数据流，在官方文档中http://spark.apache.org/docs/1.1.0/streaming-programming-guide.html#input-dstreams，通过如下方式演示了Sp...
标签：tcp 数据 spark stream 数据源类型
java spark-streaming接收TCP/Kafka数据
时间：2023-01-29 20:56:15
本文将展示 1、如何使用spark-streaming接入TCP数据并进行过滤； 2、如何使用spark-streaming接入TCP数据并进行wordcount；内容如下： 1、使用maven，先解决pom依赖 <dependency> <group...
标签：数据 java stream spark kafka
Spark Structured streaming框架（1）之基本使用
时间：2023-01-27 23:04:44
Spark Struntured Streaming是Spark 2.1.0版本后新增加的流计算引擎，本博将通过几篇博文详细介绍这个框架。这篇是介绍Spark Structured Streaming的基本开发方法。以Spark 自带的example进行测试和介绍，其为"StructuredNet...
Spark Streaming如何使用checkpoint容错
时间：2023-01-26 20:46:24
最近在做一个实时流计算的项目，采用的是Spark Steaming，主要是对接Spark方便，一个 Streaming Application 往往需要7*24不间断的跑，所以需要有抵御意外的能力（比如机器或者系统挂掉，JVM crash等）。为了让这成为可能，Spark Streaming需要 c...
标签：stream spark 如何 poi
Spark Streaming如何使用checkpoint容错
时间：2023-01-26 20:46:48
在互联网场景下，经常会有各种实时的数据处理，这种处理方式也就是流式计算，延迟通常也在毫秒级或者秒级，比较有代表性的几个开源框架，分别是Storm，Spark Streaming和Filnk。曾经在一个项目里面用过阿里改造后的JStrom，整体感受就是编程略复杂，在不使用Trident Api的时候...
标签：stream scala spark 如何 poi

1 2 3 4 5