Streaming相关文章

Spark-Streaming及其工作原理
时间：2022-06-19 00:27:13
1.Spark-Streaming及其工作原理SparkStreaming是SparkCoreAPI的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCPSocket。并...
标签：stream spark 工作工作原理原理
spark streaming 自定义kafka读取topic的offset（python）
时间：2022-06-19 00:27:07
使用sparkstreaming处理kafka数据，有时候程序出现异常，或者需要修改程序再次运行，就可能会造成这样的情况：kafka中的数据读取出来了，zookeeper中已经保存了读取的offset，但是数据处理出了异常，那修改程序后再次运行就不会再处理这部分数据了。原有的程序需要修改后再运行，k...
标签：python set top 定义 spark stream kafka 读取
Hadoop & Hadoop Streaming 自定义输出格式
时间：2022-06-19 00:27:01
在用Hadoop处理大量的日志文件的时候，有时候会将错误的或者不符合要求的日志输出到另外一个目录，以备后来进行查验，这里给出个简单的例子，并简单说明下如何在HadoopStreaming中使用这种方法将错误格式的日志输出到自定义的路径。例子中类MultiFilesOutput继承自Mult...
标签：oop 定义 MultipleTextOutputFo stream hadoop hadoop streaming
spark-streaming 编程(四)自定义输出foreachRDD
时间：2022-06-03 03:00:23
foreachRDD可以自定义将结果输出到外部系统，比如hbase，mysql，hdfs等。对于数据库之类的连接，错误的写法是为每一条数据创建一个数据库连接，那样将会导致严重的性能问题。正确的用法是为每一个DStream的分区创建一个连接，这个分区的数据处理完毕后释放。dstream.foreach...
标签：定义 stream spark for 自定义 each
Spark Streaming 自定义接收器
时间：2022-05-29 01:17:35
http://blog.csdn.net/ouyang111222/article/details/50414621Spark Streaming可以从任意数据源接受流数据，而不仅仅是那些内置支持的数据源（如Flume、kafka等）。这就要求开发人员实现一个接收器（recevier），用于接收来自...
标签：定义 stream spark 自定义
<本地调试>
时间：2022-05-26 00:13:43
写在前面因为本地电脑没装flume，nginx各种。所以之前写Streaming程序的时候，都是打包了放到集群上跑。就算我在程序代码里不停地logger，调试起来也hin不方便。于是本地写了两个程序，在intellj调试。主要就是包括两个程序：一个是GenerateChar.scala用来向某个指定...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（九）安装kafka_2.11-1.1.0
时间：2022-05-19 08:23:27
如何搭建配置centos虚拟机请参考《Kafka：ZK+Kafka+SparkStreaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》如何安装hadoop2.9.0请参考《Kafka：ZK+Kafka+SparkStreaming集群环境搭建...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（三）安装spark2.2.1
时间：2022-05-19 08:23:21
如何搭建配置centos虚拟机请参考《Kafka：ZK+Kafka+SparkStreaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》如何安装hadoop2.9.0请参考《Kafka：ZK+Kafka+SparkStreaming集群环境搭建...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（八）安装zookeeper-3.4.12
时间：2022-05-19 08:23:15
如何搭建配置centos虚拟机请参考《Kafka：ZK+Kafka+SparkStreaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》如何安装hadoop2.9.0请参考《Kafka：ZK+Kafka+SparkStreaming集群环境搭建...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）
时间：2022-05-19 08:22:57
异常问题：Containerisrunningbeyondvirtualmemorylimits.Currentusage:119.5MBof1GBphysicalmemoryused;2.2GBof2.1GBvirtualmemoryused.Killingcontainer.spark-subm...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十九）ES6.2.2 安装Ik中文分词器
时间：2022-05-08 08:44:01
注：elasticsearch版本6.2.21）集群模式，则每个节点都需要安装ik分词，安装插件完毕后需要重启服务，创建mapping前如果有机器未安装分词，则可能该索引可能为RED，需要删除后重建。域名ipmaster192.168.0.120slave1192.168.0.121slave219...
Spark之 Spark Streaming整合kafka（并演示reduceByKeyAndWindow、updateStateByKey算子使用）
时间：2022-04-20 23:52:49
Kafka0.8版本基于receiver接受器去接受kafkatopic中的数据（并演示reduceByKeyAndWindow的使用）依赖<dependency><groupId>org.apache.spark</groupId><artifactId&...
标签：spark
spark-streaming-[7]-Output Operations on DStreams-foreachRDD写Mysql
时间：2022-04-19 02:12:38
参考legotime SparkStreaming之foreachRDD一、OutputOperationsonDStreams-foreachRDD概述foreachRDD(func)Themostgenericoutputoperatorthatappliesafunction, func,to...
标签：opera dst spark stream mysql each sql
Spark Streaming之妙用foreachRDD和foreachPartition
时间：2022-04-19 02:12:56
0.前言DStream中的foreachRDD是一个非常强大函数，它允许你把数据发送给外部系统。因为输出操作实际上是允许外部系统消费转换后的数据，它们触发的实际操作是DStream转换。所以要掌握它，对它要有深入了解。下面有一些常用的错误需要理解。经常写数据到外部系统需要创建一个连接的对象（例如根据...
标签：spark stream for each
Spark Streaming的foreachRDD算子的正确使用
时间：2022-04-19 02:12:44
这一块是Spark闭包的问题，不懂自行看文档吧！重点：SparkStreaming的foreachRDD运行在Driver端，而foreach和foreachPartion运行在Worker节点。备注：对数据的向外输出，还是用foreach**算子好，不要用Map**算子，因为Map还要返回一个RD...
标签：foreach 使用 stream spark for each
基于Woodstox的StAX 2 （Streaming API for XML）解析XML
时间：2022-04-14 07:52:23
StAX（StreamingAPIforXML）面向流的拉式解析XML，速度快、占用资源少，非常合适处理大数据量的xml文件。详细教程和说明可以参见以下几篇文章：使用StAX解析XML，第1部分:StreamingAPIforXML(StAX)简介使用StAX解析XML，第2部分:拉式解析和...
Darwin Streaming Server性能测试报告
时间：2022-04-14 04:48:03
为了验证DarwinStreamingServer在流媒体点播上的性能，EasyDarwin开源项目官方特地与国内某大型视频网站进行了一次性能测试（千兆网络环境下），针对本次RTSP直播流媒体测试范围，对码率为300K的视频进行压力测试，具体场景如下表所示：测试环境：测试结果：测试结论：根据当前测试...
通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中
时间：2022-04-13 00:35:51
文章显示好像有点问题，原文在：http://lqding.blog.51cto.com/9123978/1769814SparkStreaming的DStream提供了一个dstream.foreachRDD方法，该方法是一个功能强大的原始的API，它允许将数据发送到外部系统。然而,重要的是要了解如...
标签：存储系统数据 stream spark for 存储系统 each
Spark Streaming的foreachRDD算子的正确使用
时间：2022-04-13 00:35:33
这一块是Spark闭包的问题，不懂自行看文档吧！重点：SparkStreaming的foreachRDD运行在Driver端，而foreach和foreachPartion运行在Worker节点。备注：对数据的向外输出，还是用foreach**算子好，不要用Map**算子，因为Map还要返回一个RD...
标签：foreach 使用 stream spark for each
Apache Kafka® is a distributed streaming platform
时间：2022-03-30 05:23:34
KafkaConnect简介我们知道过去对于Kafka的定义是分布式，分区化的，带备份机制的日志提交服务。也就是一个分布式的消息队列，这也是他最常见的用法。但是Kafka不止于此，打开最新的官网。我们看到Kafka最新的定义是：ApacheKafka®is adistributedstreaming...

1 2 3 4 5