kafka-spark streaming (一)
Kafka-spark streaming1、安装包kafka安装需要zookeeper、jdk。官网下载最新的:https://kafka.apache.org/downloadshttp://mirrors.hust.edu.cn/apache/zookeeper/http://www.orac...
从0开始学人工智能测试节选:Spark -- 结构化数据领域中测试人员的万金油技术(二)
Dataframe dataframe 是spark中参考pandas设计出的一套高级API,用户可以像操作pandas一样方便的操作结构化数据。毕竟纯的RDD操作是十分原始且麻烦的。而dataframe的出现可以让熟悉pandas的从业人员能用非常少的成本完成分布式的数据分析工作, 毕竟跟数据打...
带你认识spark安装包的目录结构
福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号: &n...
用Spark查询HBase中的表数据
java代码如下:package db.query;import org.apache.commons.logging.Log;import org.apache.comm...
【慕课网实战】Spark Streaming实时流处理项目实战笔记六之铭文升级版
铭文一级:整合Flume和Kafka的综合使用avro-memory-kafka.confavro-memory-kafka.sources = avro-sourceavro-memory-kafka.sinks = kafka-sinkavro-memory-kafka.channels = m...
Spark2.x学习笔记:Spark SQL程序设计
1、RDD的局限性RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义。RDD需要用户自己优化程序,对程序员要求较高。从不同数据源读取数据相对困难。合并多个数据源中的数据也较困难。2 DataFrame和Dataset(1)DataFrame 由于RDD的局限性,Spark产生了DataF...
spark的standlone模式安装和application 提交
spark的standlone模式安装安装一个standlone模式的spark集群,这里是最基本的安装,并测试一下如何进行任务提交。require:提前安装好jdk 1.7.0_80 ;scala 2.11.8可以参考官网的说明:http://spark.apache.org/docs/lates...
当Spark遇上TensorFlow分布式深度学习框架原理和实践 - 蓝色de叶子
当Spark遇上TensorFlow分布式深度学习框架原理和实践 近年来,机器学习和深度学习不断被炒热,tensorflow 作为谷歌发布的数值计算和神经网络的新框架也获得了诸多关注,spark和tensorflow深度学习框架的结合,使得tensorflow在现有的spark集群上就...
spark(8)spark案例之WordCount、点击流日志分析、写入数据到mysql/hbase、IP地址查询
案例1:使用Java实现spark的wordCount案例需求:单词计数第一步:创建maven工程,引入依赖 <dependencies> <...
Spark master的HA实战案例
Spark master的HA实战案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.部署zook...
使用scala开发spark入门总结
使用scala开发spark入门总结一、spark简单介绍关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍。推荐简单介绍连接:http:...
Spark-机器学习(1)什么是机器学习与MLlib算法库的认识
从这一系列开始,我会带着大家一起了解我们的机器学习,了解我们spark机器学习中的MLIib算法库,知道它大概的模型,熟悉并认识它。同时,本篇文章为个人spark免费专栏的系列文章,有兴趣的可以收藏关注一下,谢谢。同时,希望我的文章能帮助到每一个正在学习的你们。 Spark-大数据技术与应用http...
spark学习笔记2(使用spark Sql进行离线数据分析项目)
网站日志分析实战.项目一、 用户行为日志概述1. 用户访问、浏览、搜索、点击等行为都会被记录在网站的服务器上。2. 用户的访问信息主要包括如下内容:(1)系统属性。(操作系统、浏览器)(...
spark数据分析引擎
简介spark是专为大规模数据处理而设计的快速通用的计算引擎 .spark既可以批处理也可以做流式处理spark运行速度比mapreduce快大约10倍 . 在机器学习 ,人工智能的逻辑回归迭代算法场景下spark运行速度比mapreduce大约快100多倍 .mapreduce在计算过程中涉及到本...
IDEA 本地调试spark程序 Exception in thread "main" java.lang.NoSuchMethodError: scala.collection.immutable.
1.很简单的一测试程序:2.run运行时:出现ERROR,报错行显示在 new SparkContext 这行。val sc = new SparkContext(conf)Exception in thread "main" java.lang.NoSuchMethodError: scala....
Idea 本地运行spark程序参数配置
在idea上运行spark程序,需要配置部分如下 点击run->Edit configurationVM options 配置的是配置参数,规定了spark运行的一些配置 program arguments 配置的是输入的参数,要注意的是,输入变量和对应的值之间用空格分开,并且值不需要用引号括...
Spark集群搭建与并验证环境是否搭建成功(三台机器)
在之前hadoop的基础上,进行Spark分布式集群:(1)下载Spark集群需要的基本软件,本篇需要的是:Scala-2.10.4、spark-1.4.0-bin-hadoop(2)安装Spark集群需要的每个软件(3)启动并查看集群的状况(4)t通过spark-shell测试spark工作1.S...
Spark_SparkSql写入Oracle_Undefined function.....将长字符串写入Oracle中方法..
在使用Spark编写代码将读库处理然后写入Oracle中遇到了诸多小bug,很磨人,好在解决了。shit!! 实测1:TO_CLOB(a3) 代码样例 --这是一个sparksql写入hive的一个小逻辑,我脱敏了噻SELECTa1,a2,TO_CLOB(a3) AS clob_da...
Spark-Scala语言实战(16)
在之前的文章中,我们学习了三道任务,运用之前学到的方法。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢。 Spark-Scala语言实战(15)-CSDN博客文章浏览阅读1.5k次,点赞38次,收藏32次。今天开始的文章,我会带着大家来...
Spark排序算法系列之(MLLib、ML)GBTs使用方式介绍(模型训练、保存、加载、预测)
“ Spark推荐排序系列文章之GBDT(梯度提升决策树)介绍”前言【Spark排序算法系列】主要介绍的是目前推荐系统或者广告点击方面用的比较广的几种算法,和他们在Spark中的应用实现,本篇文章...