#+Spark相关文章

计算机毕业设计Hadoop+Spark+Hive租房推荐系统贝壳租房数据分析租房爬虫租房可视化租房大数据大数据毕业设计大数据毕设机器学习-技术或业务逻辑特色
时间：2024-03-29 16:03:08
核心算法代码分享如下： from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom lxml import etreeimport timefrom selenium.webdriver.ch...
spark读取ES数据
时间：2024-03-29 14:30:47
maven pom依赖配置：<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-13_2.10</artifactId> ...
使用Spark，从HIVE中获取数据写入HBase过程中遇到的坑
时间：2024-03-29 09:37:19
在学习大数据的过程中，通过提交spark-submit提交jar包，将hive中的数据写入HBase的过程中遇到诸多问题，与大家分享。首先，在跑任务的过程中发现错误。ERROR metastore.RetryingHMSHandler: AlreadyExistsException(message:...
spark集群模式的部署
时间：2024-03-29 08:55:49
1.Spark 介绍【1】.spark处理大数据的统一分析计算引擎； a.速度：在迭代循环的计算模型下，spark比Hadoop快100倍； b.易用性：spark提供多种语言的API，如Java、Python、Scala、R、SQL等 c.扩展性：在sp...
Maven编译Spark程序jar包体积大，上传时间长的完美解决方案
时间：2024-03-28 19:27:56
问题大家使用Maven编译Spark程序打包可能会遇到下边的情况：打一个jar包花费长达3分钟的时间一个jar包的体积200多MB，如果依赖多可能会更大再加上公司这种佛系网络，只能喝喝茶，谈谈人生与理想了解决方案我们可以使用下列步骤来解决：在HDFS创建一个目录来缓存程序依赖的jar包，这里要注意...
Ubuntu系统中安装Spark
时间：2024-03-28 17:39:35
安装spark 步骤1、解压到/usr/local目录下：sudo tar -zxf ~/software/spark-2.1.0-bin-without-hadoop.tgz -C /usr/local/2、进入local 目录：cd /usr/local3、将文件名改为 spark：sudo ...
Spark SQL和 presto 访问数据源的对比分析
时间：2024-03-28 12:13:58
直观感受是使用Spark SQL比通过 presto 写SQL的查询速度更快开发python程序访问Presto可以借助pyhive工具文章目录Spark SQL是什么？和Hive的不同三种数据结构Dataframe和Dataset是什么Datafram比RDD的优势Dataset比Datafram...
Spark的三种运行模式
时间：2024-03-28 09:27:23
总结：不管什么运行模式，代码不用改变，只需要在spark-submit脚本提交时通过--master xxx 来设置你的运行模式即可1、local模式：本地运行，使用该模式做开发,使用local模式的话，只需要把spark的安装包解压开，什么都不用动，就能使用./spark-submit \--cl...
spark之java程序开发
时间：2024-03-27 22:31:34
spark之java程序开发1、Spark中的Java开发的缘由:Spark自身是使用Scala程序开发的，Scala语言是同时具备函数式编程和指令式编程的一种混血语言，而Spark源码是基于Scala函数式编程来给予设计的，Spark官方推荐Spark的开发人员基于Scala的函数式编程来实现Sp...
Linux下Eclipse配置scala开发Spark-WordCount项目
时间：2024-03-27 16:11:04
Eclipse和Scala安装见：https://blog.csdn.net/qq_25948717/article/details/80404158‘ https://blog.csdn.net/qq_25948717/a...
Spark源码学习3
时间：2024-03-27 10:07:44
转自：http://www.cnblogs.com/hseagle/p/3673132.html一、概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的，另外试图讲清楚运行着的task其输入的数据从哪获取，处理的结果返回到哪里，如何返回。准备spark已经安装完毕spar...
十三.Spark SQL之通过Zeppelin进行统计数据的图形化展示
时间：2024-03-26 20:50:24
Spark SQL学习有一段时间了,因此花了一些时间写了一个日志清洗的项目,项目已经上传到github上了, 项目地址感兴趣的可以拉下来看看。在这里我不讲关于项目的实现过程,清洗之后的结果进行数据展示的时候,除了echarts框架,还发现了另外一种数据展示工具Zeppelin...
启动Spark在UI界面上看不到worker节点的信息
时间：2024-03-26 15:15:56
问题描述作者是在centos上安装spark-2.3.0-bin-hadoop2.7.tgz，当配置好spark-env.sh，改好slaves文件之后，在sbin/目录下运行命令./start-all.sh来启动Spark时，发现没有报错，以为启动成功，但是在Spark的UI界面上看不到worke...
什么是Flink流式计算，与Spark、Storm比较有哪些优劣势和侧重点
时间：2024-03-26 14:20:21
前言今天分享一下，什么是Flink流式计算，与Spark、Storm比较有哪些优劣势和侧重点什么是Flink Flink是一个分布式计算引擎，支持流计算和批处理 Flink的优势 1.和Hadoop相比, Flink使用内存进行计算, 速度明显更优 2.和同样使用内存的Spark相比, Flink...
Apache Spark
时间：2024-03-26 09:20:20
一、Apache Spark 1、Spark简介 Apache Spark是用于大规模数据 (large-scala data) 处理的统一 (unified) 分析引擎。 Spark官网 Spark最早源于一篇论文Resilient Distributed Datasets: A...
spark0.9.1集群模式执行graphx測试程序（LiveJournalPageRank,新增Connected Components）
时间：2024-03-25 14:31:46
spark最新版公布了。之前的版本号就已经集成了graphx，这个版本号还改了一些bug。我做了简单測试，只是网上关于集群模式执行spark资料太少了，仅仅有关于EC2（见參考资料1）的。可是还非常旧，好多命令都有变化了。非常讨厌写安装类的博客不注明当前使用软件的版本号，这是常识好不好？！我的平台配...
Spark SQL概述及特点详解
时间：2024-03-24 16:48:46
目录一、Spark SQL概念二、Spark SQL功能三、Spark SQL 与 Hive 的区别一、Spark SQL概念它主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL，可以针对不同格式的数据执行ETL操作（如JSON，Parquet，数据库）然后完成特定的...
spark sql执行失败
时间：2024-03-24 16:48:22
1：运行 ./bin/spark-sql需要先把hive-site.xml 负责到spark的conf目录下[[email protected] spark-1.2.0-bin-2.4.1]$ ./bin/spark-sqlSpark assembly has been built with Hiv...
CDH5.80 离线安装或者升级spark2.x详细步骤
时间：2024-03-24 16:45:03
CDH5.80 离线安装或者升级spark2.x详细步骤简介：在我的CDH5.80集群中，默认安装的spark是1.6版本，这里需要将其升级为spark2.x版本。从官方文档，可知spark1.6和2.x是可以并行安装的，也就是说可以不用删除默认的1.6版本，可以直接安装2.x版本，它们各自用的端...
Spark分布式集群环境搭建
时间：2024-03-23 16:58:56
一、平台环境虚拟机：VMware Workstation Pro 64位操作系统：Ubuntu16.04 64位二、软件包Jdk-8u171-linux-x64.tar(java version 1.8.0_171)Hadoop 2.9.1.tarScala-2.11.6Spark-2.3.1-b...

1 2 3 4 5