• 计算机毕业设计Hadoop+Spark+Hive租房推荐系统 贝壳租房数据分析 租房爬虫 租房可视化 租房大数据 大数据毕业设计 大数据毕设 机器学习-技术或业务逻辑特色

    时间:2024-03-29 16:03:08

    核心算法代码分享如下: from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom lxml import etreeimport timefrom selenium.webdriver.ch...

  • spark读取ES数据

    时间:2024-03-29 14:30:47

    maven pom依赖配置:<dependency>  <groupId>org.elasticsearch</groupId>  <artifactId>elasticsearch-spark-13_2.10</artifactId>  ...

  • 使用Spark,从HIVE中获取数据写入HBase过程中遇到的坑

    时间:2024-03-29 09:37:19

    在学习大数据的过程中,通过提交spark-submit提交jar包,将hive中的数据写入HBase的过程中遇到诸多问题,与大家分享。首先,在跑任务的过程中发现错误。ERROR metastore.RetryingHMSHandler: AlreadyExistsException(message:...

  • spark集群模式的部署

    时间:2024-03-29 08:55:49

    1.Spark 介绍    【1】.spark处理大数据的统一分析计算引擎;       a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍;       b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等       c.扩展性:在sp...

  • Maven编译Spark程序jar包体积大,上传时间长的完美解决方案

    时间:2024-03-28 19:27:56

    问题大家使用Maven编译Spark程序打包可能会遇到下边的情况:打一个jar包花费长达3分钟的时间一个jar包的体积200多MB,如果依赖多可能会更大再加上公司这种佛系网络,只能喝喝茶,谈谈人生与理想了解决方案我们可以使用下列步骤来解决:在HDFS创建一个目录来缓存程序依赖的jar包, 这里要注意...

  • Ubuntu系统中安装Spark

    时间:2024-03-28 17:39:35

    安装spark 步骤1、解压到/usr/local目录下:sudo tar -zxf ~/software/spark-2.1.0-bin-without-hadoop.tgz -C /usr/local/2、进入local 目录 :cd /usr/local3、将文件名改为 spark:sudo ...

  • Spark SQL和 presto 访问数据源的对比分析

    时间:2024-03-28 12:13:58

    直观感受是使用Spark SQL比通过 presto 写SQL的查询速度更快开发python程序访问Presto可以借助pyhive工具文章目录Spark SQL是什么?和Hive的不同三种数据结构Dataframe和Dataset是什么Datafram比RDD的优势Dataset比Datafram...

  • Spark的三种运行模式

    时间:2024-03-28 09:27:23

    总结:不管什么运行模式,代码不用改变,只需要在spark-submit脚本提交时通过--master xxx 来设置你的运行模式即可1、local模式:本地运行,使用该模式做开发,使用local模式的话,只需要把spark的安装包解压开,什么都不用动,就能使用./spark-submit \--cl...

  • spark之java程序开发

    时间:2024-03-27 22:31:34

    spark之java程序开发1、Spark中的Java开发的缘由:Spark自身是使用Scala程序开发的,Scala语言是同时具备函数式编程和指令式编程的一种混血语言,而Spark源码是基于Scala函数式编程来给予设计的,Spark官方推荐Spark的开发人员基于Scala的函数式编程来实现Sp...

  • Linux下Eclipse配置scala开发Spark-WordCount项目

    时间:2024-03-27 16:11:04

    Eclipse和Scala安装见:https://blog.csdn.net/qq_25948717/article/details/80404158‘                                       https://blog.csdn.net/qq_25948717/a...

  • Spark源码学习3

    时间:2024-03-27 10:07:44

    转自:http://www.cnblogs.com/hseagle/p/3673132.html一、概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备spark已经安装完毕spar...

  • 十三.Spark SQL之通过Zeppelin进行统计数据的图形化展示

    时间:2024-03-26 20:50:24

        Spark SQL学习有一段时间了,因此花了一些时间写了一个日志清洗的项目,项目已经上传到github上了,  项目地址  感兴趣的可以拉下来看看。     在这里我不讲关于项目的实现过程,清洗之后的结果进行数据展示的时候,除了echarts框架,还发现了另外一种数据展示工具Zeppelin...

  • 启动Spark在UI界面上看不到worker节点的信息

    时间:2024-03-26 15:15:56

    问题描述作者是在centos上安装spark-2.3.0-bin-hadoop2.7.tgz,当配置好spark-env.sh,改好slaves文件之后,在sbin/目录下运行命令./start-all.sh来启动Spark时,发现没有报错,以为启动成功,但是在Spark的UI界面上看不到worke...

  • 什么是Flink流式计算,与Spark、Storm比较有哪些优劣势和侧重点

    时间:2024-03-26 14:20:21

    前言今天分享一下,什么是Flink流式计算,与Spark、Storm比较有哪些优劣势和侧重点什么是Flink Flink是一个分布式计算引擎,支持流计算和批处理 Flink的优势 1.和Hadoop相比, Flink使用内存进行计算, 速度明显更优 2.和同样使用内存的Spark相比, Flink...

  • Apache Spark

    时间:2024-03-26 09:20:20

    一、Apache Spark 1、Spark简介     Apache Spark是用于大规模数据 (large-scala data) 处理的统一 (unified) 分析引擎。 Spark官网     Spark最早源于一篇论文Resilient Distributed Datasets: A...

  • spark0.9.1集群模式执行graphx測试程序(LiveJournalPageRank,新增Connected Components)

    时间:2024-03-25 14:31:46

    spark最新版公布了。之前的版本号就已经集成了graphx,这个版本号还改了一些bug。我做了简单測试,只是网上关于集群模式执行spark资料太少了,仅仅有关于EC2(见參考资料1)的。可是还非常旧,好多命令都有变化了。非常讨厌写安装类的博客不注明当前使用软件的版本号,这是常识好不好?!我的平台配...

  • Spark SQL概述及特点详解

    时间:2024-03-24 16:48:46

    目录一、Spark SQL概念二、Spark SQL功能三、Spark SQL 与 Hive 的区别一、Spark SQL概念它主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL,可以针对不同格式的数据执行ETL操作(如JSON,Parquet,数据库)然后完成特定的...

  • spark sql执行失败

    时间:2024-03-24 16:48:22

    1:运行 ./bin/spark-sql需要先把hive-site.xml 负责到spark的conf目录下[[email protected] spark-1.2.0-bin-2.4.1]$ ./bin/spark-sqlSpark assembly has been built with Hiv...

  • CDH5.80 离线安装或者升级spark2.x详细步骤

    时间:2024-03-24 16:45:03

    CDH5.80 离线安装或者升级spark2.x详细步骤 简介:在我的CDH5.80集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。从官方文档,可知spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端...

  • Spark分布式集群环境搭建

    时间:2024-03-23 16:58:56

    一、平台环境虚拟机:VMware Workstation Pro 64位操作系统:Ubuntu16.04 64位二、 软件包Jdk-8u171-linux-x64.tar(java version 1.8.0_171)Hadoop 2.9.1.tarScala-2.11.6Spark-2.3.1-b...