• IDEA 本地调试spark程序 Exception in thread "main" java.lang.NoSuchMethodError: scala.collection.immutable.

    时间:2024-04-14 14:55:13

    1.很简单的一测试程序:2.run运行时:出现ERROR,报错行显示在  new SparkContext 这行。val sc = new SparkContext(conf)Exception in thread "main" java.lang.NoSuchMethodError: scala....

  • Idea 本地运行spark程序参数配置

    时间:2024-04-14 14:54:08

    在idea上运行spark程序,需要配置部分如下 点击run->Edit configurationVM options 配置的是配置参数,规定了spark运行的一些配置 program arguments 配置的是输入的参数,要注意的是,输入变量和对应的值之间用空格分开,并且值不需要用引号括...

  • Spark集群搭建与并验证环境是否搭建成功(三台机器)

    时间:2024-04-14 14:30:01

    在之前hadoop的基础上,进行Spark分布式集群:(1)下载Spark集群需要的基本软件,本篇需要的是:Scala-2.10.4、spark-1.4.0-bin-hadoop(2)安装Spark集群需要的每个软件(3)启动并查看集群的状况(4)t通过spark-shell测试spark工作1.S...

  • Spark_SparkSql写入Oracle_Undefined function.....将长字符串写入Oracle中方法..

    时间:2024-04-14 12:26:30

            在使用Spark编写代码将读库处理然后写入Oracle中遇到了诸多小bug,很磨人,好在解决了。shit!! 实测1:TO_CLOB(a3) 代码样例 --这是一个sparksql写入hive的一个小逻辑,我脱敏了噻SELECTa1,a2,TO_CLOB(a3) AS clob_da...

  • Spark-Scala语言实战(16)

    时间:2024-04-14 12:21:36

    在之前的文章中,我们学习了三道任务,运用之前学到的方法。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢。 Spark-Scala语言实战(15)-CSDN博客文章浏览阅读1.5k次,点赞38次,收藏32次。今天开始的文章,我会带着大家来...

  • Spark排序算法系列之(MLLib、ML)GBTs使用方式介绍(模型训练、保存、加载、预测)

    时间:2024-04-13 18:26:11

                                                       “ Spark推​荐排序系列文章之GBDT(梯度提升决策树)介绍”前言【Spark排序算法系列】主要介绍的是目前推荐系统或者广告点击方面用的比较广的几种算法,和他们在Spark中的应用实现,本篇文章...

  • 梯度提升树GBDT模型原理及spark ML实现

    时间:2024-04-13 17:54:48

    目录一、GBDT模型原理1.1  GB(Gradient Boost)算法1.2 GBDT模型二、spark ML机器学习库中GBDT使用案例三、GBDT与Boost算法比较四、 GBDT与RF比较一、GBDT模型原理 1.1  GB(Gradient Boost)算法GB算法直观理解,将损失函数的...

  • hive和spark在分组时用到字符串截取函数substr和substring时的区别

    时间:2024-04-13 14:46:53

    这篇文章主要以日期表为例子,讨论hive和spark在处理分组语句时的异同点,以及substr和substring函数的区别。我们在写hive sql做数据查询时,我们经常会遇到分组的字段需要截取字符串或者处理一下,这时候我们会有一个疑问,我们是要用这个截取字符串的别名做分组呢?还是用截取串的那个函...

  • Spark组件:RDD、DataFrame和DataSet介绍、场景与比较

    时间:2024-04-13 13:28:27

    1.rdd,dataframe,dataset在哪个版本被引入?2.什么情况下使用rdd,dataframe,dataset?3.它们有什么不同?spark生态系统中,Spark Core,包括各种Spark的各种核心组件,它们能够对内存和硬盘进行操作,或者调用CPU进行计算。spark core定...

  • spark StructType的应用,用在处理mongoDB keyvalue

    时间:2024-04-13 09:27:10

    近期在处理mongoDB 数据的时候,遇到了非常奇怪的格式,账号密码的日志都追加在一条记录里面,要取一个密码的时长和所有密码的平均时长就非常繁琐。用了各种迭代计算,非常困难,而且printschema出来结构也是不规范的。和同事一起研究后用了StructType 效率非常高。代码如下:import ...

  • 【小贪】数据库常用操作:MySQL, HQL, Spark SQL

    时间:2024-04-12 16:41:11

    近期致力于总结科研或者工作中用到的主要技术栈,从技术原理到常用语法,这次查缺补漏当作我的小百科。主要技术包括: 数据库常用:MySQL, Hive SQL, Spark SQL 大数据处理常用:Pyspark, Pandas 图像处理常用:OpenCV, matplotlib 机器学习常用:SciP...

  • 推荐几个自认为不错的学习Spark的视频资源(百度云)

    时间:2024-04-12 16:32:06

    有段时间没写大数据相关的博客了,主要是最近一边学着Spark,一边手上做着基于Hadoop的实现一个web端推荐系统的项目。想写点东西,整理了一会儿发现写的不咋地就没发出来,这次就放几个Spark的学习视频资源吧,是百度云链接啊。你要是觉得有帮助的话,右上角可以给这篇文章点赞,谢谢学习 Scala ...

  • 基于WIFI探针的商业大数据分析系统(hadoop+spark+hbase+bootstrap+echarts)

    时间:2024-04-12 15:16:21

    WIFI_BussinessBigDataAnalyseSystem基于WIFI探针的商业大数据分析技术(纪念大学最后一次中软杯)距离我参加”中国软件杯”时间已经过了半年,很多东西需要整理,也需要反思,先介绍下我和队友们齐心协力历时3个多月的比赛作品吧!问题分析先说下我们这个为什么要开发这个软件。 ...

  • Spark中的一些概念

    时间:2024-04-12 13:19:47

    最近工作用到Spark,这里记一些自己接触到的Spark基本概念和知识。本文链接:https://www.cnblogs.com/hhelibeb/p/10288915.html名词RDD:在高层,每个Spark应用包含一个driver程序,它运行用户的主函数,在集群上执行不同的并行作业。Spark...

  • 在 Windows 上安装Spark(PySpark库)(无需安装 Hadoop )

    时间:2024-04-11 18:13:53

    1.需要预装 Anaconda ,推荐从清华镜像下载符合你机器配置的最新版。2.确保你的电脑已经安装好了 Java 7+ 。对了,Java 安装路径中不能有空格!路径中不能有空格!3.访问 Apache Spark 网站,下载 Apache Spark:1. 选择一个 Spark 版本 (Choos...

  • Spark实践1(Spark简介)

    时间:2024-04-11 18:09:45

    Spark简介:         简而言之,Spark就是一个准实时的分布式计算系统。         准实时怎么理解,这里不展开了,就简单理解为已经接近实时。        分布式这个东西,说得玄乎其玄,一言蔽之,就是把一个任务,分解到多个节点(这里我们简单假定一个节点就是一台机器),让每台机器运...

  • 使用idea开发Spark程序报错scala.util.matching.Regex或lass scala.collection.mutable.WrappedArray overrides fina

    时间:2024-04-11 17:45:16

    问题的出现:使用idea进行Spark开发的时候报错个人遇到的报错scala.util.matching.Regex.(Ljava/lang/String;Lscala/collection/Seq;)Vjava.lang.VerifyError: class scala.collection.mu...

  • Spark记录-Spark作业调试

    时间:2024-04-11 15:37:01

    在本地IDE里直接运行spark程序操作远程集群一般运行spark作业的方式有两种:本机调试,通过设置master为local模式运行spark作业,这种方式一般用于调试,不用连接远程集群。集群运行。一般本机调试通过后会将作业打成jar包通过spark-submit提交运行。生产环境一般使用这种方式...

  • 【Spark性能调优-配置进程参数】-配置Driver内存。

    时间:2024-04-10 10:29:59

    (1) Driver负责任务的调度,和Executor、AM之间的消息通信。当任务数变多,任务平行度增大时,Driver内存都需要相应增大。 (2) 可以根据实际任务数量的多少,为Driver设置一个合适的内存。 将“spark-defaults.conf”中的“spark.driver.memo

  • spark actions 算子

    时间:2024-04-10 08:13:34

    package action;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac...