• SparkSQL项目中的应用

    时间:2021-07-01 20:39:55

    Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Had...

  • 【Spark篇】---SparkSQL on Hive的配置和使用

    时间:2021-06-25 19:44:49

    一、前述Spark on Hive: Hive只作为储存角色,Spark负责sql解析优化,执行。二、具体配置1、在Spark客户端配置Hive On Spark在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml:配置hive的metastore路径<...

  • 入门大数据---SparkSQL常用聚合函数

    时间:2021-06-15 20:42:18

    一、简单聚合1.1 数据准备// 需要导入 spark sql 内置的函数包import org.apache.spark.sql.functions._val spark = SparkSession.builder().appName("aggregations").master("local[...

  • Spark大型电商项目实战-及其改良(3) 分析sparkSQL语句的性能影响

    时间:2021-06-07 00:47:16

    之前的运行数据被清除了,只能再运行一次,对比一下sparkSQL语句的影响 纯SQL的时间 对应时间表 Stage Id Description Submitted Duration Tasks: Succeeded/Total Input Output ...

  • 【Spark篇】---SparkSQL中自定义UDF和UDAF,开窗函数的应用

    时间:2021-05-23 06:55:29

    一、前述SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数。开窗函数一般分组取topn时常用。二、UDF和UDAF函数1、UDF函数java代码:SparkConf conf = new SparkConf();conf.setMaster("local");con...

  • SparkSql实现Mysql到hive的数据流动

    时间:2021-05-21 13:07:16

    今天去面试了一波,因为调度系统采用了SparkSql实现数据从Mysql到hive,在这一点上面试官很明显很不满我对于Spark的理解,19年的第一个面试就这么挂了。有问题不怕,怕的是知道了问题还得过且过。现在就来梳理下我的项目是怎么使用Spark导数的第一步:把mysql中的表放入内存 ...

  • Sparksql过滤(选择where子句)具有多个条件

    时间:2021-05-20 23:10:34

    Hi I have the following issue: 你好,我有以下问题: numeric.registerTempTable("numeric"). All the values that I want to filter on are literal null strings and ...

  • Sparksql的内置函数的使用以及案例

    时间:2021-05-06 21:53:25

    开发环境:spark:2.2.0工具:IDEAOS:Windows数据文件:001E8CB5AB11,ASUSTek,2018-07-12 14:00:57,2018-07-12 14:00:57,2018-07-12 14:00:57,未知,僵尸屏,00023242DDEB7,其他,2018-07...

  • SparkSQL使用之如何使用UDF

    时间:2021-04-02 19:44:18

    使用java开发一个helloworld级别UDF,打包成udf.jar,存放在/home/hadoop/lib下,代码如下:package com.luogankun.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class HelloU...

  • SparkSQL执行时参数优化

    时间:2021-03-24 18:18:26

    近期接手了不少大数据表任务调度补数据的工作,补数时发现资源消耗异常的大且运行速度却不怎么给力.发现根本原因在于sparkSQL配置有诸多问题,解决后总结出来就当抛砖引玉了.具体现象内存CPU比例失调 一个Spark任务消耗 120(executor)*4G = 480G内存仅仅使用120个 core...

  • Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优

    时间:2021-03-11 11:45:35

    【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1.1  运行环境说明1.1.1 硬软件环境线程,主频2.2G,10G内存l  虚拟软件:VMware® Workstation 9.0.0 build-812388l  虚拟机操作系统:CentOS6.5...

  • 037 SparkSQL ThriftServer服务的使用和程序中JDBC的连接

    时间:2021-01-02 15:26:13

    一:使用1.实质提供JDBC/ODBC连接的服务服务运行方式是一个Spark的应用程序,只是这个应用程序支持JDBC/ODBC的连接,所以:可以通过应用的4040页面来进行查看操作2.启动服务3.配置(已经被隐含)1. 配置thriftserver2的ip地址和端口号 修改hive-sit...

  • 深入浅出Spark2.X用户行为分析机器学习,RDD数据集,SparkSQL数据存储,实时流分析视频教程网盘下载

    时间:2020-12-23 16:20:06

    深入浅出Spark2.X用户行为分析机器学习,RDD数据集,SparkSQL数据存储,实时流分析视频教程网盘下载26套Spark企业级项目实战,源码深度剖析,实时流处理,机器学习,数据分析,运行原理,性能调优,图计算,性能调优,缓存优化,监控分析SparkCore,SparkSQL,SparkS...

  • 无法从sparksql连接hive Metastore

    时间:2020-12-01 23:09:18

    Hive .14 Spark 1.6 .Trying to connect hive table from spark pragmatically. I have already put my hive-site.xml in spark conf folder. But when I run th...