• spark-sql(spark sql cli)客户端集成hive

    时间:2023-12-19 14:31:00

    1、安装hadoop集群参考:http://www.cnblogs.com/wcwen1990/p/6739151.html2、安装hive参考:http://www.cnblogs.com/wcwen1990/p/6757240.html3、安装配置spark编译spark:http://www....

  • spark-sql执行流程分析

    时间:2023-12-19 10:26:06

    spark-sql 架构图1图1是sparksql的执行架构,主要包括逻辑计划和物理计划几个阶段,下面对流程详细分析。sql执行流程总体流程parser;基于antlr框架对 sql解析,生成抽象语法树变量替换,通过正则表达式找出符合规则的字符串,替换成系统缓存环境的变量SQLConf中的`spar...

  • 【Spark-SQL学习之一】 SparkSQL

    时间:2023-12-06 14:06:11

    环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4FTP:Xftp4jdk1.8scala-2.10.4(依赖jdk1.8)spark-1.6一、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算...

  • spark-sql缩减版样例:获取每日top3搜索词和各自的次数,包括总次数

    时间:2023-11-10 23:17:02

    //获取出每天前3的搜索词 ArrayList<String> log = new ArrayList<String>(); log.add("2015-10-01,leo,a1,beijing,android"); log.add(...

  • shell脚本调用spark-sql

    时间:2023-11-10 15:54:54

    为了更方便的查询并产生报表, 需要使用shell脚本调用spark-sqlspark/bin/spark-sql --master spark://host:7077 -f ${SQL_FILE} > ${OUT_FILE}

  • spark-sql执行流程分析

    时间:2022-12-19 21:05:38

    spark-sql 架构   图1 图1是sparksql的执行架构,主要包括逻辑计划和物理计划几个阶段,下面对流程详细分析。   sql执行流程 总体流程 parser;基于antlr框架对 sql解析,生成抽象语法树 变量替换,通过正则表达式找出符合规则的字符串,替换成系统缓存环境的变量 SQ...

  • spark on yarn模式下配置spark-sql访问hive元数据

    时间:2022-12-18 19:05:53

    spark on yarn模式下配置spark-sql访问hive元数据目的:在spark on yarn模式下,执行spark-sql访问hive的元数据。并对比一下spark-sql 和hive的效率。软件环境:hadoop2.7.3apache-hive-2.1.1-binspark-2.1....

  • spark-sql集合的“条件过滤”,“合并”,“动态类型映射DataFrame”,“存储”

    时间:2022-11-21 00:37:04

    List<String> basicList = new ArrayList<String>(); basicList.add("{\"name\": \"zzq\",\"age\": 15}"); basicList.add("{\"name...

  • Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据

    时间:2022-09-02 20:48:02

    Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据,前端数据通过 kafka队列传递,外层还有flume的实时收集。 1、mvn构建工程,指定好依赖的库,这里用的是spark1.4.1 <project xmlns="http://maven...

  • 【Spark-SQL学习之二】 SparkSQL DataFrame创建和储存

    时间:2022-03-22 20:52:35

    环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4FTP:Xftp4jdk1.8scala-2.10.4(依赖jdk1.8)spark-1.61、读取json格式的文件创建DataFrame注意:(1)json文件中的json数据不能嵌套jso...

  • spark-sql做ETL时遇到的两个问题

    时间:2022-03-19 23:10:02

    项目中使用spark-sql来作ETL,遇到两个问题,记录一下。问题1:spark-sql –master yarn –hiveconf load_date=`date –d ..`  -e ‘insert overwrite table tbl(.) select distinct * from ...

  • sparkf:spark-sql替换hive查询引擎

    时间:2022-01-02 03:25:11

    sparkf:spark-sql替换hive查询引擎 CONSOLE# WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a di...

  • Spark-SQL之DataFrame操作

    时间:2021-08-27 22:23:36

    Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成Sp...

  • springboot 整合spark-sql报错

    时间:2021-08-19 13:21:39

    Exception in thread "main" org.spark_project.guava.util.concurrent.ExecutionError: java.lang.NoSuchMethodError: org.codehaus.commons.compiler.Location...

  • Spark(四): Spark-sql 读hbase

    时间:2021-08-16 03:16:17

    SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合目录:SparkSql 访问 hbase配置测试验证SparkSql 访问 hbase配...

  • 【转】Spark-Sql版本升级对应的新特性汇总

    时间:2021-07-31 07:14:03

    Spark-Sql版本升级对应的新特性汇总SparkSQL的前身是Shark。由于Shark自身的不完善,2014年6月1日Reynold Xin宣布:停止对Shark的开发。SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar S...

  • spark-sql中的DataFrame文件格式转储示例

    时间:2021-05-28 20:52:14

    SparkConf sparkConf = new SparkConf()// .setMaster("local") .setAppName("DataFrameTest1"); JavaSparkContext...

  • spark-sql自定义函数UDF和UDAF

    时间:2021-05-22 12:41:23

    1 UDF对每个值进行处理;2 UDAF对分组后的每个值处理(必须分组) SparkConf sparkConf = new SparkConf() .setMaster("local") .setAppName("MySqlTest...

  • java使用spark/spark-sql处理schema数据(spark1.6)

    时间:2021-01-15 15:02:58

    1、spark是什么?Spark是基于内存计算的大数据并行计算框架。1.1 Spark基于内存计算相比于MapReduce基于IO计算,提高了在大数据环境下数据处理的实时性。1.2 高容错性和高可伸缩性与mapreduce框架相同,允许用户将Spark部署在大量廉价硬件之上,形成集群。2、spark...