Spark-SQL相关文章

spark-sql(spark sql cli)客户端集成hive
时间：2023-12-19 14:31:00
1、安装hadoop集群参考：http://www.cnblogs.com/wcwen1990/p/6739151.html2、安装hive参考：http://www.cnblogs.com/wcwen1990/p/6757240.html3、安装配置spark编译spark：http://www....
spark-sql执行流程分析
时间：2023-12-19 10:26:06
spark-sql 架构图1图1是sparksql的执行架构，主要包括逻辑计划和物理计划几个阶段，下面对流程详细分析。sql执行流程总体流程parser；基于antlr框架对 sql解析，生成抽象语法树变量替换，通过正则表达式找出符合规则的字符串，替换成系统缓存环境的变量SQLConf中的`spar...
【Spark-SQL学习之一】 SparkSQL
时间：2023-12-06 14:06:11
环境虚拟机：VMware 10 Linux版本：CentOS-6.5-x86_64 客户端：Xshell4FTP：Xftp4jdk1.8scala-2.10.4(依赖jdk1.8)spark-1.6一、SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎，由于底层的计算...
spark-sql缩减版样例：获取每日top3搜索词和各自的次数，包括总次数
时间：2023-11-10 23:17:02
//获取出每天前3的搜索词 ArrayList<String> log = new ArrayList<String>(); log.add("2015-10-01,leo,a1,beijing,android"); log.add(...
shell脚本调用spark-sql
时间：2023-11-10 15:54:54
为了更方便的查询并产生报表，需要使用shell脚本调用spark-sqlspark/bin/spark-sql --master spark://host:7077 -f ${SQL_FILE} > ${OUT_FILE}
spark-sql执行流程分析
时间：2022-12-19 21:05:38
spark-sql 架构图1 图1是sparksql的执行架构，主要包括逻辑计划和物理计划几个阶段，下面对流程详细分析。 sql执行流程总体流程 parser；基于antlr框架对 sql解析，生成抽象语法树变量替换，通过正则表达式找出符合规则的字符串，替换成系统缓存环境的变量 SQ...
标签：spark
spark on yarn模式下配置spark-sql访问hive元数据
时间：2022-12-18 19:05:53
spark on yarn模式下配置spark-sql访问hive元数据目的：在spark on yarn模式下，执行spark-sql访问hive的元数据。并对比一下spark-sql 和hive的效率。软件环境：hadoop2.7.3apache-hive-2.1.1-binspark-2.1....
spark-sql集合的“条件过滤”，“合并”，“动态类型映射DataFrame”，“存储”
时间：2022-11-21 00:37:04
List<String> basicList = new ArrayList<String>(); basicList.add("{\"name\": \"zzq\",\"age\": 15}"); basicList.add("{\"name...
Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据
时间：2022-09-02 20:48:02
Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据，前端数据通过 kafka队列传递，外层还有flume的实时收集。 1、mvn构建工程，指定好依赖的库，这里用的是spark1.4.1 <project xmlns="http://maven...
标签：数据 stream spark 股票 kafka 实现 sql
【Spark-SQL学习之二】 SparkSQL DataFrame创建和储存
时间：2022-03-22 20:52:35
环境虚拟机：VMware 10 Linux版本：CentOS-6.5-x86_64 客户端：Xshell4FTP：Xftp4jdk1.8scala-2.10.4(依赖jdk1.8)spark-1.61、读取json格式的文件创建DataFrame注意：(1)json文件中的json数据不能嵌套jso...
spark-sql做ETL时遇到的两个问题
时间：2022-03-19 23:10:02
项目中使用spark-sql来作ETL，遇到两个问题，记录一下。问题1：spark-sql –master yarn –hiveconf load_date=`date –d ..` -e ‘insert overwrite table tbl(.) select distinct * from ...
sparkf:spark-sql替换hive查询引擎
时间：2022-01-02 03:25:11
sparkf:spark-sql替换hive查询引擎 CONSOLE# WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a di...
Spark-SQL之DataFrame操作
时间：2021-08-27 22:23:36
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成Sp...
springboot 整合spark-sql报错
时间：2021-08-19 13:21:39
Exception in thread "main" org.spark_project.guava.util.concurrent.ExecutionError: java.lang.NoSuchMethodError: org.codehaus.commons.compiler.Location...
Spark(四): Spark-sql 读hbase
时间：2021-08-16 03:16:17
SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler, 具体配置参见：Hive(五):hive与hbase整合目录：SparkSql 访问 hbase配置测试验证SparkSql 访问 hbase配...
【转】Spark-Sql版本升级对应的新特性汇总
时间：2021-07-31 07:14:03
Spark-Sql版本升级对应的新特性汇总SparkSQL的前身是Shark。由于Shark自身的不完善，2014年6月1日Reynold Xin宣布：停止对Shark的开发。SparkSQL抛弃原有Shark的代码，汲取了Shark的一些优点，如内存列存储（In-Memory Columnar S...
spark-sql中的DataFrame文件格式转储示例
时间：2021-05-28 20:52:14
SparkConf sparkConf = new SparkConf()// .setMaster("local") .setAppName("DataFrameTest1"); JavaSparkContext...
标签：文件 data spark 示例 sql
spark-sql自定义函数UDF和UDAF
时间：2021-05-22 12:41:23
1 UDF对每个值进行处理；2 UDAF对分组后的每个值处理（必须分组） SparkConf sparkConf = new SparkConf() .setMaster("local") .setAppName("MySqlTest...
java使用spark/spark-sql处理schema数据(spark1.6)
时间：2021-01-15 15:02:58
1、spark是什么？Spark是基于内存计算的大数据并行计算框架。1.1 Spark基于内存计算相比于MapReduce基于IO计算，提高了在大数据环境下数据处理的实时性。1.2 高容错性和高可伸缩性与mapreduce框架相同，允许用户将Spark部署在大量廉价硬件之上，形成集群。2、spark...