Spark SQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQL on Spark。 之前,Shark的查询编译和优化器依赖于Hive,使得Shark不得不维护一套Hive分支,而Spark SQL使用Catalyst做查询解析和优化器,并在底层使用Spark作为执行引擎实现SQL的Operator。 用户可以在Spark上直接书写SQL,相当于为Spark扩充了一套SQL算子,这无疑更加丰富了Spark的算子和功能,同时Spark SQL不断兼容不同的持久化存储(如HDFS、 Hive等),为其发展奠定广阔的空间。
相关文章
- Spark RDD概念学习系列之RDD的转换(十)
- 十三.Spark SQL之通过Zeppelin进行统计数据的图形化展示
- Spark SQL DataFrame新增一列的四种方法
- Spark SQL概念学习系列之Spark SQL 优化策略(五)
- Webservice WCF WebApi 前端数据可视化 前端数据可视化 C# asp.net PhoneGap html5 C# Where 网站分布式开发简介 EntityFramework Core依赖注入上下文方式不同造成内存泄漏了解一下? SQL Server之深入理解STUFF 你必须知道的EntityFramework 6.x和EntityFramework Cor
- Spark 系列(八)—— Spark SQL 之 DataFrame 和 Dataset
- Spark RDD概念学习系列之RDD的checkpoint(九)
- Spark SQL之External DataSource外部数据源(一)示例
- Spark SQL/Hive 同一列的多行记录合并为一行
- Spark RDD概念学习系列之RDD的容错机制(十七)