【文件属性】:
文件名称:javasql笔试题-spark-hive-udf:展示如何在ApacheSpark中使用HiveUDF的示例项目
文件大小:1.01MB
文件格式:ZIP
更新时间:2021-06-17 10:05:18
系统开源
java
sql笔试题示例
Hive
UDF
项目
介绍
该项目只是一个示例,包含多个
(UDF),用于
Apache
Spark。
它旨在演示如何在
Scala
或
Java
中构建
Hive
UDF
并在
.
为什么要使用
Hive
UDF?
Hive
UDF
的一个特别好的用途是与
Python
和
DataFrames
一起使用。
用
Python
编写的原生
Spark
UDF
很慢,因为它们必须在
Python
进程中执行,而不是基于
JVM
的
Spark
Executor。
要让
Spark
Executor
运行
Python
UDF,它必须:
将数据从分区发送到与
Executor
关联的
Python
进程,以及
等待
Python
进程反序列化数据,在其上运行
UDF,重新序列化数据,然后将其发回。
相比之下,一个
Hive
UDF,无论是用
Scala
还是
Java
编写的,都可以在
Executor
JVM
中执行,即使
DataFrame
逻辑是在
Python
中。
实际上只有一个缺点:必须通过
SQL
调用
Hive
UDF。
您不能将其作为来自
D
【文件预览】:
spark-hive-udf-master
----project()
--------build.properties(132B)
--------plugins.sbt(117B)
----src()
--------test()
--------main()
----build.sbt(670B)
----LICENSE.md(2KB)
----README.md(7KB)
----libexec()
--------activator-launch-1.3.9.jar(1.15MB)
----.editorconfig(330B)
----.gitignore(124B)
----bin()
--------activator(9KB)
----CHANGELOG.md(201B)