javasql笔试题-spark-hive-udf:展示如何在ApacheSpark中使用HiveUDF的示例项目下载

【文件属性】：

文件名称：javasql笔试题-spark-hive-udf:展示如何在ApacheSpark中使用HiveUDF的示例项目

文件大小：1.01MB

文件格式：ZIP

更新时间：2024-07-07 03:51:58

系统开源

java sql笔试题示例 Hive UDF 项目介绍该项目只是一个示例，包含多个 (UDF)，用于 Apache Spark。它旨在演示如何在 Scala 或 Java 中构建 Hive UDF 并在 . 为什么要使用 Hive UDF？ Hive UDF 的一个特别好的用途是与 Python 和 DataFrames 一起使用。用 Python 编写的原生 Spark UDF 很慢，因为它们必须在 Python 进程中执行，而不是基于 JVM 的 Spark Executor。要让 Spark Executor 运行 Python UDF，它必须：将数据从分区发送到与 Executor 关联的 Python 进程，以及等待 Python 进程反序列化数据，在其上运行 UDF，重新序列化数据，然后将其发回。相比之下，一个 Hive UDF，无论是用 Scala 还是 Java 编写的，都可以在 Executor JVM 中执行，即使 DataFrame 逻辑是在 Python 中。实际上只有一个缺点：必须通过 SQL 调用 Hive UDF。您不能将其作为来自 D

立即下载

【文件预览】：
spark-hive-udf-master
----project()
--------build.properties(132B)
--------plugins.sbt(117B)
----src()
--------test()
--------main()
----build.sbt(670B)
----LICENSE.md(2KB)
----README.md(7KB)
----libexec()
--------activator-launch-1.3.9.jar(1.15MB)
----.editorconfig(330B)
----.gitignore(124B)
----bin()
--------activator(9KB)
----CHANGELOG.md(201B)

秒客网

javasql笔试题-spark-hive-udf:展示如何在ApacheSpark中使用HiveUDF的示例项目

网友评论

相关文章