【文件属性】:
文件名称:PySpark
文件大小:2KB
文件格式:ZIP
更新时间:2021-03-13 16:36:58
PySpark
有关PySpark / Spark的一些信息:
PySpark是适用于Spark的Python API
Spark不是一种编程语言
PySpark允许您编写在分布式集群上并行执行的基于python的数据处理应用程序
Apache Spark是一个分析处理引擎,用于大规模,强大的分布式数据处理以及amchine学习应用程序
Hadoop和Mapreduce的发明是为了解决大数据存储和处理问题
Hadoop是一组旨在在分布式计算机集群上运行的软件库,Mapreduce是数据处理引擎
Mapreduce的问题:数据处理仅在磁盘上进行
如果在磁盘上进行处理,Spark的执行速度比Mapreduce快10倍,但是在内存中执行的速度比Mapreduce快100倍
Spark以最有效,最可靠和最快的方式处理数据
Spark由大量数据分析和机器学习库组成
Apache Spark在主
【文件预览】:
PySpark-main
----README.md(3KB)