Spark实践1（Spark简介）

Spark简介：

简而言之，Spark就是一个准实时的分布式计算系统。

准实时怎么理解，这里不展开了，就简单理解为已经接近实时。

分布式这个东西，说得玄乎其玄，一言蔽之，就是把一个任务，分解到多个节点（这里我们简单假定一个节点就是一台机器），让每台机器运算好了之后，然后合并结果，就是那么简单。跟包工头领了搬砖活，然后分给下面的工人做，工人完成自己的任务之后就向工头交差，然后工头把工作成果汇总，然后向工人发工钱的原理是一模一样的。

Spark系统做的事情，跟包工头和工人的模型是差不多的，但是它主要使命不是搬砖，而是以下三项：

1 . SQL的数据运算

场景：处理有SQL出现的场景。

2. 机器学习（MLlib模块）

场景：提供了一些成熟的算法，如回归，聚类，协同过滤等。

3. 图处理（GraphX 模块）

场景：主要应用于社交场景。

4. 流处理

场景：主要处理流式计算，什么是流式计算，这里不展开，后续会在实践到的时候详细展开。

Spark实践1（Spark简介）

图 1

如上图一所示，Spark Core实现了Spark的基本功能，如任务调度，内存管理，错误恢复等。Spark Core抽象了并行操作了功能的API，就是充当一个包工头的角色，其他的SQL，MLlib，GraphX实际上就是充当工人的角色。

秒客网

Spark实践1（Spark简介）

相关文章