Spark实践1(Spark简介)

时间:2024-04-11 18:09:45

Spark简介:

         简而言之,Spark就是一个准实时的分布式计算系统。

         准实时怎么理解,这里不展开了,就简单理解为已经接近实时。

        分布式这个东西,说得玄乎其玄,一言蔽之,就是把一个任务,分解到多个节点(这里我们简单假定一个节点就是一台机器),让每台机器运算好了之后,然后合并结果,就是那么简单。跟包工头领了搬砖活,然后分给下面的工人做,工人完成自己的任务之后就向工头交差,然后工头把工作成果汇总,然后向工人发工钱的原理是一模一样的。

      Spark系统做的事情,跟包工头和工人的模型是差不多的,但是它主要使命不是搬砖,而是以下三项:

   1 .    SQL的数据运算

         场景:处理有SQL出现的场景。

   2.     机器学习(MLlib模块)

        场景:提供了一些成熟的算法,如回归,聚类,协同过滤等。

   3.     图处理(GraphX 模块)

        场景:主要应用于社交场景。

   4.     流处理

        场景:主要处理流式计算,什么是流式计算,这里不展开,后续会在实践到的时候详细展开。

Spark实践1(Spark简介)

                                图 1

       如上图一所示,Spark Core实现了Spark的基本功能,如任务调度,内存管理,错误恢复等。Spark Core抽象了并行操作了功能的API,就是充当一个包工头的角色,其他的SQL,MLlib,GraphX实际上就是充当工人的角色。