Hadoop Hive HBase Spark Storm概念解释

时间:2023-03-08 18:29:37

Hadoop
Hadoop是什么?
答:一个分布式系统基础架构。

Hadoop解决了什么问题?
答:解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储(HDFS)和处理(MapReduce)。

Hive
Hive是什么?
答:Hive是建立在Hadoop之上的,使用Hadoop作为底层存储的批处理系统。(可以理解为MapReduce的一层壳)

Hive解决了什么问题?
答:Hive是为了减少MapReduce jobs的编写工作。

HBase
HBase是什么?
答:HBase是一种Key/Value系统,它运行在HDFS之上。

HBase解决了什么问题?
答:Hbase是为了解决Hadoop的实时性需求。

Spark和Storm是什么? 

答:Spark和Storm都是通用的并行计算框架。

解决了什么问题?
答:解决Hadoop只适用于离线数据处理,而不能提供实时数据处理能力的问题。

区别:
1. Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。而Storm是把数据传递给计算过程。

基于设计理念的不同,其应用领域也不同。Spark工作于现有的数据全集(如Hadoop数据)已经被导入Spark集群,Spark基于in-memory管理可以进行快讯扫描,并最小化迭代算法的全局I/O操作。Storm在动态处理大量生成的“小数据块”上要更好(比如在Twitter数据流上实时计算一些汇聚功能或分析)。