Hadoop Hive HBase Spark Storm概念解释

Hadoop
Hadoop是什么？
答：一个分布式系统基础架构。

Hadoop解决了什么问题？
答：解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储(HDFS)和处理(MapReduce)。

Hive
Hive是什么？
答：Hive是建立在Hadoop之上的，使用Hadoop作为底层存储的批处理系统。（可以理解为MapReduce的一层壳）

Hive解决了什么问题？
答：Hive是为了减少MapReduce jobs的编写工作。

HBase
HBase是什么？
答：HBase是一种Key/Value系统，它运行在HDFS之上。

HBase解决了什么问题？
答：Hbase是为了解决Hadoop的实时性需求。

Spark和Storm是什么？

答：Spark和Storm都是通用的并行计算框架。

解决了什么问题？
答：解决Hadoop只适用于离线数据处理，而不能提供实时数据处理能力的问题。

区别：
1. Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。而Storm是把数据传递给计算过程。

基于设计理念的不同，其应用领域也不同。Spark工作于现有的数据全集（如Hadoop数据）已经被导入Spark集群，Spark基于in-memory管理可以进行快讯扫描，并最小化迭代算法的全局I/O操作。Storm在动态处理大量生成的“小数据块”上要更好（比如在Twitter数据流上实时计算一些汇聚功能或分析）。

秒客网

Hadoop Hive HBase Spark Storm概念解释

相关文章