Hadoop: The Definitive Guide (3rd Edition)

时间:2023-03-10 00:53:59
Hadoop: The Definitive Guide (3rd Edition)

chapter 1

解决计算能力不足的问题,不是去制造更大的计算机,而是用更多的计算机来解决问题。

我们生活在一个数据的时代。“大数据”的到来不仅仅是影响到那些科研和金融机构,对小型企业以及我们个人都有影响力。

datanode

tasktracker

namenode

jobtracker

secondary namenode

HDFS Clusters don't benefit from RAID fro datanode storage(It's OK for namenode).

为了方便集群的安装,推荐使用自动化安装方法,比如Red Hat的Kickstart或者是Debian的Fully Automatic Installation。

最好专门创建一个使用Hadoop的用户,这样便于把Hadoop的安装和其它运行在机器上的服务相隔离。

大数据代表的不是一种解决方案,而是一类问题。大数据谈的不仅仅是数据量(Volume),还包括数据的时效性(Velocity),多样性(Variety)和可疑性(Veracity)。

数据量,就是指大量数据的产生,处理和存储,PB级数据,甚至ZB级数据。

时效性,指利用大数据做市场预测的时候,如果需要太长时间,就失去了预测的意义。

多样性,指数据的形态,包括文字,影音,网页,串流等结构性和无结构性的数据。

可疑性,指当数据来源变得多元时,这些数据的可靠度,质量是否满足,如果数据本身有问题,分析数据后得出的结果就不可能正确。

ZB=1000EB=1000,000PB=1000,000,000TB