Hadoop笔记系列一用Hadoop进行分布式数据处理(1)

学习资料参考地址：

1.http://blog.csdn.net/zhoudaxia/article/details/8801769

1.先说说什么是Hadoop？

　　个人理解：一个分布式文件存储系统+一个分布式计算框架，在其上还有很多的开源项目来丰富他的功能，如Hbase,hive等等。官方：Hadoop是一个用Java编写的开源系统，可安排在大规模的计算平台上，从而提高计算效率。本质上它只是一个海量数据处理平台架构。

2.Hadoop与MapReduce，有什么关系？

　　Hadoop生态圈的三个工具：第一，Hbase，最大化利用了内存。第二，HDFS，最大化利用了磁盘。第三，MapReduce，最大化利用了CPU。(Hbase,利用了Nosql数据库，Key-Value存储；HDFS，是hadoop distribute file system分布式文件系统；MapReduce，编程模型，主要用来做数据分析)

3.Hadoop是在怎么样的一个环境中应用而生的，它最终解决了什么问题？运用它之后，目前的发展方向是什么样的？

　　信息时代数据的增长，比如每天在全球流通的Email。比如，某人在微博中发了不健康内容，我们想在第一时间找出来，需要在海量数据中做搜索。比如某大型公司的日志记录，我们需要离线处理海量数据，从中分析出用户的一些消费习惯。那么我们要存储，我们要运算并且分析，但是硬盘存储空间不够，网络带宽受限，硬件故障不稳定。但是，我们想以很少的代价完成这个tasks。于是产生了Hadoop。如google，会把淘汰的机器用于搭建一个Hadoop集群。运用这个技术之后，我们的海量技术得到了长期保存，得到了及时的处理很分析，集群会自动备份，省去了我们对硬件环境不稳定的担忧。目前，在国内阿里的这方面领先。

4.笔记摘要：

　　Hadoop是一个分布式数据处理框架。当搜索引擎需要收集数据时，数据量是极大的。此时，Hadoop 让许多应用程序能够受益于并行数据处理。

5、Hadoop的安装。

　　首先，安装Java™（至少是 1.6 版）和 cURL。

参考地址：http://blog.itpub.net/26230597/viewspace-1255651/

秒客网

Hadoop笔记系列一用Hadoop进行分布式数据处理(1)

相关文章

Hadoop笔记系列 一 用Hadoop进行分布式数据处理(1)

相关文章

Hadoop笔记系列一用Hadoop进行分布式数据处理(1)