《Data-Intensive Text Processing with mapReduce》读书笔记之一：前言

暑假闲得蛋痒，混混沌沌，开始看《Data-Intensive Text Processing with mapReduce》，尽管有诸多单词不懂，还好六级考多了，虽然至今未过；再加上自己当研究僧有一段时间了，经书尚且能懂；故本书大概内容及技术还是理解的。一种闲散的心态开始了对一本技术型书籍的啃读。

此外，看到本校论坛上的技术帖如此冷清，八卦帖依然火爆…..堂堂985+211理工学校的猛男，悍妹，难道都思春去了；实在不给力。闲话少说，开帖（尼玛，最近键盘总是在码字到某个字符的时候突然卡死，弃之，转手写，以后再码上）。

《Data-Intensive Text Processing with mapReduce》读书笔记之一：前言

Mapreduce是一种分布式的程序设计模式。作者首先提出了“Why”，答案是：大数据。那就先来说说数据。

数据的产生：大数据时代，比如咱们的搜索行为、购物习惯、看片类型、社交等，就在各巨头的服务器上存在，并且爆炸式增长。

数据的管理：随着硬件的发展，数据中心越来越多，有能力存了，但是真正会用的公司也就那么几家。

数据的分析：即数据挖掘，用于商业智能、统计学习、决策等。也说本人最感兴趣的。

例子：词性标志。（前言用了大量自然语言处理（NLP）例子，推荐一本正在看的书，中科院宗成庆的《统计自然语言处理》，超新星视频有他的课程，校园网免费，可在实验室高速下载，而后慢慢学习研究，当然里面还有很多丰富的课程，没事的时候，别老泡图书馆，看视频，学得更快。天文地理，文学艺术，我已经把感兴趣的下得差不多了）

机器如何对输入的语句进行断句(专业讲就是分词，且标出每个词的词性，是名词，还是其他)。首先要有语料库，如果可能，就是人类有史以来所以的文字记载，这就是数据啊，量够大吧，根据统计获得各种断句的概率分布，属于这样切分的概率是多少，那样的概率是多少，就是分类问题。但是语言博大精深，如果碰到一个词有可能有多种词性，就要考虑上下文的关系，这就是多元的语言模型了建立条件概率，根据庞大的语料库，单机计算犹如慢慢长夜，基于群集的分布式处理才能实现高效，mapreduce就派上用场了。

总之，数据驱动一切。而此书主要针对文本型的密集数据进行处理，此外作者还总结了几个有意思的观点：

1). 至少对于文本数据，其研究有三要素：数据本身、特征(数据的表示，或者说模型)以及算法（求解模型的数学方法）；我们说数据就是点，点连成线就是建了模型，而点如何成线就要万能的Mathematics，然后根据你输入的点，就可以根据模型拿到你想要的。

2). 数据量越大，学习的准确率越高，引发了争议：只要有足够的数据，机器存储量够大、运行速度够快，算法并不重要。机器学习算法的研究者可以歇菜了。尼玛，研究了两年的算法难道就白费了，还好只是争议，况且目前数据和硬件还无法实现。

3). 平滑处理。大数据的处理，离不开统计。数据缺失时有发生，以前没被雷劈过并表示你下雨打手机一定安全。在语音识别、机器翻译时候的，平滑处理显得尤为重要。

说了一大堆why后，就讲到了what？不是的。是渐渐扯远了，只为吸引你。

云计算

从传统的并行计算(MPI)、网格计算到效用计算(提供服务的计算模型)。云的最高境界，即一切的一切均抽象为服务。当前就有流行的的3S，IaaS、PaaS以及SaaS。而Mapreduce设计模型恰是一种Powerful的抽象手段，将What和How分离，你只需享受终端的各种服务，怎么做的，那是云端的事情。这让我常想起广告中的一些词，如“联所未连”、“智慧地球”。

2. 强大的思想

1).横向拓展，非纵向延伸——普通pc机就能搭建庞大的群集，无需高性能计算机，成本低；

2).容错性。当出现down机时，自动重新分配节点，依然能正确提供服务，神不知鬼不觉；

3).计算本地化，尽量存储与计算的分离，减少过多的网络传输；

4).数据大而密集，采用批处理，顺序读取，避免随机读取。尽管对固态硬盘而言，两种读取差不多，但是固态硬盘的缺陷也很明显，容量小，成本高，还短命；

5).对开发者而言，So easy，再也不用考虑过多的实现细节了，只需描述你要做什么，怎么做大多是系统封装好了的；

6)扩展能力，数据增大，可扩展群集。当数据固定，增加节点，执行更快，具有线性加速比。

3. 与众不同

随着存储成本下降，hadoop开源发展，云服务变得简单，大数据无非就是存储、算法处理、可视化。Mapreduce在存储与算法间键搭起桥梁。群集的数据中心正如一台超级电脑，冯氏计算机模型将不再高效。

4. 此书的内容

此书主要针对密集文本进行分析，提出算法设计及应用。基于hadoop的Mapreduce开源实现，但不会探讨hadoop的api使用，如需了解，推荐《hadoop权威指南》（目前也在艰难的啃读当中）。

结束语：

今日获悉，长沙又将迎来创纪录的持续高温天气，酷暑已超过寂寞，实在难耐，祝各位凉快！

秒客网

《Data-Intensive Text Processing with mapReduce》读书笔记之一：前言

相关文章