《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言

时间:2023-03-09 15:57:11
《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言

暑假闲得蛋痒,混混沌沌,开始看《Data-Intensive Text Processing with mapReduce》,尽管有诸多单词不懂,还好六级考多了,虽然至今未过;再加上自己当研究僧有一段时间了,经书尚且能懂;故本书大概内容及技术还是理解的。一种闲散的心态开始了对一本技术型书籍的啃读。

此外,看到本校论坛上的技术帖如此冷清,八卦帖依然火爆…..堂堂985+211理工学校的猛男,悍妹,难道都思春去了;实在不给力。闲话少说,开帖(尼玛,最近键盘总是在码字到某个字符的时候突然卡死,弃之,转手写,以后再码上)。

《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言

Mapreduce是一种分布式的程序设计模式。作者首先提出了“Why”,答案是:大数据。那就先来说说数据。

数据的产生:大数据时代,比如咱们的搜索行为、购物习惯、看片类型、社交等,就在各巨头的服务器上存在,并且爆炸式增长。

数据的管理:随着硬件的发展,数据中心越来越多,有能力存了,但是真正会用的公司也就那么几家。

数据的分析:即数据挖掘,用于商业智能、统计学习、决策等。也说本人最感兴趣的。

例子:词性标志。(前言用了大量自然语言处理(NLP)例子, 推荐一本正在看的书,中科院宗成庆的《统计自然语言处理》,超新星视频有他的课程,校园网免费,可在实验室高速下载,而后慢慢学习研究,当然里面还有很多丰富的课程,没事的时候,别老泡图书馆,看视频,学得更快。天文地理,文学艺术,我已经把感兴趣的下得差不多了)

机器如何对输入的语句进行断句(专业讲就是分词,且标出每个词的词性,是名词,还是其他)。首先要有语料库,如果可能,就是人类有史以来所以的文字记载,这就是数据啊,量够大吧,根据统计获得各种断句的概率分布,属于这样切分的概率是多少,那样的概率是多少,就是分类问题。但是语言博大精深,如果碰到一个词有可能有多种词性,就要考虑上下文的关系,这就是多元的语言模型了建立条件概率,根据庞大的语料库,单机计算犹如慢慢长夜,基于群集的分布式处理才能实现高效,mapreduce就派上用场了。

总之,数据驱动一切。而此书主要针对文本型的密集数据进行处理,此外作者还总结了几个有意思的观点:

1). 至少对于文本数据,其研究有三要素:数据本身、特征(数据的表示,或者说模型)以及算法(求解模型的数学方法);我们说数据就是点,点连成线就是建了模型,而点如何成线就要万能的Mathematics,然后根据你输入的点,就可以根据模型拿到你想要的。

2). 数据量越大,学习的准确率越高,引发了争议:只要有足够的数据,机器存储量够大、运行速度够快,算法并不重要。机器学习算法的研究者可以歇菜了。尼玛,研究了两年的算法难道就白费了,还好只是争议,况且目前数据和硬件还无法实现。

3). 平滑处理。大数据的处理,离不开统计。数据缺失时有发生,以前没被雷劈过并表示你下雨打手机一定安全。在语音识别、机器翻译时候的,平滑处理显得尤为重要。

说了一大堆why后,就讲到了what?不是的。是渐渐扯远了,只为吸引你。

  1. 云计算

从传统的并行计算(MPI)、网格计算到效用计算(提供服务的计算模型)。云的最高境界,即一切的一切均抽象为服务。当前就有流行的的3S,IaaS、PaaS以及SaaS。而Mapreduce设计模型恰是一种Powerful的抽象手段,将What和How分离,你只需享受终端的各种服务,怎么做的,那是云端的事情。这让我常想起广告中的一些词,如“联所未连”、“智慧地球”。

2.  强大的思想

1).横向拓展,非纵向延伸——普通pc机就能搭建庞大的群集,无需高性能计算机,成本低;

2).容错性。当出现down机时,自动重新分配节点,依然能正确提供服务,神不知鬼不觉;

3).计算本地化,尽量存储与计算的分离,减少过多的网络传输;

4).数据大而密集,采用批处理,顺序读取,避免随机读取。尽管对固态硬盘而言,两种读取差不多,但是固态硬盘的缺陷也很明显,容量小,成本高,还短命;

5).对开发者而言,So easy,再也不用考虑过多的实现细节了,只需描述你要做什么,怎么做大多是系统封装好了的;

6)扩展能力,数据增大,可扩展群集。当数据固定,增加节点,执行更快,具有线性加速比。

3.   与众不同

随着存储成本下降,hadoop开源发展,云服务变得简单,大数据无非就是存储、算法处理、可视化。Mapreduce在存储与算法间键搭起桥梁。群集的数据中心正如一台超级电脑,冯氏计算机模型将不再高效。

4.   此书的内容

此书主要针对密集文本进行分析,提出算法设计及应用。基于hadoop的Mapreduce开源实现,但不会探讨hadoop的api使用,如需了解,推荐《hadoop权威指南》(目前也在艰难的啃读当中)。

结束语:

今日获悉,长沙又将迎来创纪录的持续高温天气,酷暑已超过寂寞,实在难耐,祝各位凉快!