基于nutch-1.2实现本地搜索引擎

　　声明:本博文参考了很多资料,主要来自http://blog.****.net/jiutao_tang/article/details/6461884/,http://www.cnblogs.com/xia520pi/p/3615554.html,可以点击这些原文观看

nutch是Apach开源项目,是由java实现的web爬虫,可以直接抓取网页内容,并使用内嵌的Lucene生成本地检索文件,提供全文索引搜索功能.

这里在ubuntu14.04系统中,我采用nutch-1.2+Tomcate6.0.53+IKAnalyzer3.2.8+ant+javacc实现本地搜索引擎.

系统架构:

基于nutch-1.2实现本地搜索引擎

1.环境配置

jdk的安装是必须的,这个网上教程很多,不赘述.

tomcat的安装参考我的另一篇博文:http://www.cnblogs.com/qj4d/p/7222323.html

nutch的安装也跟tomcat类似,下载nutch1.2后,解压缩,将其/bin目录添加到/etc/profile中,别忘了完成后执行source /etc/profile

NUTCH_HOME=/home/xxxx/Documents/apache-nutch-1.2

export PATH=$PATH:$NUTCH_HOME/bin:

IKAnalyzer3.2.8下载,这个我是从****上下的.

　ant和javacc的安装很简单,直接apt-get install即可.

2.修改"nutchz1.2/src/java/org/apache/nutch/searcher/Query.java" line 36附近,import异常类:

　　org.apache.nutch.analysis.ParseException;

　　基于nutch-1.2实现本地搜索引擎　　

　　line 454附近,将代码修改为如下的样子:

　　基于nutch-1.2实现本地搜索引擎

3.修改"nutch-1.2/src/java/org/apache/nutch/analysis/ NutchAnalysis.jj"

　　在NutchAnalysis.jj中找到"| <SIGRAM: <CJK> >",将其修改为:"| <SIGRAM: (<CJK>)+ >"

　　基于nutch-1.2实现本地搜索引擎

　　将NutchAnalysis.jj文件复制到某个目录下,使用javacc命令编译出7个新的java文件,

　　基于nutch-1.2实现本地搜索引擎

　　将这7个新的java文件移动到"/nutch-1.2/src/java/org/apache/nutch/analysis",覆盖原文件.

4.修改"nutch-1.2/src/java/org/apache/nutch/analysis/ NutchAnalysis.java"文件.

　　添加一条Import语句:

　　基于nutch-1.2实现本地搜索引擎

　　并且修改line 50 处开始的两个函数,为他们添加 throw ParseException:

　　基于nutch-1.2实现本地搜索引擎

5.修改“nutch-1.2/src/java/org/apache/nutch/analysis/ NutchDocumentAnalyzer.java” .

　　添加两个import语句:

　　基于nutch-1.2实现本地搜索引擎

　　修改line105处的函数,将其注释,修改为IKAnalyzer()分词器:

　　基于nutch-1.2实现本地搜索引擎

6.修改"/nutch-1.2/build.xml"文件

　　在line200行附近添加IKAnalyzer的jar包

　　基于nutch-1.2实现本地搜索引擎

7.使用ant执行build.xml文件,可以在/nutch-1.2目录下得到一个新的/build文件目录,将里面的三个文件:nucth-1.2.jar, nutch-1.2.job,nutch-1.2.war

　复制到/nutch-1.2目录下,覆盖原文件

　　基于nutch-1.2实现本地搜索引擎

8.在/nutch-1.2目录下新建一个txt文件,用来保存初始搜索的url:

　　基于nutch-1.2实现本地搜索引擎

9.修改/nutch-1.2/conf/crawl-urlfiliter.txt文件中的配置,这个文件中的正则表达式定义了那些文件可以被Nutch爬行，那些不可以被爬行。其中以“+”号开头的表示属于Nuch合法的Url连接，“-”号开头相反。由于我的搜索引擎主要专注于历史topic,所以我将ulr控制为与历史相关:

# accept hosts in MY.DOMAIN.NAME

#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

+^http://([a-z0-9]*\.)*lishi.net/

+^http://([a-z0-9]*\.)*renren.com/

+^http://([a-z0-9]*\.)*qulishi.com/

+^http://([a-z0-9]*\.)*.huanqiu.com/

+^http://([a-z0-9]*\.)*.sohu.com/

+^http://([a-z0-9]*\.)*lssdjt.com/

+^http://([a-z0-9]*\.)*zhihu.com/topic/19551077

+^http://([a-z0-9]*\.)*xuekewang.com/

10.配置/nutch-1.2/conf/nutch-site.xml,填写相关的代理属,我使用http.agent.name,以及配置搜索目录:

<configuration>

<property>

<name>http.agent.name</name>

<value>HD nutch agent</value>

</property>

<property>

<name>http.agent.version</name>

<value>1.2</value>

</property>

 <property>

  <name>searcher.dir</name>

  <value>/home/weichao/Documents/newNutch/nutch-1.2/result</value>

  <description></description>

 </property>

</configuration>

11.可以开始爬取网页建立索引了

　　在/nutch-1.2目录下使用命令:

bin/nutch crawl /home/weichao/Documents/apache-nutch-1.2/url.txt -dir /home/weichao/Documents/apache-nutch-1.2/search_result -threads 8 -depth 5 -topN 100

　　命令行参数格式:

 Crawl命令的使用说明为: crawl <url dir> [-dir index] [-threads num] [-depth num] [-topN num]

 urls是存放需要爬行网址的文件夹目录。

 -dir选项是抓取的页面的存放目录。

 -threads选项是启动的最大线程数。

 -depth选项是能爬行的最大深度，也就是最多爬行到第几级的页面，也叫爬行深度。

 -topN选项是在每层深度上，所能爬行的最多页面数，也称爬行广度。

12.运行结束之后,使用如下命令测试是否有搜索结果,如果total hits为0,则说明没有建立索引,特别要注意第10步添加search.dir:

/home/weichao/Documents/apache-nutch-1.2/bin/nutch org.apache.nutch.searcher.NutchBean '历史'

　　基于nutch-1.2实现本地搜索引擎　　

13.将nutch目录的nutch-1.2.war复制到tomcat/webapps下,启动tomcat,webapps下面自动生成了一个nutch-1.2的文件夹,打开nutch-1.2/WEB-INF/classes下的nutch-site.xml文件，改为以下内容:

<configuration>

<property>

<name>http.agent.name</name>

<value>HD nutch agent</value>

</property>

<property>

<name>http.agent.version</name>

<value>1.2</value>

</property>

<property>

<name>searcher.dir</name>

<value>/home/weichao/Documents/newNutch/nutch-1.2/result</value>

<description></description>

</property>

<property>

  <name>plugin.includes</name>

  <value>protocol-http|urlfilter-regex|parse-(text|html|js)|analysis-(zh)|index-basic|query-(basic|site|url)|summary-lucene|scoring-opic|urlnormalizer-(pass|regex|basic)</value>

</property>

</configuration>

　　特别注意要添加最后一个plugin.includes,否则不会显示搜索结果,tomcat的log也不会报错.

14.打开"apache-tomcat6.0.29/webapps/nutch-1.2/nutch-1.2/search.jsp",找到"int hitsPerSite",把他的值改为0,避免nutch默认的页面hits有重复

15.搜索"历史",结果反馈如下图所示,可见中文分词还是比较成功的:

　　基于nutch-1.2实现本地搜索引擎

14.

基于nutch-1.2实现本地搜索引擎的更多相关文章

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并 ...
乐鑫esp8266基于freeRtos实现私有服务器本地远程OTA升级
目录一.前言: 二.回顾下OTA的流程: 三.lwip网络框架的知识的使用: 四.如何处理服务器返回的数据? 五.扇区的擦除和烧写? 六.如何调用? 七.好好享用吧! 八.下载: 九.工程截图: 代 ...
一个大数据方案：基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎, ...
【架构】基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎, ...
利用Lucene与Nutch构建简单的全文搜索引擎
文章地址 1.简介本次实现分为两个部分,第一个部分是利用Lucene构建一个全文的搜索引擎,另外一部分则是利用Nutch实现同样的功能.由于Lucene并不是一个可以直接运行的程序,且不具备爬虫和文 ...
Xunsearch迅搜(基于 xapian+scws 的开源中文搜索引擎)安装与简单使用
今天鼓捣了xunsearch,感觉官方指南写得挺详细,于是按照指南一步一步走,但是感觉越看越凌乱,像看API一样,新手看得特费劲,网上也少有新手教程,于是略过今天的歪路,记录一下我的安装步骤. Xun ...
Ubuntu环境下Nutch+Tomcat 搭建简单的搜索引擎
简易的搜索引擎搭建我的配置: Nutch:1.2 Tomcat:7.0.57 1 Nutch设置修改Nutch配置 1.1 修改conf/nutch-site.xml <?xml versi ...
【Nutch2&period;3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎：安装及运行【集群环境】
1.下载相关软件,并解压版本号如下: (1)apache-nutch-2.3 (2) hadoop-1.2.1 (3)hbase-0.92.1 (4)solr-4.9.0 并解压至/opt/jedi ...
基于Flash与window平台本地程序通信实现媒体流发布
0 Web场景下的媒体流发布可以采用Flash原生API实现,但是Flash H264视频压缩参数不可控.音频无法AAC编码,所以一般采用浏览器插件方式,但是浏览器插件有版本兼容问题.不稳定,所以可以 ...

随机推荐

SQLServer2012在登录远程服务器实例时报错：尝试读取或写入受保护的内存
SQLServer2012在登录远程服务器实例时报错:尝试读取或写入受保护的内存.这通常指示其它内存已损坏.(System.Data). 而登录本地数据库实例则能顺利登入,不存在上述问题. 试一试重置 ...
Poj 1273 Drainage Ditches(最大流 Edmonds-Karp )
题目链接:poj1273 Drainage Ditches 呜呜,今天自学网络流,看了EK算法,学的晕晕的,留个简单模板题来作纪念... #include<cstdio> #include ...
kettle Argument, Parameter, Variable
1. Argument, Parameter, Variable 的区别 a.Argument作为位置参数不能复用,而其他2个可以根据名称重复使用 b. Argument, Parameter作用域局 ...
C&num;键盘事件处理
键盘事件是在用户按下键盘上的一个键的时候发生的,可分为两类.第一类是KeyPress事件,当按下的键表示的是一个ASCII字符的时候就会触发这类事件,可通过他的KeyPressEventArgs类型参 ...
从template到DOM(Vue&period;js源码角度看内部运行机制)
写在前面这篇文章算是对最近写的一系列Vue.js源码的文章(https://github.com/answershuto/learnVue)的总结吧,在阅读源码的过程中也确实受益匪浅,希望自己的这些 ...
bootstrap select多选
1.页面效果 <div class="form-group"> <div class="col-md-2 control-label"> ...
微软XAML Studio - WPF, Sliverlight, Xamarin, UWP等技术开发者的福音
目录编辑器功能数据源功能调试数据绑定伟大的开始我们来一起实践吧最近又在继续倒腾WPF的项目,继续使用Caliburn.Micro和Xceed来堆代码.每次调试xaml上的binding,都 ...
Mysql-12条优化技巧
应用程序慢如牛,原因多多,可能是网络的原因.可能是系统架构的原因,还有可能是数据库的原因. 那么如何提高数据库SQL语句执行速度呢?有人会说性能调优是数据库管理员(DBA)的事,然而性能调优跟程序员们 ...
解决windows 下 mysql命令行导入备份文件查询时乱码的问题
Mysql导入乱码,一般在命令行会遇到.下面说的是命令行的情况下解决乱码问题: 方法一: 通过增加参数 –default-character-set = utf8 解决乱码问题 mysql -uroo ...
【剑指offer】矩形覆盖
一.题目: 我们可以用2*1的小矩形横着或者竖着去覆盖更大的矩形.请问用n个2*1的小矩形无重叠地覆盖一个2*n的大矩形,总共有多少种方法? 二.思路: 斐波那契数列三.代码: