怎样把Nutch整合到自己的项目中啊……????

时间:2022-05-21 19:58:08
我现在想做一个自己的Nutch搜索引擎,不过在网上看到的大多是Nutch的安装,以及是在Cygwin中的执行命令……我现在想把Nutkch整合到自己的项目中。不过不知道怎么样弄啊……请有这方面的经验的大哥们给小弟的思路。急急急急急急急急急……

11 个解决方案

#1


等待高手指点

#2


高手快来啊……

#3


你的具体项目是什么? 是个web网站吗?

#4


是Web网站……

#5


先用nutch的爬虫对你的web网站进行抓取,建议好索引~~
然后把nutch-1.0.war放到tomcat下面,另外要修改nutch-default.xml,指定索引存放路劲~这是最简单的方法

也可以自己写servlet方法去调用nutch里的API

#6


你的方法并没有把Nutch整合到自己的项目中啊,我的意思是怎么样在自己建的项目中,实现nutch的功能啊……你知道Nutch的那个配置文件是配置建索引的字段的,他默认对url,title,……我想让他去抓取我想要的信息,该怎么配置啊?

#7


nutch的抓取和搜索两个模块只是通过索引相联系。相对独立的。

nutch有个基于插件的扩充模块。在plugins里。可以修改相应的方法,比如对页面的解析
url可以在配置文件里改crawl-urlfilter.txt

#8


大哥我感觉你最Nutch应该挺熟悉的,能加下你的QQ号吗?我想请教你一下啊……要不你加我也行,1299162286等着你啊。

#9


不好意思~刚看到回复~~~nutch不算熟悉,只是用nutch搭建过自己的搜索引擎~~~QQ不用的~有问题可以在空间留言

#10


楼主可以参考如下连接 , 讲的蛮详细的:

https://www.ibm.com/developerworks/cn/opensource/os-cn-nutchintro/

#11


谢谢了……

#1


等待高手指点

#2


高手快来啊……

#3


你的具体项目是什么? 是个web网站吗?

#4


是Web网站……

#5


先用nutch的爬虫对你的web网站进行抓取,建议好索引~~
然后把nutch-1.0.war放到tomcat下面,另外要修改nutch-default.xml,指定索引存放路劲~这是最简单的方法

也可以自己写servlet方法去调用nutch里的API

#6


你的方法并没有把Nutch整合到自己的项目中啊,我的意思是怎么样在自己建的项目中,实现nutch的功能啊……你知道Nutch的那个配置文件是配置建索引的字段的,他默认对url,title,……我想让他去抓取我想要的信息,该怎么配置啊?

#7


nutch的抓取和搜索两个模块只是通过索引相联系。相对独立的。

nutch有个基于插件的扩充模块。在plugins里。可以修改相应的方法,比如对页面的解析
url可以在配置文件里改crawl-urlfilter.txt

#8


大哥我感觉你最Nutch应该挺熟悉的,能加下你的QQ号吗?我想请教你一下啊……要不你加我也行,1299162286等着你啊。

#9


不好意思~刚看到回复~~~nutch不算熟悉,只是用nutch搭建过自己的搜索引擎~~~QQ不用的~有问题可以在空间留言

#10


楼主可以参考如下连接 , 讲的蛮详细的:

https://www.ibm.com/developerworks/cn/opensource/os-cn-nutchintro/

#11


谢谢了……