indexer-links:Nutch 1.x插件,可对网页的入站和出站进行索引

时间:2021-04-30 23:09:06
【文件属性】:
文件名称:indexer-links:Nutch 1.x插件,可对网页的入站和出站进行索引
文件大小:14KB
文件格式:ZIP
更新时间:2021-04-30 23:09:06
Java 链接提取器 Nutch 1.x插件,允许对网页的入站和出站进行索引。 默认情况下,此插件会忽略那些主机与被索引网页的主机匹配的出站链接。 通过将以下内容添加到您的nutch-site.xml可以绕过此行为。 < property> < name>outlinks.host.ignore < value>false 内链也采用了与外链相同的注意事项,基本上默认情况下,仅索引来自与网页主机不同的主机的内链,如果您要更改此值并索引所有外链,则可以通过nutch-site.xml配置文件, 只需添加以下内容: < property> < name>inlinks.host.ignore < value>false 如果只对入站和出站
【文件预览】:
indexer-links-master
----.gitignore(189B)
----ivy.xml(1KB)
----src()
--------java()
--------test()
----LICENSE(11KB)
----plugin.xml(2KB)
----README.md(1KB)
----build.xml(904B)

网友评论