【文件属性】:
文件名称:mySpider:爬虫(Mongodb)
文件大小:719KB
文件格式:ZIP
更新时间:2021-05-14 04:50:04
Java
spider-dist
分布式爬虫
搜索引擎设计和实现(附git源码)
简要说明
爬取网站,采用流程节点,用来处理摘要计算、关键字计算、相似度计算、热度计算,利用线程池启动多线程扫表的方式。数据经过流程计算以后,落库,搜索查询采用倒排索引原理实现快速搜索。
git地址:
demo网址:
实现步骤
1.收集一些网址,作为爬/虫的入口。
种子url表结构:
{
“_id” : ObjectId(“5a9ec8965dc54c4352310b3c”),
“urlId” : “io5636fba00146d784uiodf7e96bb9ij”,
“url” : “,
“deleteFlag” : “1”,
“createTime” : “20170505120012”,
“rootUrl” : “,
“deep” : 1.0
}
urlId为随机生成,url为种子url,deleteFlag:0表