【文件属性】:
文件名称:word源码java-baidu_paper_spider::spider:论文搜索引擎(含Scrapy-Redis分布式爬虫、Elasticsearch
文件大小:214KB
文件格式:ZIP
更新时间:2021-06-05 22:28:12
系统开源
word源码java
baidu_paper_spider
技术选型
scrapy
vs
requests+beautifulsoup
requests
和
beautifulsoup
都是库,scrapy
是框架;
scrapy
框架中可以加入requests
和
beautifulsoup;
scrapy
基于
twisted,性能是最大优势;
scrapy
方便扩展,提供了很多内置的功能;
scrapy
内置的
css
和
xpath
selector
非常方便,beautifulsoup
最大的缺点就是慢。
深度优先和广度优先
深度优先(递归实现)
def
depth_tree(tree_node):
if
tree_node
is
not
None:
print
(tree_node._data)
if
tree_node._left
is
not
None:
return
depth_tree(tree_node._left)
if
tree_node._right
is
not
None:
return
depth_tree(tree_node._right)
广度优先(
【文件预览】:
baidu_paper_spider-master
----paperSpider()
--------paperSpider()
--------main.py(233B)
--------scrapy.cfg(265B)
--------test.py(152B)
--------.idea()
--------scrapy_redis()
----.idea()
--------misc.xml(309B)
--------vcs.xml(180B)
--------baidu_paper_spider.iml(520B)
--------modules.xml(288B)
----.gitignore(2KB)
----django_search()
--------search()
--------templates()
--------static()
--------.idea()
--------manage.py(633B)
--------django_search()
----README.md(10KB)