spider-blog:博客爬虫

时间:2021-06-28 01:10:40
【文件属性】:
文件名称:spider-blog:博客爬虫
文件大小:9KB
文件格式:ZIP
更新时间:2021-06-28 01:10:40
Python 简单爬虫 最近比较闲,爬些感兴趣的博文来看(python golang等) 关键字 因为blog网站自带搜索过滤关键字功能,所以省去了关键字匹配 python(可在url里替换) 来源 oschina http://www.oschina.net/search?q=python&scope=blog&sort_by_time=1&p=1 csdn http://blog.csdn.net/tag/details.html?tag=python&page=1 v2ex http://www.v2ex.com/go/python?p=1 cnblogs http://www.cnblogs.com/cate/python/#p1 终止条件 当遇到blog id已经存在时,说明后面的blog已经爬过,终止本次爬取,等待下次 配置 spider/etc/blog/default.json data
【文件预览】:
spider-blog-master
----.gitignore(43B)
----spider()
--------etc()
--------settings.py(306B)
--------pu()
--------__init__.py(23B)
--------db.py(259B)
--------__main__.py(2KB)
--------spider.py(5KB)
--------path.py(181B)
----README.md(1KB)
----requirements.txt(28B)

网友评论