Python爬虫-爬小说

时间：2023-03-09 01:58:53

Python爬虫-爬小说

用途

用来爬小说网站的小说默认是这本御天邪神，虽然我并没有看小说，但是丝毫不妨碍我用爬虫来爬小说啊。

如果下载不到txt，那不如自己把txt爬下来好了。

功能

将小说取回，去除HTML标签
记录已爬过/未爬过的章节
从最后爬过那一页开始继续爬，不会重复爬取爬过的目录

因为爬过的章节是要有顺序的，目前版本还没有支持多线程。（线程混乱分不清章节先后）

使用方式

Python的安装是必须，除此之外，还有这些依赖

(Py3Env) Caden-Mac:Fun caden$ pip list --format=columns

Package        Version

-------------- ---------

beautifulsoup4 4.6.0

html2text      2016.9.19

lxml           3.7.3

requests       2.14.2

依赖安装方式

pip install beautifulsoup4 lxml requests html2text

新建一个task.json的文件，放入spider.py同目录，内容如下

{

    "title": "御天邪神",

    "base_url": "http://i.258zw.com/wapbook-1852/",

    "last_page_url": ""

}

title是书名，base_url是章节的第一页，last_page_url留空就好

python spider.py开始运行，然后等待直到结束。

就像这样：

Python爬虫-爬小说

python源码：Github-Syler-Fun-spider.py

相关文章

