【文件属性】:
文件名称:python抓取360百科词条
文件大小:9KB
文件格式:ZIP
更新时间:2019-04-28 17:42:42
python 爬虫 百科
学习python一周,学着写了一个爬虫,用来抓取360百科的词条,在这个过程中,由于一个小小的改动,程序出现一些问题,又花了几天时间研究,问了各路高手,都没解决,最终还是自己解决了,其实就是对list列表理解不够深入导致的。这个bug很有借鉴意义。
有5个模块:
spider_main.py是入口函数
url_manager.py是管理器,管理需要抓取的url和已经抓取的url
html_downloader.py是下载器,下载对应url的网页
html_parser.py是解析器,解析出新的url列表和当前的词条信息
html_outputer.py是输出器,将抓取的词条title和解释summary输出成一个html表格
本程序使用的是最新的python3.4.4,使用的类库有:
官方的urllib
第三方的BeautifulSoup(自行下载安装)
【文件预览】:
baike360_spider
----url_manager.py(658B)
----html_outputer.py(863B)
----html_parser.py(1KB)
----__init__.py(0B)
----output.html(3KB)
----spider_main.py(1KB)
----__pycache__()
--------html_downloader.cpython-34.pyc(602B)
--------html_parser.cpython-34.pyc(2KB)
--------__init__.cpython-34.pyc(134B)
--------html_outputer.cpython-34.pyc(1KB)
--------url_manager.cpython-34.pyc(1KB)
----html_downloader.py(257B)
网友评论
- 然而我运行你的代码不好使啊···