urllib2模块初体验———豆瓣读书页面下载小爬虫

时间：2023-03-09 06:07:46

我也是根据：http://blog.****.net/pleasecallmewhy/article/details/8927832 ，来写出豆瓣读书的爬虫，废话不说直接上代码：

 #!/usr/bin/env python

 #-*-coding=utf-8-*-

 import urllib2

 #获取豆瓣读书的分页的页面

 def doubanbook(url,begin,end):

     for i in range(begin,end+1):

         filename = str(i) + '.html'

         print 'Downloading ' + str(i) + '....... Filename is ' + filename

         #打开文件对象

         f = open('/home/dzhwen/python文件/Homework/urllib/douban/doubanbook'+filename,'w+')

         m = urllib2.urlopen(url + str((i-1)*20)).read()

         f.write(m)

         f.close()

 if __name__ == '__main__':

     url = 'http://book.douban.com/tag/编程?start='

     begin = input('请输入你抓取的页数开始为:')

     end = input('请输入你抓取的页数结束为:')

     doubanbook(url,begin,end)

我在页面上显示20的原因是由于豆瓣的页面上的url消息有一定的规律。关键还要看具体情况进行调整。该程序还可以用作抓取百度贴吧等等。

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。



秒客网

urllib2模块初体验———豆瓣读书页面下载小爬虫

相关文章