Python网络爬虫笔记（二）：链接爬虫和下载限速

（一）代码1（link_crawler()和get_links()实现链接爬虫）

 import urllib.request as ure

 import re

 import urllib.parse

 from delayed import WaitFor

 #下载网页并返回HTML(动态加载的部分下载不了)

 def download(url,user_agent='Socrates',num=2):

     print('下载:'+url)

     #设置用户代理

     headers = {'user_agent':user_agent}

     request = ure.Request(url,headers=headers)

     try:

         #下载网页

         html = ure.urlopen(request).read()

     except ure.URLError as e:

         print('下载失败'+e.reason)

         html=None

         if num>0:

             #遇到5XX错误时，递归调用自身重试下载，最多重复2次

             if hasattr(e,'code') and 500<=e.code<600:

                 return download(url,num-1)

     return html

 #seed_url传入一个url

 #link_regex传入一个正则表达式

 #函数功能：提取和link_regex匹配的所有网页链接并下载

 def link_crawler(seed_url, link_regex):

     html = download(seed_url)

     crawl_queue = []

     #迭代get_links（）返回的列表，将匹配正则表达式link_regex的链接添加到列表中

     for link in get_links(html):

         if re.match(link_regex, link):

             #拼接https://www.cnblogs.com/ 和 /cate/...

             link = urllib.parse.urljoin(seed_url, link)

             #不在列表中才添加

             if link not in crawl_queue:

                 crawl_queue.append(link)

     #调用WaitFor的wait（）函数，下载限速，间隔小于2秒则等待，直到时间等于2秒才继续下载（大于则直接继续下载）

     waitFor = WaitFor(2)

     #下载crawl_queue中的所有网页

     while crawl_queue:

         #删除列表末尾的数据

         url = crawl_queue.pop()

         waitFor.wait(url)

         download(url)

 #传入html对象，以列表形式返回所有链接

 def get_links(html):

     #使用正则表达式提取html中所有网页链接

     webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']',re.IGNORECASE)

     html = html.decode('utf-8')

     # 以列表形式返回所有网页链接

     return webpage_regex.findall(html)

 link_crawler('https://www.cnblogs.com/','/cate/.*')

（二）delayed.py（实现下载限速的类）

 import urllib.parse

 import datetime

 import time

 class WaitFor():

     def __init__(self,delay):

         #delay：希望延迟多长时间（wait（）中的处理是以秒为单位）

         self.delay = delay

         #用来存放上次下载时间

         self.domains = dict()

     def wait(self,url):

         #获取url netloc属性的值（即www.cnblogs.com，// 和第一个 /之间的内容）

         domain = urllib.parse.urlparse(url).netloc

         #存在键值为domain的数据返回value值，否则返回None

         last_down = self.domains.get(domain)

         if self.delay >0 and last_down is not None:

             #  希望延迟时间 - （当前时间-上次下载时间），seconds时间间隔以秒为单位显示

             sleep_sec = self.delay-(datetime.datetime.now()-last_down).seconds

             if sleep_sec > 0:

                 time.sleep(sleep_sec)

         #将当前时间添加到domains中

         self.domains[domain] = datetime.datetime.now()

秒客网

Python网络爬虫笔记（二）：链接爬虫和下载限速

相关文章