基于redis的简易分布式爬虫框架

代码地址如下：
http://www.demodashi.com/demo/13338.html

开发环境

Python 3.6
Requests
Redis 3.2.100
Pycharm(非必需，但可能出现bug)

运行环境

Win 10 + Redis 3.2.100(已测试)

Mac + Redis 3.2.11(已测试)

redis配置问题，请自行百度或者谷歌。

实现功能

分布式爬虫，可并发

需求分析

作为一个分布式爬虫框架，方便的部署到多个环境上，快速的获取数据，简易的使用，

在运行中忽略某些错误，以及在遇到某些情况时停止抓取，管理者强制停止爬虫时可以

将正在进行的线程进行完等，个人理解中大体需求如此。

程序实现

目前程序算是基础版本(0.1？赫赫)，实现了如下功能：
1. 分布式：只需要一台redis服务器，其余爬虫链接到服务器获取url进行数据采集即可。
2. 部署方便：文件夹copy一下就行，python本身就可以跨平台进行运转。
3. 快速获取数据：下载使用的是requests库，快慢完全凭借自己，调整settings.py中的delay以及max_threads就行。
4. 使用简单：继承一下爬虫类，写个解析函数，跟scrapy类似，简化版。
5. 错误处理：目前除了ctrl+C和关闭窗口以外，只有level_time到了才能停止程序。
6. 停止处理： ctrl+c后会完成线程后再停止。
7. 统计：目前只统计进行了多少次抓取，没有计算成功与失败次数。
8. 日志：部分情况会纪录日志，不过比较少，不过可以自己定制。
9. 代理: 代理和headers可设置。
代码结构：
- __init__.py 初始化文件，实例化日志
- download.py 下载器类
- scheduler.py 调度器类（虽然功能不全）
- settings.py 默认设置
- spider.py 爬虫类
- logs.log 日志文件
- example.py 示例
- README.md 说明
- 截图
部分源码展示：

# download.py

class DOWNLOAD:

    def __init__(self, proxy=None, delay=DELAY, num_retries=NUM_RETRIES,

                 timeout=TIMEOUT, headers=HEADERS, **kwargs):

        """

        初始化

        :param proxy: 下载时使用的代理

        :param delay:  下载延迟

        :param timeout: 下载超时时间

        :param headers: 下载时使用的文件头

        :param num_retries: 下载重试次数

        :param kwargs:  其他

        """

        self.proxy = proxy

        self.timeout = timeout

        self.headers = headers or {'User-agent': 'OSpider'}

        self.logging = logger

        self.throttle = Throttle(delay)

        self.num_retries = num_retries

        self.kwargs = kwargs

    def __call__(self, url, method='GET', data=None, cookies=None, **kwargs):

        """

        这个魔法函数可以让类的实例像函数一样被调用，例如：

        D = DOWNLOAD(...)

        result = D(url)

        :param url:  url

        :param method:  请求的方法

        :param data:    请求的内容

        :param cookies: 请求时使用的cookies

        :param kwargs:  其他，比如代理

        :return: {'html': 网页内容, 'status': 状态码, 'url': 请求地址}

        """

        # 设置同个域下的限速

        self.throttle.wait(url)

        # 让类的实例返回download函数的返回值

        return self.download(url, method, data, cookies)

    def download(self, url, method='GET', data=None, cookies=None):

        """

        具体下载用函数

        :param url: 请求地址

        :param method: 请求方法

        :param data: 请求附带的内容

        :return: {'html': 网页内容, 'status': 状态码, 'url': 请求地址}

        """

        methods = ["GET", "POST", "PUT", "DELETE"]

        session = requests.Session()

        # 设置头信息

        session.headers = self.headers

        # 设置代理

        if self.proxy:

            if isinstance(self.proxy, dict):

                if self.proxy.get('http') or self.proxy.get('https'):

                    session.proxies = self.proxy

                    self.logging.info('设置代理:{}'.format(self.proxy))

            else:

                self.logging.error('代理格式错误，需要使用字典格式')

        # 检查请求方法

        if method not in methods:

            raise ValueError("请求方法错误, 请在{}中选择!".format(methods))

        # 设置cookies

        if cookies:

            session.cookies = cookies

        # 获取内容并返回

        try:

            res = session.request(method, url, data=data)

            html = res.text

            status = res.status_code

        # 出现问题打印到日志，然后重试num_retries次

        except Exception as e:

            html = ''

            if hasattr(e, 'code'):

                code = e.code

                if self.num_retries > 0 and 500 <= code < 600:

                    self.num_retries -= 1

                    return self.download(url, method, data, cookies)

            else:

                code = None

            self.logging.error(e)

            html = None

            status = None

        return {'html': html, 'status': status, 'url': url}

# Scheduler.py

"""

    SCHEDULER（调度器） 目前只有抓取然后返回结果的功能.....

"""

# 初始化就略过了，选了两个较重要的放了上来

# 使用threading达成了并发抓取，因为是密集型IO所以影响不大。

def run(self):

    """开始进行抓取"""

    threads = []

    wait = 0

    try:

        while True:

            num = self.show_num()

            if num is None or num == 0:

                print('抓捕队列为空！{}秒后继续抓取'.format(self.wait_time))

                time.sleep(self.wait_time)

                wait += self.wait_time

                if wait >= self.leave_time:

                    print('{}秒内获取不到url，程序终端'.format(self.leave_time))

                    break

                continue

            for thread in threads:

                if not thread.is_alive():

                    # 移除停止活动的线程

                    threads.remove(thread)

            # 如果活动的线程数没有到达最大线程就继续创建线程

            while len(threads) < self.max_threads:

                thread = threading.Thread(target=self.crawl)

                thread.setDaemon(True)

                thread.start()

                threads.append(thread)

            time.sleep(3)

    # 按了CTRL+c之后....

    except KeyboardInterrupt:

        self.leave_time = 0

        # 等待线程结束然后移除还在活动的线程

        for thread in threads:

            thread.join()

            if thread.is_alive():

                threads.remove(thread)

        print('程序停止!')

        print('花费时间{}'.format(datetime.now() - self.start_time))

        print('采集了{}个url'.format(self.start_num - self.show_num()))

def crawl(self):

    """抓取流程控制函数"""

    while True:

        # 设置一个可以在外部控制循环结束的条件

        if self.leave_time == 0:

            break

        url = self.get_url()

        if url is None:

            break

        res = self.D(url, **self.kwargs)

        if self.callback:

            self.callback(response=res)

        else:

            pprint('没有解析函数，直接打印结果：')

            pprint(res)

程序使用方法以及截图

首先需要一台已经开启redis服务的主机。

然后进入settings进行配置

之后如下：

# 例子

# example.py

import json

import redis

from OSpider import OSPIDER, logger

# 继承爬虫类

class T(OSPIDER):

    # 创建一个存储用的redis链接

    r = redis.StrictRedis()

    # 爬虫类中也有一个解析函数，这个函数有一个要求，有个参数必须名为response

    def parse(self, response):

        # 例子中采集的url是知乎的api，返回一个json数据，所以比较简单。

        # 这里也就是获取了一下url_token，其实是无意义行为，举例用。

        try:

            res = json.loads(response['html'])

            self.r.lpush('zhihu.url_token', res['url_token'])

            print(res['name'])

        except Exception:

            # 导入的logger用的是自带的logging模块，日志同时会打印到屏幕以及日志文件中去。

            logger.info("{}--出现错误，状态码--{}"

                        .format(response['url'], response['status']))

if __name__ == '__main__':

    # 运行....

    t = T()

    t.run()

例子只是打印了用户名以及存储了url_token

基于redis的简易分布式爬虫框架

其它

如果出现 ModuleNotFoundError: No module named 'OSpider'

在前几行加入

try:

    import OSpider

except:

    import sys

    import os

    sys.path.append(os.path.abspath('..'))

个人试做，如有BUG，请反馈。

基于redis的简易分布式爬虫框架

代码地址如下：
http://www.demodashi.com/demo/13338.html

注：本文著作权归作者，由demo大师代发，拒绝转载，转载需要作者授权

秒客网

基于redis的简易分布式爬虫框架

开发环境

运行环境

实现功能

需求分析

程序实现

程序使用方法以及截图

其它

相关文章