Python简单爬虫Requests

首先添加库

附配环境变量：安装环境变量 cmd==> 输入指令： path=%path%;C:\Python（Python安装路径）回车

python2.7版本可能没有pip的话可以先到www.python.org/pypi/ez_setup 下载 ez_setup 0.9用文件路径输入指令：ez_setup.py 安装Script到Python目录下

在https://pypi.python.org/pypi/setuptools#windows-simplified下载，然后在DOS中运行 python ez_setup.py,(脚本会自动判断python脚本)

接下来装pip 在https://pypi.python.org/pypi/pip#downloads 下载pip 然后在DOS中运行python setup.py install #安装pip

注意：配置好环境变量很重要。（可以在计算机右键高级设置中设置系统PATH，记得用python安装目录，和下一层Script的目录，添加一个后面记得加分号）

用DOS进入Python/Script目录（如果Python在C盘直接cd目录，如果在其他盘先选盘（例如：f:）再用cd ../Python.Script目录）

运行命令 pip install requests #下载安装Requests库

pip install lxml

Requests和lxml库安完以后，现在把pycharm的interpreter设置成System Interpreter(添加路径选你的Python安装路径)

好了，到这里我们的准备工作就做完了，开始最简单的Requests爬虫实战吧~

# -*- coding: utf-8 -*-   防止中文乱码
                import requests #引用requests库
                from lxml import etree   #引用lxml下的etree
                header ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'}   #先定义一个User-Agent 模仿浏览器访问网站
                response = requests.get('https://www.douban.com/',headers=header)   #这里的网址是目标爬虫网址，后面修改headers模仿浏览器访问
                #print(response.content) #获取源代码
                selector = etree.HTML(response.content)
                 images = selector.xpath("//div[@class='photo_wrap']/a[@class='photolst_photo']/img/@src")     # 用xpath获取指定HTML标签下面的元素，获取属性值用@属性名
                 for image in images:
                      name = image.split('/')[-1]
                      print(name)
                      with open('E:\NewIMG\\'+name, 'wb') as file:    #with open(name,mode,encoding) as file: #注意这里会有一个缩进 name 表示路径（包括文件名），mode 分三种只读，写入，追加，encoding：一般为utf-8或者gbk　　
                             file.write(requests.get(image, headers=header).content)      #file表示我们对文件的命名　　
                             file.close()     #关闭文件

秒客网

Python简单爬虫Requests

相关文章