- 首先添加库
附配环境变量:安装环境变量 cmd==> 输入指令: path=%path%;C:\Python(Python安装路径) 回车
python2.7版本可能没有pip的话可以先到www.python.org/pypi/ez_setup 下载 ez_setup 0.9用 文件路径 输入指令:ez_setup.py 安装Script到Python目录下
在https://pypi.python.org/pypi/setuptools#windows-simplified下载,然后在DOS中 运行 python ez_setup.py,(脚本会自动判断python脚本)
接下来装pip 在https://pypi.python.org/pypi/pip#downloads 下载pip 然后在DOS中 运行python setup.py install #安装pip
注意:配置好环境变量很重要。(可以在计算机右键高级设置中设置系统PATH,记得用python安装目录,和下一层Script的目录,添加一个后面记得加分号)
用DOS进入Python/Script目录(如果Python在C盘直接cd目录,如果在其他盘先选盘(例如:f:)再用cd ../Python.Script目录)
运行命令 pip install requests #下载安装Requests库
pip install lxml
Requests和lxml库安完以后,现在把pycharm的interpreter设置成System Interpreter(添加路径选你的Python安装路径)
好了,到这里我们的准备工作就做完了,开始最简单的Requests爬虫实战吧~
# -*- coding: utf-8 -*- 防止中文乱码
import requests #引用requests库
from lxml import etree #引用lxml下的etree
header ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'} #先定义一个User-Agent 模仿浏览器访问网站
response = requests.get('https://www.douban.com/',headers=header) #这里的网址是目标爬虫网址,后面修改headers模仿浏览器访问
#print(response.content) #获取源代码
selector = etree.HTML(response.content)
images = selector.xpath("//div[@class='photo_wrap']/a[@class='photolst_photo']/img/@src") # 用xpath获取指定HTML标签下面的元素,获取属性值用@属性名
for image in images:
name = image.split('/')[-1]
print(name)
with open('E:\NewIMG\\'+name, 'wb') as file: #with open(name,mode,encoding) as file: #注意这里会有一个缩进 name 表示路径(包括文件名),mode 分三种 只读,写入,追加,encoding:一般为utf-8或者gbk
file.write(requests.get(image, headers=header).content) #file表示我们对文件的命名
file.close() #关闭文件