Python网络数据采集4-POST提交与Cookie的处理

POST提交

之前访问页面都是用的get提交方式，有些网页需要登录才能访问，此时需要提交参数。虽然在一些网页，get方式也能提交参。比如https://www.some-web-site.com?param1=username&param2=age就能直接访问该网页。但是在登录这种需要安全性的地方。还是通过表单提交的方式好。此时就需要用到post提交了。这在requests库中特别简单。指定data参数就行了。

表单提交例子这个网页有个表单。

<form action="processing.php" method="post">
First name: <input name="firstname" type="text"><br>
Last name: <input name="lastname" type="text"><br>
<input id="submit" type="submit" value="Submit">
</form>

method属性里可以看到提交方式是POST。action属性里可以看到，我们表单提交后实际上会转到processing.php这个页面进行表单处理。所以我们应该访问这个页面，进行表单参数的传递。

在往requests的data传入参数的时候，注意对应input标签的name属性就行。他们分别是firstname、lastname。

import requests

url = 'https://pythonscraping.com/pages/files/processing.php'
params = {'firstname': 'Sun', 'lastname': 'Haiyu'}

r = requests.post(url, data=params, allow_redirects=False)
print(r.text)

Hello there, Sun Haiyu!

上传文件

虽然在爬虫中，上传文件几乎用不到。但是有必要了解下基本用法。使用requests的files参数就可以轻松实现。

这个网页可以上传图片。同样是一个表单。

<form action="processing2.php" enctype="multipart/form-data" method="post">
  Submit a jpg, png, or gif: <input name="uploadFile" type="file"><br>
  <input type="submit" value="Upload File">
</form>

和上面例子一样，我们需要访问的实际页面是processing2.php，提交方法依然是POST。参数name为uploadFile。

import requests

url = 'https://pythonscraping.com/pages/files/processing2.php'
files = {'uploadFile': open('abc.PNG', 'rb')}
r = requests.post(url, files=files)
print(r.text)

Sorry, there was an error uploading your file.

代码是没有问题的，而且在浏览器里是上传也是这个结果。估计书中提供的网址有问题吧...

处理登录和Cookie

Cookie用来跟踪用户是否已经登录的状态信息。一旦网站认证了我们的登录，就会将cookie存到浏览器中，里面包含了服务器生成的令牌、登录有效时长、状态跟踪信息。当登陆有效时长达到，我们的登录状态就被清空，想要访问其他需要登录后才能访问的页面也就不能成功了。还是先登录，然后获取cookie。

这里有个登录页面

<form action="welcome.php" method="post">
Username (use anything!): <input name="username" type="text"><br>
Password (try "password"): <input name="password" type="password"><br>
<input type="submit" value="Login">
</form>

可以看到，登录后会进入welcome.php，输入账号和密码(账号任意, 密码必须是password)。

登录成功后，可以使用get方式访问简介页面

注意由于requests.get('https://pythonscraping.com/pages/cookies/profile.php')不会知道我们“已经登录了”这个状态，所以直接访问是不行的。但是若是传入登录成功后得到的cookie，这个信息让浏览器知道我已经登录，所以请给我看profile.php，浏览器看到这个令牌就会同意。

import requests
url = 'https://pythonscraping.com/pages/cookies/welcome.php'

params = {'username': 'Ryan', 'password': 'password'}

r = requests.post(url, params)

print(r.cookies.get_dict())
res = requests.get('https://pythonscraping.com/pages/cookies/profile.php', cookies=r.cookies)
print(res.text)

{'loggedin': '1', 'username': 'Ryan'}
Hey Ryan! Looks like you're still logged into the site!

其他登录认证方式

还有一些登录认证方式，比如HTTP基本接入认证。使用requests的auth参数。

这个页面需要输入账号和密码登录

import requests

url = 'https://pythonscraping.com/pages/auth/login.php'

res = requests.get(url, auth=('sun', '123456'))
print(res.text)

<p>Hello sun.</p><p>You entered 123456 as your password.</p>

像上面那样，向auth传入一个含有两个元素的元组，分别是账号和密码。

by @sunhaiyu

2017.7.17

Python网络数据采集4-POST提交与Cookie的处理的更多相关文章

笔记之Python网络数据采集
笔记之Python网络数据采集非原创即采集一念清净, 烈焰成池, 一念觉醒, 方登彼岸网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息通常, ...
Python网络数据采集6-隐含输入字段
Python网络数据采集6-隐含输入字段 selenium的get_cookies可以轻松获取所有cookie. from pprint import pprint from selenium imp ...
Python网络数据采集PDF高清完整版免费下载|百度云盘
百度云盘:Python网络数据采集PDF高清完整版免费下载提取码:1vc5 内容简介本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导.第 ...
Python网络数据采集7-单元测试与Selenium自动化测试
Python网络数据采集7-单元测试与Selenium自动化测试单元测试 Python中使用内置库unittest可完成单元测试.只要继承unittest.TestCase类,就可以实现下面的功能. ...
Python网络数据采集3-数据存到CSV以及MySql
Python网络数据采集3-数据存到CSV以及MySql 先热热身,下载某个页面的所有图片. import requests from bs4 import BeautifulSoup headers ...
[python] 网络数据采集操作清单 BeautifulSoup、Selenium、Tesseract、CSV等
Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesseract.CSV等 Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesse ...
Python网络数据采集2-wikipedia
Python网络数据采集2-wikipedia 随机链接跳转获取*的词条超链接,并随机跳转.可能侧边栏和低栏会有其他链接.这不是我们想要的,所以定位到正文.正文在id为bodyContent的 ...
Python网络数据采集1-Beautifulsoup的使用
Python网络数据采集1-Beautifulsoup的使用来自此书: [美]Ryan Mitchell <Python网络数据采集>,例子是照搬的,觉得跟着敲一遍还是有作用的,所以记录 ...
Python网络数据采集PDF
Python网络数据采集(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/16c4GjoAL_uKzdGPjG47S4Q 提取码:febb 复制这段内容后打开百度网盘手 ...

随机推荐

ab 测试模块高并发
转载:http://gekie.iteye.com/blog/1704235 作为程序员,写好一个模块后,不知道这个模块在高并发的情况下能不能平稳过渡,这里所说的平稳过渡是指,在高并发的情况下还能正常 ...
Hadoop系列之（一）：Hadoop单机部署
1. Hadoop介绍 Hadoop是一个能够对海量数据进行分布式处理的系统架构. Hadoop框架的核心是:HDFS和MapReduce. HDFS分布式文件系统为海量的数据提供了存储, MapRe ...
php归获取当前目录下的二级目录数和文件数
<?php header('Content-Type: text/html; charset=gb2312'); // $baseDir = "/www/u ...
从零開始开发Android版2048 （五）撤销的实现
本篇的内容是,在前一篇的基础上添�了撤销的功能.撤销事实上就是将当前的用户界面恢复到这次滑动值前的样子.我实现撤销的主要原理是,将每次滑动后界面上的格子和相应的数字记录下来,当然还有分数,把这些数据写 ...
Socket网络编程详解
一,socket的起源 socket一词的起源在组网领域的首次使用是在1970年2月12日发布的文献IETF RFC33中发现的, 撰写者为Stephen Carr.Steve Crocker和Vi ...
阿里云服务器端配置TensorFlow &amp&semi; jupyter
在阿里云上搭建爬取某信的公众号文章的程序时,发现需要验证码验证,技穷之后考虑做一个验证码识别程序,所以开始在服务器上搭建机器学习平台,背景,服务器上已经有其他应用在跑着了,所以不想停服,初始环境:ce ...
laravel 核心类Kernel
vendor/laravel/framework/src/Illuminate/Foundation/Http/Kernel.php.是laravel处理网络请求的最核心类,在app容器准备好了之后, ...
XML与HTML的主要差异
1. 参考 XML 简介 2. XML 与 HTML 的主要差异 XML 不是 HTML 的替代. XML 和 HTML 为不同的目的而设计: XML 被设计为传输和存储数据,其焦点是数据的内容. H ...
svn问题汇总
1 svn图标 2 问题 SVN删除文件一.本地删除SVN删除文件中的本地删除,指的是在客户端delete了一个文件,但还没有commit,使用revert来撤销删除. 二.服务器删除1.通过本地删 ...
windows下配置nutch注意的问题
1.为处理方便,直接在$nutch目录下创建一个名为url.txt文件,然后在文件里添加要搜索的网址,例如:http://www.sina.com.cn/,注意网址最后的"/"一定 ...