爬虫----scrapy账号登录豆瓣，并且重定向到电影界面，获取界面信息

Request：这是url重定向

FormRequest：这是表单提交，就是登录界面时，输入账号、密码，点击登陆的过程


# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request, FormRequest

class LoginSpider(scrapy.Spider):
    name = 'login'
    allowed_domains = ['www.douban.com','movie.douban.com']
    # start_urls = ['http://www.douban.com/']
    # 默认 从start_urls中的 地址返回response，我们自己编写函数start_requests，自己返回response
    def start_requests(self):
        return [Request(
                url='https://www.douban.com/accounts/login?source=main',
                meta={'cookiejar':1},
                callback=self.parse
        )]

    def parse(self, response):
        url = 'https://www.douban.com/accounts/login?source=main'
        # cookie_1 = response.headers.getlist('Set-Cookie')
        # print response.text
        data = {}
        data['submit'] = ''
        data['form_email'] = '*********@qq.com'   #自己的账户
        data['form_password'] = '**********'      #自己的密码

        return [FormRequest.from_response(
                response,
                url=url,
                meta={'cookiejar':response.meta['cookiejar']},
                formdata=data,
                callback=self.next
        )]

    def next(self, response):
        url = ''
        a = response.xpath('//a')
        for i in a:
            name = i.xpath('./text()').extract()
            if len(name):
                if u'退出' in name[0]:
                    url = i.xpath('./@href').extract()[0]
                    print name[0], '---', url
                if u'电影' in name[0]:
                    url = i.xpath('./@href').extract()[0]
                    break
            else:
                continue
        return [Request(
                url=url,
                meta={'cookiejar':response.meta['cookiejar']},
                callback=self.next2
        )]

    def next2(self, response):
        a = response.body
        print a

爬虫----scrapy账号登录豆瓣，并且重定向到电影界面，获取界面信息的更多相关文章

c&num;实现Google账号登入授权(OAuth 2&period;0)并获取个人信息
c#实现Google账号登入授权(OAuth 2.0)并获取个人信息此博主要介绍通过google 账号(gmail)实现登入,授权方式OAuth2.0,下面我们开始介绍. 1.去google官网 ...
c&num;实现microsoft账号登入授权(OAuth 2&period;0)并获取个人信息
本博主要介绍microsoft 账号授权(OAuth 2.0)登入并获取用户信息的过程,因为写过google账号授权登入的过程,所以这里就简单介绍一下,google授权登入参考地址:http://ww ...
python爬虫scrapy之登录知乎
下面我们看看用scrapy模拟登录的基本写法: 注意:我们经常调试代码的时候基本都用chrome浏览器,但是我就因为用了谷歌浏览器(它总是登录的时候不提示我用验证码,误导我以为登录时不需要验证码,其实 ...
python爬虫+使用cookie登录豆瓣
2017-10-09 19:06:22 版权声明:本文为博主原创文章,未经博主允许不得转载. 前言: 先获得cookie,然后自动登录豆瓣和新浪微博系统环境: 64位win10系统,同时装pytho ...
Andriod中WebView加载登录界面获取Cookie信息并同步保存,使第二次不用登录也可查看个人信息。
Android使用WebView加载登录的html界面,则通过登录成功获取Cookie并同步,可以是下一次不用登录也可以查看到个人信息,注:如果初始化加载登录,可通过缓存Cookie信息来验证是否要加 ...
爬虫实战【9】Selenium解析淘宝宝贝-获取宝贝信息并保存
通过昨天的分析,我们已经能到依次打开多个页面了,接下来就是获取每个页面上宝贝的信息了. 分析页面宝贝信息 [插入图片,宝贝信息各项内容] 从图片上看,每个宝贝有如下信息:price,title,url ...
Python爬虫之模拟登录微信wechat
不知何时,微信已经成为我们不可缺少的一部分了,我们的社交圈.关注的新闻或是公众号.还有个人信息或是隐私都被绑定在了一起.既然它这么重要,如果我们可以利用爬虫模拟登录,是不是就意味着我们可以获取这些信息 ...
Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
Python爬虫（3）豆瓣登录
前面(1)(2)的内容已经足够爬虫如链家网之类的不需要登录可以直接获取数据的网站. 而要爬取社交网站比较鲜明的特点就是需要登录,否则很多东西都无法获取.经过测试发现,微博,知乎都不是很好登录,知乎有时 ...

随机推荐

WPF之Binding初探
初学wpf,经常被Binding搞晕,以下记录写Binding的基础. 首先,盗用张图.这图形象的说明了Binding的机理. 对于Binding,意思是数据绑定,基本用法是: 1.在xmal中使用 ...
(转)解释一下SQLSERVER事务日志记录
本文转载自桦仔的博客http://www.cnblogs.com/lyhabc/archive/2013/07/16/3194220.html 解释一下SQLSERVER事务日志记录大家知道在完整恢 ...
CentOS7|RHEL忘记root密码
某一服务器长时间不使用,或者由于频繁修改root密码,导致忘记root密码无法登陆系统问题,通过进入单用户修改root密码,CentOS7|RHEL7与6系列有一些区别,不在适用于7. 1.在启动gr ...
hdu 3118(二进制枚举）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=3118 思路:题目要求是去掉最少的边使得图中不存在路径长度为奇数的环,这个问题等价于在图中去掉若干条边, ...
Android中如何实现多行、水平滚动的分页的Gridview？
功能要求: (1)比如每页显示2X2,总共2XN,每个item显示图片+文字(点击有链接). 如果单行水平滚动,可以用Horizontalscrollview实现. 如果是多行水平滚动,则结合Grid ...
S&ZeroWidthSpace;Q&ZeroWidthSpace;L&ZeroWidthSpace; &ZeroWidthSpace;S&ZeroWidthSpace;e&ZeroWidthSpace;r&ZeroWidthSpace;v&ZeroWidthSpace;e&ZeroWidthSpace;r&ZeroWidthSpace;中&ZeroWidthSpace;&ZeroWidthSpace;的&ZeroWidthSpace;P&ZeroWidthSpace;W&ZeroWidthSpace;D&ZeroWidthSpace;E&ZeroWidthSpace;N&ZeroWidthSpace;C&ZeroWidthSpace;R&ZeroWidthSpace;Y&ZeroWidthSpace;P&ZeroWidthSpace;T&ZeroWidthSpace;与&ZeroWidthSpace;P&ZeroWidthSpace;W&ZeroWidthSpace;D&ZeroWidthSpace;C&ZeroWidthSpace;O&ZeroWidthSpace;M&ZeroWidthSpace;P&ZeroWidthSpace;A&ZeroWidthSpace;R&ZeroWidthSpace;E&ZeroWidthSpace;函&ZeroWidthSpace;数
前幾天有個客戶的網站出問題(不是我們開發的),請我們幫他看,主要的問題是他們的網站會員在進行查詢密碼時,會員收到信的時候在密碼的欄位竟然會出現 System.Binary[] 字樣.而我進去資料庫中查 ...
HTML-CSS相关（2）
[CSS常用文本属性] 1,字体.字号类: ① font-weight:字体粗细. bold-加粗 noemal-正常 lighter-细体也可以使用100-900数值,400表示normal,70 ...
浅谈计算机中的IO模型
IO模型一共有5种: blocking IO #阻塞IO nonblocking IO #非阻塞IO IO myltiplexing #IO多路复用 signal driven IO #信号驱动IO ...
Recycle移动端界面设计成果图
经过功能分析,我最终设计出来了该App界面图: (1)主页面图 (2)消息界面图 (3)我的界面图 (4)垃圾页面图由于时间原因,此次设计仅为初稿.以后会继续抽出时间,与团队成员一起完善该项目App ...
maven 通过 pom&period;xml 指定java编译版本
 <plugin> <groupId>org.apache.maven.plugins</groupId> ...