交作业啊，python爬取58的页面

第一次写博文，好紧张啊，写这么烂怎么给别人看啊
先做下总结：
　　刚开始学习python，自我感觉python写起来确实很方便，各种库，各种语法糖，不过刚接触，一下子记不下来这么多东西，总感觉乱乱的，用的多了熟悉之后应该就好了吧
　　这次作业基本完成了作业的要求，但是由于是在上班期间抽时间写的，可能有些乱。个人感觉这次作业的难度不大，唯一麻烦的地方就是找浏览量接口，
　　一开始我以为58会把浏览量的值直接发过来，通过选择器直接去修改页面的值，于是试了各种选择方式去js代码里搜，结果搜了半天也没找到，最后只好通过查看哪次网络请求之后浏览量就会出现的方式
　　来定位出获取浏览量的接口，总结完了。后面是全部代码

from collections import Iterator

from bs4 import BeautifulSoup

import requests

import re

import time

header = {

    'Host': 'jst1.58.com',

    'User - Agent': 'Mozilla / 5.0 (Windows NT 6.1; WOW64;rv:46.0) Gecko / 20100101 Firefox / 46.0',

    'Accept': '* / *',

    'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

    'Accept-Encoding': 'gzip, deflate',

    'Referer': 'http://bj.58.com/pingbandiannao/24063857671738x.shtml?adtype=1&entinfo=24063857671738_0&psid=157472432191615221843458468',

    'Cookie': 'id58=vDg6HFci7MbdAHOifdgN2Q==; utm_source=market; spm=b-31580022738699-me-f-824.bdpz_biaoti; mcity=bj; city=bj; 58home=bj; 58tj_uuid=e0c574ac-c792-4b29-a6b6-0add83b27579; new_session=0; new_uv=1; init_refer=http%253A%252F%252Fbzclk.baidu.com%252Fadrc.php%253Ft%253D0fKL00c00f7ngK60jUPi0nW_R0jDeaFg00000r7J01300000XL2vy9.THYdr0K85yF9pywdpAqVuNqsusK15y7BujD1mycknj0snWmzuHf0IHYvPHDYfWf4nDD4nYDYwRf1fW7DfWFjwjb4nWu7wRmkf6K95gTqFhdWpyfqnWm4rHc1nHT3niusThqbpyfqnHmhULFG5HDhTLNBULFG5iusThbqn6K-5y9YIZ0lQzqJIydsQhkdUhD8PH68mvqVQLnOTLKV5ycVn1Ddrj0snWcLn16vrHbVUyRVuBY3nWfhmv6qmhwsX-qBpy7EIAb0mLFW5HRYn1bL%2526tpl%253Dtpl_10085_12986_1%2526l%253D1040411361%2526wd%253D58%2526issp%253D1%2526f%253D8%2526ie%253Dutf-8%2526tn%253Dbaiduhome_pg%2526inputT%253D850; als=0; ipcity=bj%7C%u5317%u4EAC%7C0; myfeet_tooltip=end; bj58_new_session=0; bj58_init_refer=""; bj58_new_uv=1; bj58_id58s="UC1sYXcxM1I3ajhtMTY5OQ=="; sessionid=d8c0d2b1-ea07-4ace-b038-1b367908784c; final_history=24063857671738%2C25843657514315',

    'Connection': 'keep-alive',

    'Cache-Control': 'max-age=0'

}

'''爬取详情页'''

def getDetail(url):

    requests.adapters.DEFAULT_RETRIES = 5

    infoid = re.sub('^.*/(.*)x\.shtml.*$', lambda m: '{}'.format(m.group(1)), url)

    '''网络不好时改用此方式，报错就两秒之后继续爬'''

    # while True:

    #     try:

    #         time.sleep(2)

    #         response = requests.get(url)

    #         count = requests.get('http://jst1.58.com/counter?infoid={}'.format(infoid), headers=header)

    #         break

    #     except BaseException:

    #         print('错误')

    #         pass

    time.sleep(2)

    response = requests.get(url)

    count = requests.get('http://jst1.58.com/counter?infoid={}'.format(infoid), headers=header)

    html = BeautifulSoup(response.text,'lxml')

    count = re.sub('^.*Counter58.total=(.*)$',lambda m:'{}'.format(m.group(1)),count.text)

    area = getFirst(html.select('#content div.col_sub.sumary ul li:nth-of-type(3) div.su_con span'))

    return {

       'title' : getFirst(html.select('#content div.col_sub.mainTitle > h1')).get_text(),

        'category' : getFirst(html.select('span.crb_i a:nth-of-type(1)')).get_text(),#span.crb_i:nth-child(3)

        'time' : getFirst(html.select('#index_show li.time')).get_text(),

        'price' : getFirst(html.select('#content div.col_sub.sumary li:nth-of-type(1) div.su_con span')).get_text(),

        'chengse' : getFirst(getFirst(html.select('#content div.col_sub.sumary ul li:nth-of-type(2) div.su_con span')).stripped_strings),

       'area' : ''.join('' if area == None else area.stripped_strings),

       'count':count

    }

'''获取列表或生成器的第一个值'''

def getFirst(obj):

    if isinstance(obj, list) and len(obj) != 0 :

        return obj[0]

    if isinstance(obj, Iterator):

        return next(obj)

    return None

'''爬取列表页'''

def getListPage():

    urls = ('http://bj.58.com/pbdn/0/pn{}/'.format(i) for i in range(1,200))

    for url in urls:

        response = requests.get(url)

        html = BeautifulSoup(response.text, 'lxml')

        detailUrls = html.select('#infolist > table.tbimg > tr')

        '''如果为空，则说明页数超出，停止继续爬取'''

        if 0 == len(detailUrls):

            break

        for dUrl in detailUrls:

            if 'zzinfo' == getFirst(dUrl.get('class')):

                continue

            href = getFirst(dUrl.select('.img > a')).get('href')

            # 打印出来结果

            print(getDetail(href))

getListPage()

交作业啊，python爬取58的页面的更多相关文章

利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
Python爬取网易云热歌榜所有音乐及其热评
获取特定歌曲热评: 首先,我们打开网易云网页版,击排行榜,然后点击左侧云音乐热歌榜,如图: 关于如何抓取指定的歌曲的热评,参考这篇文章,很详细,对小白很友好: 手把手教你用Python爬取网易云40万 ...
python爬取北京*信件信息01
python爬取,找到目标地址,开始研究网页代码格式,于是就开始根据之前学的知识进行爬取,出师不利啊,一开始爬取就出现了个问题,这是之前是没有遇到过的,明明地址没问题,就是显示网页不存在,于是就在百度 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
大神：python怎么爬取js的页面
大神:python怎么爬取js的页面可以试试抓包看看它请求了哪些东西, 很多时候可以绕过网页直接请求后面的API 实在不行就上 selenium (selenium大法好) selenium和pha ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python&colon;爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

随机推荐

js正则表达式进行格式校验
今天做了个js正则表达式的练习,利用正则表达式进行注册信息格式验证,注册信息界面如下: 格式要求: 1.学号项不能为空,必须为纯数字,不能与数据库中的重复,正则表达式/^\d+$/g: 2.姓名项不能 ...
BigDecimal带精度的运算的两篇文章
转自:http://guoliangqi.iteye.com/blog/670908 之前提到过在商业运算中要使用BigDecimal来进行相关的钱的运算(java中关于浮点运算需要注意的 ),可是实 ...
WebApi2 jsonp跨域问题
一:故事背景以前在写WebApi2的时候,一直是用作前后端分离(WebApi2 +angularjs),可是最近自己在给WebApp写接口的时候遇到了很多坑,总结一下就是跨域问题.而跨域问题 ...
在进行页面的DIV CSS排版时，遇到IE6（当然有时Firefox下也会偶遇）浏览器中的图片元素img下出现多余空白的问题绝对是常见的对于该问题的解决方法也是&OpenCurlyDoubleQuote;见机行事”。
当一个img标签没得图片时,在firox中,即使给img标签设置了固定高度和宽度,img标签还是不会站位: 解决方法一:直接将img设置为块状元素:即,设置img为“display:block;”.在 ...
程序员DD 《Spring boot教程系列》补充
最近在跟着程序员DD的Spring boot教程系列学习Spring boot,由于年代原因,Spring boot已经发生了一些变化,所以在这里进行一些补充. 补充的知识大多来自评论区,百度,Sta ...
C语言memmove()函数&colon; 复制内存内容(可以重叠的内存块)
头文件:#include <string.h> memmove() 用来复制内存内容,其原型为: void * memmove(void *dest, const void *src, s ...
learn
1.JQ (随时) 2.微信小程序(关注群,专栏知乎,自己申请一个小程序弄个实战) 3.支付宝小程序(2017.08.18 新生代类似微信api) 4.vue(优秀的mvvm框架,手机端主流) 5. ...
LInux Crontab及命令
定时任务(cron job)被用于安排那些需要被周期性执行的命令.利用它,你可以配置某些命令或者脚本,让它们在某个设定的时间内周期性地运行.cron 是 Linux 或者类 Unix 系统中最为实用的 ...
实现开发板与ubuntu的共享--根文件系统NFS--Samba共享【sky原创】
虚拟机要选择桥接,并且禁用有线和无线网卡,开启本地连接,本地连接属性要写如下: ip地址是在连上板子后,windows cmd 下 ipconfig得出的板子的网线最好连接交换机或者 ...
java中不同类型的数值占用字节数
在Java中一共有8种基本数据类型,其中有4种整型,2种浮点类型,1种用于表示Unicode编码的字符单元的字符类型和1种用于表示真值的boolean类型.(一个字节等于8个bit) 1.整型类型 ...