bs4库学习

 # -*- coding:utf-8 -*-

 import bs4

 import requests

 def tags_val(tag, key='', index=0):

     '''

     tag指HTML元素，如：<a href="http://meilizhichengwk027.fang.com/chengjiao/-p11-t12/" class="" id="rent">出租</a>，

     通过bs4的select获取元素，tag = bs4.BeautifulSoup(response.text,'html.parser')；

     key指元素的属性，如：key='id'；

     index指元素序号，如果tag有多个相同的，通过序号获取精确的其中一个；

     最终返回元素属性指，如id的值为rent。或key不传入参，返回tag文本，如'出租'

     '''

     if len(tag) == 0 or len(tag) <= index:

         return ''

     elif key:

         txt = tag[index].get(key)

         return txt.strip(' \t\r\n') if txt else ''

     else:

         txt = tag[index].text

         return txt.strip(' \t\r\n') if txt else ''

 def tag_val(tag, key=''):

     '''

     与tags_val用法类似，但是不传index，也就是要能通过selector获取到唯一的元素，然后通过key返回元素属性值或文本

     '''

     if tag is None:

         return ''

     elif key:

         txt = tag.get(key)

         return txt.strip(' \t\r\n') if txt else ''

     else:

         txt = tag.text

         return txt.strip(' \t\r\n') if txt else ''

 #使用requests.Session(),能够保存每次返回的cookie,让下次发送请求时带上保存的cookie

 session = requests.Session()

 response = session.get('http://meilizhichengwk027.fang.com/chengjiao/')

 html = bs4.BeautifulSoup(response.text,'html.parser')

 # 当时用 html.select('.dealSent.sentwrap tr:nth-child(2) p:nth-child(1)')时，会报错，不支持此用法，但是在chrome的console是可以获取到元素的

 tags = html.select('.dealSent.sentwrap tr:nth-of-type(2) p:nth-of-type(1)')

 print tags

 print tags_val(tags)
结果：
[<p><b><a href="http://esf.wuhan.fang.com/chengjiao/433513_1.htm" target="_blank">1\u5ba41\u5385</a></b></p>]
1室1厅
相关文章