Python爬虫入门实战（1）获取网页中指定的文字或容器内内容

在这里插入图片描述

Python中有关网页操作的标准库有很多

这次使用三个流行的bs4库、requests_html库和lxml库的方法，在你需要在自己的程序中插入指定网页的指定容器的内容时，可以插入下面的内容，因为你需要的信息可能是一直在变动的。缺点是如果网站运营者改动了网页的分支结构，这段代码就会出错，但是一般来说，大公司的网站结构一般不会随意改变，毕竟改进一次web结构，意味着底层码农需要重新学一次搬砖技巧。
比如说我们爬取https://python123.io/index中专栏后面的这行小字，这很显然是个静态的文字，爬取它不容易出错。在这里插入图片描述

1.BeautifulSoup().select()方法

在这之前，我们要通过强大的CSS选择器获取这个特定元素，以Chrome为例：在这里插入图片描述

from bs4 import BeautifulSoup
import requests
url = \'https://python123.io/index\'
response = requests.get(url)
response.encoding=response.apparent_encoding
#因为网站使用的不是通用的utf-8格式，而是gzip，所以要让它判断解码格式
html = BeautifulSoup(response.text,\'lxml\')
#获取到的网页信息需要进行解析，使用lxml解析器，其实默认的解析器就是lxml，但是这里会出现警告提示，方便你对其他平台移植
content=html.select(\'#links > div:nth-child(1) > div.main > div > div.landing.is-clipped > div:nth-child(2) > div:nth-child(1) > h4:nth-child(6) > span\')
#将复制好的选择器信息放进select方法中，将获取到的内容作为tag形式放入一个列表中
print(content[0].get_text())
#打印这个列表中第一个内容，就是我们要获得的信息

输出结果为：向别人清楚讲述，是更有效率的学习方式！开设专栏，分享你的所学所得。

2.HTMLSession.get().html.find()方法

from requests_html import HTMLSession
session=HTMLSession()
url=session.get(\'https://python123.io/index\')
content=url.html.find(\'#links > div:nth-child(1) > div.main > div > div.landing.is-clipped > \'
                      \'div:nth-child(2) > div:nth-child(1) > h4:nth-child(6) > span\',first=True)
#将选择器信息作为find方法中第一个参数键入，加上first参数，值为Ture
print(content.text)
#输出requests_html的元素的文本属性，得到目标文本(content变量类型为requests_html.Element)

输出结果为：向别人清楚讲述，是更有效率的学习方式！开设专栏，分享你的所学所得。

3.etree.HTML().xpath()方法

在这里插入图片描述
注意看对应的这段网页源代码，它是在span标签中，并且这个标签的class类名叫is-text-small is-text-grey，我们就用这个方法来直接匹配这个标签就可以得到信息了。

这个方法前半部分和第一个方法一样，嘻嘻，所以内容就轻易获取到了。

from lxml import etree
import requests
url = \'https://python123.io/index\'
response = requests.get(url)
response.encoding=response.apparent_encoding
label=etree.HTML(response.text)
#提取这个页面中所有的标签信息
content=label.xpath(\'//span[@class="is-text-small is-text-grey"]/text()\')
#提取span标签中class名为"is-text-small is-text-grey"的内容信息,并且存入一个列表中
print(content[0])
#打印获得的文本信息

输出结果为：向别人清楚讲述，是更有效率的学习方式！开设专栏，分享你的所学所得。

总结

至此，两种方法都爬取到了指定的文本信息，但是这样的爬虫既不能保证网站结构不改变，又不能保证不会被作为恶意爬虫被反爬，也不能保证被作为频繁的机器操作被屏蔽IP。
所以，在后续的博客中，我们尝试加入更健壮的爬虫方法，并且在访问时加入浏览器标头，以及使用动态IP去访问网址。
但是，无论如何，你的爬虫必须都遵从三点：

程序必须具有类人一样操作，不能利用计算机强大的计算能力，恶意频繁访问网站，给网站造成巨大的压力。所以，在编写爬虫时对其访问速度加以限制，以免对网站服务器带来巨大的资源开销。
法律准则：
（1）2017年6月1日起施行的《*网络安全法》规定：任何个人和组织不得窃取或者以其他非法方式获取个人信息，不得非法出售或者非法向他人提供个人信息。
（2）爬取数据过程中不应侵犯他人的知识产权。
遵循Robots协议：
查看网站的robots文件：网站主域名+"/robots.txt"
比如要查看百度的robots协议，则在网址处输入"https://www.baidu.com/robots.txt"

具体参考网络爬虫的行为准则

Python爬虫入门实战（1） 获取网页中指定的文字或容器内内容

Python中有关网页操作的标准库有很多

1.BeautifulSoup().select()方法

2.HTMLSession.get().html.find()方法

3.etree.HTML().xpath()方法

总结

Python爬虫入门实战（1）获取网页中指定的文字或容器内内容