【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接

问题描述

通过模拟网页，实现百度搜索关键词，然后获得网页中链接的文本，与准备的文本进行比较，如果有相似之处则代表相关链接。

mechanicalsoup模块

MechanicalSoup无需图形界面环境下的浏览器开源项目，是一个基于极其流行而异常多能的 HTML 解析库 Beautiful Soup 建立的爬虫库。如果你的爬虫需要相当的简单，但是又要求检查一些选择框或者输入一些文字，而你又不想为这个任务单独写一个爬虫，那么这会是一个值得考虑的选择。

安装

pip install MechanicalSoup

需要BeautifulSoup和requests库的依赖。

解析百度网页源码

分析百度网页源代码，找到用来接收搜索关键字的表单和输入框。

搜索用的表单

程序实现

map函数

map函数第一个参数为函数，但不需要'()',第二个参数是迭代器对象，作用是对迭代器对象遍历使用第一个函数。

#!/usr/bin/env python
#-*- coding:utf-8 -*-
"""
@author:BanShaohuan
@file: Python 3.6模拟输入并爬取百度前10页密切相关链接
@time: 2018/06/09
@contact: banshaohuan@163.com
@software: PyCharm
"""
import mechanicalsoup
# python小屋文章清单
with open('list.txt', encoding="utf8") as fp:
articles = fp.readlines()
#=> 使用map函数，去掉从文本当中读取时的字符，并放入元组中
articles = tuple(map(str.strip, articles))
# 模拟打开指定网址，模拟输入并提交输入的关键字
browser = mechanicalsoup.StatefulBrowser() #=> 新建一个对象
browser.open(r'http://www.baidu.com')#=> 模拟打开百度
browser.select_form("#form")#=> 根据class指定一个表单
browser['wd'] = 'Python小屋'#=> 根据表单的id指定表单中输入的内容
browser.submit_selected()#=> 提交，模拟搜索
# 获取百度前十页
top10Urls = []
#=> get_current_page得到本页网页，得到a标签对象
for link in browser.get_current_page().select('a'):
if link.text in tuple(map(str, range(2, 11))):
#=> link.attrs['href] a标签中的属性得到值
top10Urls.append(r'http://www.baidu.com'+ link.attrs['href'])
# 与微信公众号里的文章标题进行比对，如果非常相似就返回True
def check(text):
for article in articles:
# 使用切片，防止网站转发公众号文章时标题不完整
if article[2:-2].lower() in text.lower():
return True
return False
# 只输出密切相关的链接
def getLinks():
for link in browser.get_current_page().select('a'):
text = link.text
if 'Python小屋' in text or '董付国' in text or check(text):
print(link.text, '-->', link.attrs['href'])
# 输出第一页
getLinks()
# 处理后面的9页
for url in top10Urls:
browser.open(url)
getLinks()

参考内容：Python 3.6模拟输入并爬取百度前10页密切相关链接

【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接

秒客网

【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接

【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接

问题描述

mechanicalsoup模块

解析百度网页源码

程序实现

map函数

相关文章