python练习小文章-文本爬虫

时间:2023-03-10 02:42:44
python练习小文章-文本爬虫

一入“程”门深四海......

有学习就得有练习,我来练一个文本爬虫,代码直接写到下面,抓取的是网页图片,简单好学,适合新手练习。

话不多说直接上干货!

1. 目标网址:https://www.jikexueyuan.com

2. 准备工具

Python2.7

PyCharm5.3

这两个软件Python版本我目前用的是版本2,还没有使用3版本,因为知道这是有个别改动,相信把版本2学好了,升级到3没有多大问题,PyCharm下载的时候也要对应Python的版本下载,具体下载新手请找度娘。

3.上面两个下载好了还要下载一个Requests来获取网页,这是需要导入的一个第三方

4.开始编程

在编程开始之前展示一下抓取结果,这些就是在极客学院上面抓取的教学图片。

python练习小文章-文本爬虫

5. 分解步骤:

1)打开极客学院网址,选择课程库

python练习小文章-文本爬虫

2)右击审核元素,这可以直接看到对应的图片地址;点击Elements的放大镜,将鼠标移动到图片上面,下面会出现图片对应的地址(深颜色),可以看到一个词:Class=”lessonplay”

python练习小文章-文本爬虫

3) 将PyCharm打开,新建一个文件夹,取名pachong,里面建一个picdownloader.py的文件;建一个source.txt文件;在建一个pic文件夹。

4)打开网页的源代码,将查找到的所有(class=”lessonplay”)复制粘贴到source.txt文件里面。

python练习小文章-文本爬虫

5)开始编程

python练习小文章-文本爬虫

6)将代码写到picdownloader.py文件里面,然后在i=0前面点一下断点,点击右上角爬虫测试

python练习小文章-文本爬虫

将会看到下面测试出来图片匹配的数字是24个,也就是说我们爬取的网页当前页有24张图片。

python练习小文章-文本爬虫

7)最后直接运行整个代码,点击右上角的绿三角,软件就会自动的将图片下载到pic文件夹里面去,快去试试,你的图片都爬取出来了吗~

此乃学习总结,仅供学习,无任何商业用途,最后欢迎大佬指导改正意见~~

欢迎关注微信公众号:大王有药