【文件属性】:
文件名称:python爬虫mac版本猪精原创
文件大小:273KB
文件格式:ZIP
更新时间:2023-01-22 13:49:11
python
python mac版爬虫
- 豆瓣电视爬虫案例
### xpath和lxml
- xpath
- 一门从html中提取数据的语言
- xpath语法
- xpath helper插件:帮助我们从`elements`中定位数据
- 1. 选择节点(标签)
- `/html/head/meta` :能够选中html下的head下的所有的meta标签
- 2. `//` :能够从任意节点开始选择
- `//li` :当前页面上的所有的li标签
- `/html/head//link` :head下的所有的link标签
- 3. `@符号的用途`
- 选择具体某个元素:`//div[@class='feed']/ul/li`
- 选择class='feed'的div下的ul下的li
- `a/@href` :选择a的href的值
- 4. 获取文本:
- `/a/text()` :获取a下的文本
- `/a//text()` :获取a下的所有的文本
- 5. 点前
- `./a` 当前节点下的a标签
- lxml
- 安装:pip install lxml
- 使用
```pthon
from lxml import etree
element = etree.HTML("html字符串")
element.xpath("")
```
【文件预览】:
code
----code()
--------07_try_json.py(649B)
--------10_qiubaispider.py(2KB)
--------01_testpycharm.py(0B)
--------douban.txt(24KB)
--------douban.json(122KB)
--------renren2.html(45KB)
--------qiubai.txt(55KB)
--------06_try_json.py(622B)
--------04_try_login2.py(1KB)
--------renren3.html(45KB)
--------08_douban_spider.py(1KB)
--------01_try_requests.py(379B)
--------.idea()
--------renren1.html(45KB)
--------03_try_login1.py(989B)
--------05_try_login3.py(720B)
--------09_try_lxml.py(1KB)
--------parse.py(999B)
--------02_try_request_post.py(482B)
----第一部分.md(3KB)
----第三部分.pdf(53KB)
----第二部分.md(2KB)
----第二部分.pdf(61KB)
----第三部分.md(3KB)
----第一部分.pdf(64KB)