Python爬虫基础-网页解析器-02

时间:2024-04-03 16:55:51

1.什么是网页解析器

从网页中提取有价值数据的工具,网页解析器会通过html网页字符串提取出有价值的数据和新URL列表


2.Python的几种网页解析器

Python爬虫基础-网页解析器-02

模糊匹配:针对字符串来匹配
结构化解析:DOM树

2.1网页解析器--beautiful soup

Python第三方库,用于从HTML 或XML中提取数据

2.2 安装beautiful soup 

通过cmd切换到python3.6\Scripts目录下执行pip install beautifulsoup4进行下载安装

2.3beautiful soup语法


html网页---->创建BeautifulSoup对象 -->搜索节点(find_all、find 可以按照节点名称、属性、文字来搜索)-->访问节点名称、属性、文字