【文件属性】:
文件名称:iparse:具有yaml配置支持的bs4解析器
文件大小:56KB
文件格式:ZIP
更新时间:2021-05-25 06:36:33
python yaml parser crawler parser-library
稀疏的
iparse是一个Python软件包,用于以最少的代码轻松地将HTML解析为结构化数据。
它旨在使解析HTML的过程变得快速而简单!
iparse的亮点:
主要使用YAML进行编码
仅使用最少的python代码优化原始HTML信息
很多HTML布局更改,仅涉及YAML
安装
pip install iparse
一个简单的例子
对于HTML页面:即可
获得您所需的结构化数据是
创建一个从IParser继承的类
编写一个YAML配置文件代表所有定位器
创建xkcd_353.py
xkcd_353.py将通过startup_dir,查找名为ClassName的snake_case的文件,不带suffix:Parser ,因此XkcdParser将为xkcd.yaml
from pathlib import Path
from iparse . _parse import
【文件预览】:
iparse-master
----setup.py(944B)
----.gitignore(2KB)
----LICENSE(34KB)
----CHANGELOG.md(236B)
----README.md(5KB)
----tests()
--------xkcd01.yaml(111B)
--------test_json_parser.py(10KB)
--------__init__.py(0B)
--------dict_demo.json(2KB)
--------linkedin.yaml(3KB)
--------xkcd_demo.yaml(2KB)
--------dict_demo.yaml(483B)
--------test_iparser.py(9KB)
--------linkedin.html(82KB)
--------list_demo.yaml(675B)
--------list_demo.json(14KB)
--------xkcd_python_353.htm(8KB)
--------test_linkedin.py(17KB)
--------xkcd.yaml(2KB)
--------test_xkcd01.py(1KB)
----iparse()
--------__init__.py(49B)
--------_parse.py(25KB)
----pub.sh(129B)