【文件属性】:
文件名称:boilerpipepy:从 HTML 页面中删除样板和全文提取
文件大小:658KB
文件格式:ZIP
更新时间:2021-06-17 09:42:25
Python
锅炉管Py
从 HTML 页面中删除样板和全文提取
概括
样板库提供了算法来检测和删除网页主要文本内容周围多余的“混乱”(样板、模板)。
该项目是 Christian Kohlschütter 的 Java 库的原生 python 端口
算法
该库使用的算法基于(并扩展)了 Christian Kohlschütter 等人的论文“ ”的一些概念。
组件
一种 HTML 解析器,可将 HTML 转换为支持文本“块”的内部纯文本文档模型。 Python 版本使用快速解析器
几个过滤器组件分析并标记这些文本块
由一个或多个过滤器组成的提取器。 这种“管道”获取解析的文档对象并从中提取主要文本内容python版本atm中的一个提取器
一个 HTML 荧光笔,用于在输入页面的副本中直观地检查提取的主要内容。 不支持自动取款机
如何使用
以 url 作为参数简单运行 ./url2article.
【文件预览】:
boilerpipepy-master
----url2article.py(2KB)
----README.md(2KB)
----docs()
--------edition.cnn.com-20150318europenatorussiaaircraftinterceptedindexhtml.txt(3KB)
--------wsdm187-kohlschuetter.pdf(674KB)
--------roem.ru-19032015188812yandexmoneymarketchina.txt(9KB)
--------www.gazeta.ru-business201503186604309shtml.txt(15KB)
----boilerpipe()
--------sax()
--------filters()
--------__init__.py(0B)
--------document()
--------util()
--------extractors()
----.gitignore(791B)