body_text_extraction:基于DOM树HTML正文文本提取

时间:2021-05-26 09:28:25
【文件属性】:
文件名称:body_text_extraction:基于DOM树HTML正文文本提取
文件大小:5KB
文件格式:ZIP
更新时间:2021-05-26 09:28:25
Python #BodyTextExtraction基于DOM的启发式算法,用于从HTML提取正文。 参考: 用法 from body_text_extraction import BodyTextExtraction bte = BodyTextExtraction () text = bte . extract ( html )
【文件预览】:
body_text_extraction-master
----setup.py(814B)
----.gitignore(682B)
----requirements.txt(51B)
----MANIFEST.in(0B)
----setup.cfg(0B)
----README.md(313B)
----body_text_extraction()
--------__init__.py(8KB)
--------VERSION(6B)

网友评论