【文件属性】:
文件名称:body_text_extraction:基于DOM树HTML正文文本提取
文件大小:5KB
文件格式:ZIP
更新时间:2021-05-26 09:28:25
Python
#BodyTextExtraction基于DOM的启发式算法,用于从HTML提取正文。
参考:
用法
from body_text_extraction import BodyTextExtraction
bte = BodyTextExtraction ()
text = bte . extract ( html )
【文件预览】:
body_text_extraction-master
----setup.py(814B)
----.gitignore(682B)
----requirements.txt(51B)
----MANIFEST.in(0B)
----setup.cfg(0B)
----README.md(313B)
----body_text_extraction()
--------__init__.py(8KB)
--------VERSION(6B)