文件名称:clean-text::broom:用于清理文本的Python包
文件大小:41KB
文件格式:ZIP
更新时间:2024-02-24 12:09:59
python nlp natural-language-processing scraping user-generated-content
clean-text
用户在Web和社交媒体上生成的内容通常很脏。 使用clean-text预处理抓取的数据以创建规范化的文本表示形式。 例如,打开以下损坏的输入:
A bunch of \\u2018new\\u2019 references, including [Moana](https://en.wikipedia.org/wiki/Moana_(2016_film)).
»Yóù àré rïght <3!«
到这个干净的输出中:
A bunch of 'new' references, including [moana](
【文件预览】:
clean-text-master
----poetry.lock(26KB)
----.gitignore(1KB)
----pyproject.toml(1KB)
----.travis.yml(288B)
----LICENSE(976B)
----bmbf_funded.svg(72KB)
----clean-text()
--------__init__.py(24B)
----cleantext()
--------__init__.py(44B)
--------specials.py(1KB)
--------clean.py(9KB)
--------constants.py(4KB)
----README.md(5KB)
----tests()
--------test_clean.py(6KB)
----.editorconfig(241B)