clean-text::broom:用于清理文本的Python包

时间:2024-02-24 12:09:59
【文件属性】:

文件名称:clean-text::broom:用于清理文本的Python包

文件大小:41KB

文件格式:ZIP

更新时间:2024-02-24 12:09:59

python nlp natural-language-processing scraping user-generated-content

clean-text 用户在Web和社交媒体上生成的内容通常很脏。 使用clean-text预处理抓取的数据以创建规范化的文本表示形式。 例如,打开以下损坏的输入: A bunch of \\u2018new\\u2019 references, including [Moana](https://en.wikipedia.org/wiki/Moana_(2016_film)). »Yóù àré rïght <3!« 到这个干净的输出中: A bunch of 'new' references, including [moana](). "you are


【文件预览】:
clean-text-master
----poetry.lock(26KB)
----.gitignore(1KB)
----pyproject.toml(1KB)
----.travis.yml(288B)
----LICENSE(976B)
----bmbf_funded.svg(72KB)
----clean-text()
--------__init__.py(24B)
----cleantext()
--------__init__.py(44B)
--------specials.py(1KB)
--------clean.py(9KB)
--------constants.py(4KB)
----README.md(5KB)
----tests()
--------test_clean.py(6KB)
----.editorconfig(241B)

网友评论