【文件属性】:
文件名称:compound-word-splitter:适用于Python的复合单词拆分器
文件大小:6KB
文件格式:ZIP
更新时间:2021-05-16 15:10:43
python natural-language-processing Python
复合词分割器
将pyenchant (拼写检查器)无法识别的单词拆分为最大可能的复合词。
安装
在继续操作之前,请确保已安装。
现在运行
pip install compound-word-splitter
请注意,默认情况下可用的语言取决于您操作系统的配置,例如:
['en', 'en_CA', 'en_GB', 'en_US']
如果您想使用其他语言,例如下面的示例中的de_de ,则必须为其安装词典( myspell-de-de )。
用法
import splitter
splitter . split ( 'artfactory' )
退货
[ 'art' , 'factory' ]
。
split ( 'Glossarelement' , 'de_de' )
退货
[ 'Glossar' , 'Element' ]
。
如果无法将单词分解为pyenchan
【文件预览】:
compound-word-splitter-master
----.gitignore(36B)
----README.rst(1KB)
----tests()
--------test_compound_word_splitter.py(3KB)
--------run.py(24B)
----LICENSE(1KB)
----splitter()
--------compound_word_splitter.py(2KB)
--------__init__.py(43B)
----requirements.txt(17B)
----setup.py(854B)
----.travis.yml(309B)