【文件属性】:
文件名称:punkt-segmenter:NLTK Punkt句子分割算法的Ruby端口
文件大小:26KB
文件格式:ZIP
更新时间:2021-05-14 06:36:30
ruby nltk ruby-port nlp-library sentence-tokenizer
朋克句子标记器
这段代码是NLTK项目( )实现的Punkt句子标记器算法的ruby 1.9.x端口。 Punkt是一种独立于语言的,无监督的句子边界检测方法。 它基于这样的假设:一旦确定了缩写,就可以消除句子边界确定中的大量歧义。
以下学术论文介绍了该算法的完整说明:
Kiss,Tibor和Strunk,2006年1月:无监督的多语言句子边界检测。 计算语言学32:485-525。
这是原始实现的功劳:
威利( )(原始Python端口)
史蒂文伯德( )(添加)
爱德华·( )(重写)
乔尔·诺斯曼(Joel Nothman)( )(几乎重写)
我只是做了ruby端口和一些API更改。
安装
gem install punkt-segmenter
当前,该gem仅在ruby 1.9.x上运行(由于unicode_utils依赖)
如何使用
假设我们有以下文本
【文件预览】:
punkt-segmenter-master
----.gitignore(9B)
----README.md(5KB)
----test()
--------punkt-segmenter()
--------test_helper.rb(451B)
--------data()
----punkt-segmenter.gemspec(629B)
----script()
--------console(265B)
----LICENSE.txt(584B)
----lib()
--------punkt-segmenter.rb(326B)
--------punkt-segmenter()
----Rakefile(296B)