elasticsearch-skroutz-greekstemmer:希腊语弹性搜索之声

时间:2021-05-05 01:56:43
【文件属性】:
文件名称:elasticsearch-skroutz-greekstemmer:希腊语弹性搜索之声
文件大小:107KB
文件格式:ZIP
更新时间:2021-05-05 01:56:43
Java 适用于ElasticSearch的SkroutzGreekStemmer插件 该插件基于Apache Lucene中包含的GreekStemmer。 Lucene的GreekStemmer是根据Georgios Ntaias希腊语词干的开发而创建的。 本文提到用希腊语识别了166个后缀。 但是,此词干分析器仅捕获了158个,因为添加其余的后缀会降低词干分析器在用于其评估的单词集上的精度。 但是,将这些后缀排除在我们的包含超过120.000个单词的单词集上效果不佳。 因此,为了满足我们的需求,我们不得不修改Lucene的GreekStemmer的实现,以便包含八个后缀,以提高搜索结果的质量。 这些新后缀中的四个未包含在Geogios Ntaias论文的166个后缀中。 这些都是: -ιο, ιοσ, -εασ, -εα 其余四个后缀包含在原始希腊语Stemmer有意未捕获的八个后缀集中
【文件预览】:
elasticsearch-skroutz-greekstemmer-7.7.0
----pom.xml(8KB)
----src()
--------test()
--------main()
----.gitignore(49B)
----README.md(6KB)

网友评论