【文件属性】:
文件名称:ansj_segx:Ansj中文分词的另一选择
文件大小:6.41MB
文件格式:ZIP
更新时间:2021-07-03 17:46:27
Java
Ansj中文分词的另一选择
项目说明:
本项目对Ansj中文分词2.0.8源码进行了以下调整和功能扩充:
1、删除NLP分词;(NLP分词占用内存大,分词效率稍低,一般项目不会使用该功能)
2、删除与分词无关的功能;
3、将nlp-lang项目中与分词相关的类合并到ansj_seg项目;
4、将用户自定义词库和岐义纠正词库移到classpath目录下,方便与solr的集成;
5、用户自定义词库和岐义纠正词库支持MySQL数据库存储;
6、增加Ansj for solr插件。(solr 4.10.2下测试成功)
使用说明:
一、词典的配置
文件系统,library.properties文件中设置userLibrarySource=file
MySQL数据库,library.properties文件中设置userLibrarySource=mysql,数据库脚本见源码中files文件夹中MyS