solr使用的一点记录

时间:2022-03-16 13:33:48

lucene版本3.1,solr版本3.0

对pubmed 3200多万篇,总计64G的医学文献摘要数据进行索引,索引了大约6个小时,索引之后发现还有18G,发现搜索是支持phrase query的,但是不需要高亮(因为文本数据不store在solr上而在cabinet上),text的定义中加上了termPositions=false,明天看看索引会不会小一点.

对八百多万篇中文医学文献34G,只索引了一半17G,花了22分钟,索引大小为2.3G,下载mmseg 1.8.5,使用textComplex方式进行分词,索引大小1.7G,使用时间大约25分钟,再使用textMaxWord方式分词,索引大小1.8G,使用时间25分钟,使用StopwordFilter之后索引减少到1.6G.

另外看到documentCache 使用lrucache,大小为512,hitRatio有0.5,把它改成了fastlrucache,大小设成1024,看看hitratio有没有增加.