25.TF&IDF算法以及向量空间模型算法

主要知识点：

boolean model
IF/IDF
vector space model

一、boolean model

在es做各种搜索进行打分排序时，会先用boolean model 进行初步的筛选，boolean model类似and这种逻辑操作符，先过滤出包含指定term的doc。must/must not/should（过滤、包含、不包含、可能包含）这几种情况，这一步不会对各个doc进行打分，只分过滤，为下一步的IF/IDF算法筛选数据。

二、TF/IDF

这一步就是es为boolean model过滤出来的doc进行打分，但是这一步也只是单个term在doc中的分数。现假如：

query: hello world

doc1: java is my favourite programming language, hello world !!!

doc2: hello java, you are very good, oh hello world!!!

hello对doc1的评分

TF: term frequency

找到hello在doc1中出现了几次，1次，会根据出现的次数给个分数

一个term在一个doc中，出现的次数越多，那么最后给的相关度评分就会越高

IDF：inversed document frequency

找到hello在所有的doc中出现的次数，3次

一个term在所有的doc中，出现的次数越多，那么最后给的相关度评分就会越低

length norm

hello搜索的那个field的长度，field长度越长，给的相关度评分越低; field长度越短，给的相关度评分越高

最后，会将hello这个term，对doc1的分数，综合TF，IDF，length norm，计算出来一个综合性的分数

3、vector space model

我们在做搜索时，搜索条件中可能会有多个term，es出来的分数结果也是对多个term的综合分数，多个term对一个doc的总分数的计算，在es中使用的是vector space model(空间向量模型），这个模型的算法很复杂，我们在使用es时不需要知道这种算法，只需要知道综合分数是由灾这种模型计算得出的就行。

秒客网

25.TF&IDF算法以及向量空间模型算法

相关文章