language model —— basic model 语言模型之基础模型

时间:2023-03-09 03:17:24
language model —— basic model 语言模型之基础模型

一、发展

起源:统计语言模型起源于 Ponte 和 Croft 在 1998年的 SIGIR上发表的论文

应用:语言模型的应用很多:

corsslingual retrieval

distributed IR

expert finding

passage retrieval

web search

genomics retrieval 基因组学检索

topic tracking

subtopic retrieval

二、basic model

1、Ponte and Croft

核心思想:query likelihood scoring

算法:

language model —— basic model 语言模型之基础模型

两个核心问题: (1) 如何定义 θD?

(2) 怎么计算θD?

多重伯努利模型 mutiple Bernoulli model : 该词出现(=1)或不出现(=0) ,只有两种情况

language model —— basic model 语言模型之基础模型

上述公式没有考虑 TF,若考虑的话,如下:

language model —— basic model 语言模型之基础模型

2、BBN and Twenty-one in TREC-7

本质: unigram model

公式:

language model —— basic model 语言模型之基础模型

平滑上述公式,如下:

language model —— basic model 语言模型之基础模型

文档的得分用下述公式计算:

language model —— basic model 语言模型之基础模型

三、basic model 变体总结

language model —— basic model 语言模型之基础模型

(1)Bernoulli并没有multinomial 受欢迎,因为前者没有考虑TF,即使考虑了,也不太自然

(2)bernoulli的假设是: term出现与否与其他term是独立的

multinomial的假设是:term出现次数与其他term是独立的,及时是出现在不同地方的同一个term