首页 理论教育语言模型在信息检索中的应用

语言模型在信息检索中的应用

【摘要】:鉴于语言模型在很多问题的研究中都获得了成功的应用,很多学者也提出了将改进的语言模型用于信息检索的方法。qn和文档D,那么,文档模型的任务就是先建立文档的语言模型MD,然后根据概率P对文档进行排序。查询模型的基本思想是:假定查询Q=q1q2…那么,该模型的任务就是先估计文档模型P,然后估计查询模型P (ω|R),从而计算文档模型和查询模型之间的KL距离:翻译模型的基本思想是:把查询语句Q=q1q2…

鉴于语言模型在很多问题的研究中都获得了成功的应用,很多学者也提出了将改进的语言模型用于信息检索的方法。例如,文档模型(Document Model)、查询模型(Query Model)、差异模型(Divergence Model)和翻译模型(Transla-tion Model)等。

文档模型的基本思想是:假定查询Q是由文档D的概率模型产生的,并由此对文档进行排序。也就是说,给定查询Q=q1q2qnqi为查询词)和文档D,那么,文档模型的任务就是先建立文档的语言模型MD,然后根据概率P(QMD)对文档进行排序。

文档模型的一元文法描述形式为

P (qiMD)反映的是查询词在文档D中的概率分布。

查询模型的基本思想是:假定查询Q=q1q2qn和文档D均采样自一个未知的相关模型RR刻画了QD在查询相关文档中的概率分布;从相关模型R中经过k次采样,观察到查询Q,估计第k+1次采样观察到文档中的词ω的概率。

查询模型描述为

差异模型的基本思想是:通过计算文档模型和查询模型之间的Kullback-Leibler差异(KL距离),根据KL距离大小对候选文档进行排序。那么,该模型的任务就是先估计文档模型P(ωMD),然后估计查询模型P (ωR),从而计算文档模型和查询模型之间的KL距离:

翻译模型的基本思想是:把查询语句Q=q1q2qn看做是文档D在同一语言内的翻译,并根据翻译的概率大小对候选文档进行排序,根据统计翻译模型有

其中,P (ωjD)为词ωj在文档D中的概率分布,P (qiωj)为词ωj翻译成查询中的词qi的概率。