首页 理论教育基于内容的新闻推荐技术优化

基于内容的新闻推荐技术优化

【摘要】:目前比较主流的推荐算法有基于协同过滤的推荐和基于内容的推荐等。由于协同过滤是根据用户对新闻的访问记录来进行推荐的,只有被阅读过的新闻才能被推荐,然而新闻的生命周期十分短暂,用户的访问矩阵会相当稀疏,这对于时效性要求比较高的新闻推荐系统是相当严重的缺陷,所以更多采用基于内容的推荐。大多数的基于内容的推荐系统在处理文字类item特征时,都会尝试将一篇文章映射到量空间模型。

随着网络信息量的爆炸性增长,推荐系统成为研究热点,个性化新闻推荐得到了人们的重视,个性化新闻推荐系统纷纷出现。目前比较主流的推荐算法有基于协同过滤的推荐和基于内容的推荐等。由于协同过滤是根据用户对新闻的访问记录来进行推荐的,只有被阅读过的新闻才能被推荐,然而新闻的生命周期十分短暂,用户的访问矩阵会相当稀疏,这对于时效性要求比较高的新闻推荐系统是相当严重的缺陷,所以更多采用基于内容的推荐。

基于内容推荐,分别对新闻和用户建模,然后把与用户历史上阅读的新闻相似的新闻推荐给用户。一般来说新闻和用户建模有两种方式:向量空间模型和浅层语义模型。向量空间模型有词袋模型和词频—逆文档概率(term frequency inverse document frequency,TFIDF),浅层语义模型有概率潜在语义索(probabilistic latent semantic indexing,PLSI)和潜在狄利克雷分布(latent Dirichlet allocation,LDA)。

基于内容的新闻推荐一般有以下三个步骤:新闻特征提取,在新闻的内容中抽取一些特征用于结构化表示新闻;用户画像,即用户建模,利用一个用户过去喜欢(不喜欢)的新闻特征数据来学习并判断出此用户的喜好特征;推荐生成,通过计算前面得到的用户画像与候选新闻的特征相似度,为此用户推荐一组用户喜好最相近的新闻。

大多数的基于内容的推荐系统在处理文字类item特征时,都会尝试将一篇文章映射到量空间模型。在模型中,每一篇文章都被表示为一个n维的向量,每一维都对应词典中的一个词,这时文章会被表示成为一个包含每个词的权重的向量。新闻特征向量生成流程如图9-5所示。

图9-5 新闻特征向量生成流程

为了得到新闻的特征值,首先要对新闻进行分词处理,将其划分成若干词条的组合。将新闻表示为向量空间模型带来了一个问题,即每个词的权重和向量之间的相似度计算,词频—逆文档概率被普遍用在处理各种自然语言的应用中来解决这个问题。

学习一个用户画像就是为用户建模,在这里它可以被看作一个二值分类过程,每一个文本都被分类为喜欢和不喜欢。因此有了一个分类记号:C={c+,c-},其中,c+表示的是正例文本类,c-表示的是负例文本类,利用用户对新闻的历史数据对新闻画像。

推荐是应用用户画像中得到的分类器应用到未知新闻的过程,通过将用户兴趣预测值高于某一阈值的新闻推荐给用户就可以达到很好的效果。