新闻是有分量的

基于用户画像与新闻词向量的个性化新闻推荐模型

2018-02-13 22:17栏目:传媒

摘要:目前,由于用户行为数据的高维稀疏特点以及衡量新闻内容相似性的复杂度较高,本文针对这两个问题,从分类角度考虑,提出一种基于用户画像与新闻词向量的个性化新闻推荐模型,对用户的行为数据等进行分析,构建用户画像模型,提取用户画像特征,并使用指数衰减模型的Word2Vec框架进行词向量训练,结合文本特征的向量空间模型构建新闻全局特征,预测用户对新闻的行为——点击、不点击,从而将点击概率较高的新闻推荐给用户,提高推荐效果,可广泛应用于新闻门户网站,如人民网、网易新闻等。

关键词:用户画像 词向量 新闻推荐 分类预测

1、引言

随着互联网的迅速发展,用户获取信息的手段越来越便捷和丰富。为了缓解用户信息过载压力,推荐系统广泛应用于各类网站,包括电子商务[1]、、视频音乐网站[2]等等。由于用户个体的差异性,个性化推荐逐渐得到发展与采用。个性化推荐系统通过分析用户的历史信息和行为数据,预测用户兴趣爱好,从而向用户推荐感兴趣或潜在兴趣的信息,并针对不同的用户给出不同的个性化展示页面,以此来提高网站的点击率和收益。

目前常用的推荐算法主要分为三类:基于内容的推荐算法[3]、协同过滤推荐算法[1][4]以及混合推荐算法。这些传统的算法不需要经过训练,重点考虑用户之间的相似度和项目之间的相似度,评估用户对项目的兴趣度,进行排序后产生推荐结果。这些算法无法体现用户潜在的兴趣偏好,推荐的结果多样性不足[5]。同时,由于需要对用户的历史行为数据进行分析。用户的历史数据决定着最终的推荐结果。可是,用户的浏览、转发等行为存在大量的稀疏数据,通过这些高维稀疏数据难以计算出准确的相似用户群体。当两个用户没有对相同的项目评分,他们共同评分的集合数为0,那么即使他们的兴趣偏好非常相似,使用基于用户的协同过滤算法却不能求得他们之间的相似值,同样对于两个项目的属性非常相似,但是却没有共同用户对其进行评过分的情况,也无法使用基于项目的协同锅炉算法求得项目之间的相似性,导致无法有效的推荐。目前,由于对推荐系统的用户和项目信息庞大,其行为数据和评分信息异常稀疏,使得算法计算出的相似性不够准确,进而无法准确计算出目标用户的最近邻居集,导致推荐效果不佳。不仅如此,对于个性化新闻推荐模型,使用基于文档词频或文档逆频率特征的算法无法精准衡量不同类别新闻之间的相似性,导致推荐的结果大同小异,无法挖掘用户的潜在兴趣爱好,降低推荐效果。

针对上述问题,本文提出一种基于用户画像和内容词向量融合特征的个性化新闻推荐模型,分析用户的信息和历史行为数据构建用户画像,并使用改进的Word2Vec词向量训练算法对新闻内容进行训练,有效衡量新闻之间的相似性,进而采用高效分类算法预测用户对其推荐内容的行为——点击、不点击,并按照用户点击概率进行排序,将点击概率较高的新闻内容推荐给用户,这样避免衡量用户高维稀疏数据之间的相似性并能对新闻内容进行有效的特征提取,从而提高推荐效果,可广泛应用于新闻门户网站,例如人民网、新华网等。

2、模型概述

本文从分类角度考虑用户对推荐新闻的态度,对其行为进行预测,能够有效利用用户的历史行为数据,包括用户点击、转发、评价等,将用户的历史点击行为转化为目标结果,能够有大量的数据进行算法训练,提高模型的精度。

本文所采用的模型的步骤如下:

1、对用户的基本信息和用户历史行为数据进行分析,构建相应的用户画像,建立用户的偏好模型,得到用户的融合特征;

2、采用改进的Word2Vec词向量训练算法对新闻语料库训练,得到更加精确的新闻词向量,并对新闻的内容、标题、领域、热度、时间等进行特征融合,从而获得相应新闻的融合特征;

3、由分类算法对用户和新闻的融合特征进行训练建模,预测该用户对相应新闻的行为,并得到用户点击该新闻的概率;

4、得到某一用户对众多新闻的点击概率后,使用Softmax归一化方法对其进行处理,获得用户点击概率较高的新闻,并推荐给用户。

本模型的整体流程如图1所示,模型采用的分类算法可采用目前进行且高效的深度森林[6](gcForest)、XGBoost[7]等,从而对用户的行为进行预测。本模型的重点和难点在于用户画像模型的构建以及采用改进的Word2Vec词向量获取新闻的融合特征。

基于用户画像与新闻词向量的个性化新闻推荐模型

3、用户画像特征的构建