欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
SCI期刊论文
当前位置:首页 > SCI期刊论文
基于联合概率矩阵分解的群推荐方法研究
来源:一起赢论文网     日期:2020-01-20     浏览数:1647     【 字体:

 ommon group number and common group size are considered when measuring the users’interactions.Therefore,a novel group recommendation method based on PMF is proposed andpresented as a prettier way to model the group recommendation problem in this paper.Firstly,the users’correlations are obtained by incorporating the group information into the measurement.Having assumed that the more common groups the users have and the smaller size of the commongroup,the higher similarity of users.Secondly,the users’correlations which contain the groupinformation are incorporated into the PMF model to get a better individual prediction value.Finally,to aggregate the individual prediction values into the recommendation list for the group,the mostly used group aggregation strategies,such as the Average strategy,the Least Miserystrategy,and the Most Pleasure strategy,are utilized in the aggregation phase.All items’aggregation value for a whole group are sorted in the descending order,and the top N items areselected and recommended to the group.To evaluate the effectiveness and the feasibility of theproposed method,the experiments were conducted on the CiteULike dataset.Specially,theresults were evaluated in terms of Precision and Recall,together with two rank-sensitive metrics,i.e.,Mean Average Precision(MAP),and Mean Reciprocal Rank(MRR).After that,severalparameters were discussed including recommendation number,latent factor dimension,andregularization.The experimental results show that the proposed method in this paper hasachieved better results at the evaluation metrics including Precision,Recall,MAP,and MRR.Itis indicated that the proposed method which considering both the PMF model and the groupinformation can efficiently improve recommendation performance.Keywords  group recommendation;user correlation;group information;probabilistic matrixfactorization;aggregation strategy1 引 言随着信息时代的发展,各大社交网络越来越普及,而用户在使用网络的同时,每天会产生大量的用户自主生成内容,用户很难从海量的信息中找到他们感兴趣的信息.虽然搜索引擎是解决该问题的一种方法,但它仅能做到搜索某个特定信息而并不能为每个用户都提供个性化主动信息服务[1].由此,推荐系统应运而生,以解决互联网时代背景下产生的信息过载问题.推荐系统主要基于用户生成的相关数据,以积极的方式为用户查找感兴趣的信息,其将原本目标明确的信息搜索问题转换成更偏向用户使用习惯的信息发现问题,近年来已在信息检索、电子商务以及网络广告等多个领域取得广泛应用,正成为当前研究的热点[1-4].传统推荐系统更多的关注于为个体用户生成推荐列表.然而,随着互联网及社交网络的发展,各大社交网络逐渐出现群组功能,例如,豆瓣社区有各种音乐组、电影组以及读书组等群组[5].社交网络上各种群组的不断涌现,使得用户根据自己的兴趣建立群组或选择群组加入的现象越来越多,用户喜欢与同一群组内的好友共同参与某些活动.这些群组可以增强用户间的交流,提高用户间信息可共享性,减少用户搜寻其感兴趣项目的时间[6].值得注意的是,在推荐过程中群组所扮演的重要角色往往被人们忽略.由于用户通常根据专家的评论或就自己的意见找寻感兴趣的项目,若推荐系统向用户所在的群组直接生成建议则又会在一定程度上简化用户的搜寻过程.因此,面向群 组 的推荐已 成 为当前一 个新的挑战.当前,已有一些研究人员对群推荐问题进行了相关研究.通过综合个体用户的偏好或合成个体用户的推荐结果,可以获得最终群体的推荐结果[7].在针对个体用户的推荐中,协同过滤被广泛使用,因其已被验证是一种较有效的推荐方法.由此,研究者们在解决群推荐问题过程中也运用协同过滤方法.例如,Kim 等学者提出两阶段混 合 推荐书籍 方 法,先利用关键词技术寻找近邻,再利用协同过滤方法生成推荐列表,最后从草拟推荐列表中删除不相关的1期 王 刚等:基于联合概率矩阵分解的群推荐方法研究99ga等人利用协同过滤方法生成群组推荐结果,比较了在协同过滤的四个阶段分别进行合成的群推荐结果的不同[7].Kassak等学者提出一种将协同过滤方法与基于内容的方法相结合的混合方法对群组进行推荐,首先,为每个用户生成协同过滤推荐列表和基于内容的推荐列表,然后使用融合策略解决组冲突,最后得到的协同过滤推荐列表由基于内容的推荐列表重新排序[9].但是,上述群推荐方法仍有一些不足.一方面,传统 的 基 于 内 存 的 协 同 过 滤 方 法 如 UserKNN、ItemKNN 等面临着数据稀疏问题,且可扩展性较弱;另一方面,大部 分已有研究方法在进行群推荐时,群内成 员 间 的 相 互 作 用 关 系 没 有 得 到 很 好 的利用,使得 为 群 组 推 荐 的 结 果 偏 离 实 际 群 内 成 员的偏好.针对数 据稀疏性问 题,一种基于模型的协同过滤方法———矩阵分解,能够利用降维的思想有效缓解此问题[10].然而,目前只有少数研究者在群推荐问题中引入矩阵分解的方法.其次,现有的群推荐方法 假 设 群 内 成 员 是 相 互 独 立 的,而 基 于 群组的成员关系作为一种重要的信息却很少有研究考虑到.基于上述两个问题,本文提出一种基于联合概率矩阵分解的群推荐方法来对群组进行推荐.首先,引入矩阵分解方法作为推荐框架的基础模型;其次,将用户对不同群组的兴趣偏好信息集成到矩阵分解的过程,通过联合概率矩阵分解方法生成个人预测评分;最后,选取群组推荐中的合成策略,合成各组的个人预测评分,产生群组推荐的结果.本文实验利用了 CiteULike数据集,实验结果表明本文所提的方法取得了较好的效果,提升了群推荐的精度.2 相关工作2.1 协同过滤方法协同过滤方法是目前推荐系统中最常用的推荐技术,其主要可以分为两大类:基于内存的方法和基于模型的方法[11].基于内存的协同过滤方法通过用户的历史信息找到用户或项目之间的相似度较高的邻居,根据邻居对项目 的 综 合 评 价,预 测 用 户 对 推 荐 项 目 的 偏好[10-12].相比之下,基于模型的协同过滤方法则主要是通过用户对项目的评分信息训练模型,以获取用户对项目的偏好程度[1,13].其中,矩阵分解作为基于模型的协同过滤方法中的一个代表性方法,因其能够利用降维的方法应对高维稀疏的数据,已被验证是一种表现良好的推荐方法且具有良好的 可扩展性,逐渐成为协同过滤方法中较主流的方法[1,13].其主要思想是将原始用户项目评分矩阵分解为用户的潜在特征矩阵与项目的潜在特征矩阵,减少原始矩阵的维数的同时,对得到的与原始评分矩阵近似的评分矩阵进行分析得出预测结果.目前,常用的矩阵分解方法有许多种,包括 NMF、SVD 等.Mnih等人提出了一种概率矩阵分解(PMF)的方法,探讨了矩阵分解方法更深层的概率解释[14].传统的矩阵分解方法虽然能够缓解数据稀疏问题,但是在矩阵分解中融入社会化信息可能会使该问题得到更进一步缓解.因此,在 Web2.0环境下,一些学者将社交网络中广泛存在的朋友关系、信任关系、标签等社会化信息融入到矩阵分解方法当中,获得了一系列改进的概率矩阵分解方法.虽然矩阵分解方法在个人推荐中被广泛的使用,并且取得了很好的推荐效果.但是,到目前为止,只有少数研究在群推荐问题中采用了矩阵 分解方法,且大部分都没有考虑到群内成员相关性和群大小等群独有的特征对群推荐结果的影响.2.2 群推荐方法面向群组的推荐方法和面向个人的推荐方法在一定程度上存在着较大的差异.一方面,群推荐需要考虑群内每个成员的满意度,尽可能减少群成员的偏好冲突;另一方面,群推荐还需要找寻合适的融合策略,以使群组的意见能够被很好的表示.为此,已有一些研究者针对群推荐这个特殊的问题进行了相关的研究,主要将群推荐方法分为推荐方法融合和推荐结果融合[15].个人推荐系统的工作流程可以分为两个阶段:用户偏好获取和推荐生成.而已有的两类群推荐方法则正好与这两个阶段相对应,推荐方法融合在用户偏好获取阶段进行融合,其首先对群内用户的偏好信息单独进行建模,再将每个群内用户的偏好模型生成整个群的 偏 好模型,最 后,基于群组 偏好模型,使用个人推荐方法获得群推荐结果[7,13].其具体过程如图1所示.而推荐结果融合则在推荐生成的阶段进行融合,首先所有成员的个人推荐结果由个体推荐方法生成,然后,将群组中所有成员的个人推荐结果融合,以获取群推荐结果[7,15].其具体过程如图2所示.根据不同类型的个人推荐结果,推荐结果100 计  算  机  学  报 2019年了评分融合与排序融合[16-17].其中,评分融合是指合成表示为预测评分的个人推荐结果[18],而排序融合是指合成表示为排序列表的个人推荐结果[7,16].目前,群推荐方法中推荐方法融合使用的较多,而其在生成群组推荐结果的过程中受评分稀疏性影响较大,对于不经常评分的用户来说,很难捕捉其真实偏好,因此合成的群偏好模型对该用户是有偏差的[15].而Pessemier等人在统一的平台上利用多个评价指标进行实验发现,在使用基于项目的协同过滤和矩阵分解方法进行群推荐时,推荐结果融合不仅能够有效地缓解数据稀疏性问题,而且有效改善了群推荐的精度[19].由于本文提出的群推荐方法是在矩阵分解方法的基础上进行的,所以本文在进行群推荐时采用推荐结果融合.图 1 推荐方法融合图 2 推荐结果融合尽管上述的推荐方法融合和推荐结果融合各有优缺点,但是由图1和图2可知,除了需要选择进行融合的阶段,融合策略的选择与设计也会对群推荐产生影响[20-21].目前,主要的融合策略包含均值策略、最 小 痛 苦 策 略、Borda 计 数 策 略 和 公 平 策 略等[6,20-27].虽然已有很多研究者设计了很多新颖的融合策略,但是 Pessemier等众多研究者在实验过程中发现,群推荐中融合策略的选择不仅与使用的融合方法相关,还与群推荐所涉及应用领域和实验过程中所用的数据集等其它众多因素相关.综上所述,在已有的协同过滤和群推荐方法的基础上,仅有少部分研究在群推荐问题中用到矩阵分解方法,例如,Ortega等人提出基于 协同过滤的矩阵分解方法为群进行推荐,利用三种策略将用户评分数据合成群特征数据,其中,一种是对用户评分矩阵分解之后将用户特征矩阵合 成为群组特征矩阵;一种是在矩阵分解之前直接将用户的评分合成群的评分,再对其 进 行分解;而 后 者又可以 衍生出另一种方法,在将用户的评分合成群的评分之前,为每个项目 赋 予 不 同 权 重,最 后 对 群 组 评 分 进 行 分解[28].还有部分研究着手于利用成员间的交互信息来进行群推荐,但只从用户成员自身角度考虑,没有从群组关系提供的信息出发,例如,Liu等人提出的PIT模型考虑了群成员的个人喜好和影响,进一步加强了社 交网络信 息 对个人 影 响的发 现[29].Yuan等人提出 COM 概率模型也通过给群成员不同的权重来合成群的偏好,认为与团队相关的专家通常更有影响力[30].基于已有的研究启发,本文考虑了在矩阵分解的过程中融入群组的一些特有信息,并选用了在以前的实验中取得了较好效果的推荐结果融合方法来进行群推荐的研究,其中融合的过程中选用了多种融合策略进行比较,以期实现更有效的群推荐方法.3 问题定义本文根据用户的偏好及用户加入群的信息对群组的偏好进行预测,对本文问题给出形式化的定义如下.首先,系统中 N 个用户由 + ={u1,u2,…,ui,…,uN}表示,M 个项目由 (={v1,v2,…,vj,…,vM}表示,R={Ri,j}N×M指ui对vj的偏好值组成的矩阵.另外,有关群组信 息,系统中 L 个 群组由 , = {g1,g2,…,gl,…,gL}表示,用户加入群组信息的矩阵由G={Gl,i}表示,其中,如果Gl,i=1表示用户ui加入了群gl,否则Gl,i=0.为了对本文方法进行更好的阐述,下面给出一些定义.定义1. 任意两用户ui和um之间共同拥有的群组的集合,称为他们的共同加入群集 GI,则 GIi,m可以表示为1期 王 刚等:基于联合概率矩阵分解的群推荐方法研究110:2017-07-24;在 线 出 版 日 期:2018-06-14.本 课 题 得 到 国 家 自 然 科 学 基 金 (71471054,91646111)、安 徽 省 自 然 科 学 基 金(1608085MG150)资助.王   刚,男,1980 年 生,博 士,教 授,主 要 研 究 领 域 为 商 务 智 能 与 商 务 分 析.E-mail:wgedison@gmail.com.蒋 军,男,1991年生,硕士,主要研究方向为数据挖掘、社会化推荐.王含茹,女,1994年生,硕士研究生,主要研究方向为数据挖掘、社会化推荐.E-mail:wanghanru94@163.com.杨善林,男,1948年生,教授,博士生导师,中国工程院院士,主要研究领域为管理科学与信息系统工程.基于联合概率矩阵分解的群推荐方法研究王 刚 蒋 军 王含茹 杨善林(合肥工业大学管理学院 合肥 230009)摘 要 近年来随着互联网的快速发展,各种虚拟社区不断涌现,用户组成群共同活动的现象逐渐增多,人们开始逐渐关注面向群的推荐.已有的群推荐方法大多是在基于内存的协同过滤推荐方法上进行改进,或是认为组内成员相互独立,忽略了群内成员间的关联关系对群推荐结果的影响.为此,该文提出了一种基于联合概率矩阵分解的群推荐方法,更好地对群推荐问题进行建模.首先,利用用户加入的群的信息计算用户之间的相关性,其次,将用户相关性矩阵融入到概率矩阵分解过程中,得到个人预测评分,最后,利用面向群推荐问题中常用的合成策略对个人预测评分进行融合,得到群对项目的预测评分.进一步将该文提出的方法与现有常用的群推荐方法进行比较,在CiteULike数据集上进行实验,实验结果表明,该文所提出的方法在准确率、召回率等多种评价指标上都取得了更好的推荐结果.关键词 群推荐;用户相关性;群组信息;概率矩阵分解;合成策略中图法分类号 TP18   DOI号 10.11897/SP.J.1016.2019.00098Study of Group Recommendation Based on Probabilistic Matrix FactorizationWANG Gang JIANG Jun WANG Han-Ru YANG Shan-Lin(School of Management,Hefei University of Technology,Hefei 230009)Abstract In recent years,a lot of virtual communities are emerging with the rapid developmentof the Internet.However,with the ever-increasing number of the users and generated information,there is difficult for users to find the valuable interesting information on the Internet.Recommendationsystem has become one of the most important tools to overcome these information overloadproblems.Meanwhile,the users on the virtual communities gradually intend to establish a groupor join certain like-minded groups to facilitate their communication and sharing,which makes thegroup-oriented recommendation being hotter topics in these days.Researchers begin to pay moreattentions to the group recommendation system.On the one hand,existing group recommendationmethods are mostly improved by memory-based Collaborative Filtering (CF)method,but thememory-based CF method is seriously affected by the data sparse problem.On the other hand,the interactions among members in a group have not been effectively utilized in existing grouprecommendation methods,they ignore the influence of the relationships among group memberssince they just considered the group members were independent of each other.Actually,users inthe same group should not be independent but have certain similarities in their preferences.Tosolve these problems,the model-based CF method,i.e.,Probabilistic Matrix Factorization(PMF),is utilized to alleviate the data sparsity problem through adding side information into themodel when predicting individual members’preferences.And the group information including={glGl,i=1∧Gl,m=1,gl∈,} (1)定义2. 如果任意两用户ui和um的共同加入群集GIi,m ≠,那么就认为用户ui和用户um之间有着一定的相关性.根据群组结构信息衡量用户间的关联性,以相关性矩阵S 表示,则其中任意两用户ui和um的相关性Si,m可以表示为Si,m=Sim(ui,um),GIi,m ≠(2)定义3. 将矩阵分解得到的两个低维矩阵分别称为用户潜在特征矩阵U 和项目潜在特征矩阵V.对于任意给定的用户ui∈U 和项目vj∈V,ui对vj的评分Ri,j可以计算为Ri,j≈UTiVj.而用户潜在特征矩阵U 由N 个向量Ui构成,项目潜在特征矩阵V由 M 个向量Vj构成,则评分矩阵应满足:R≈U V (3)定义4. 群预测评分矩阵 RG,用来表示群组对项目的预测评分,行代表群组,列代表项目.给定一个群gl和一个项目vj,选择合适的合成策略函数h(·),对群内每一个用户ui对项目vj的预测评分进行处理,获得群gl对项目vj的预测评分RGl,j,如下所示:RGl,j=h(UiVj),Gl,i=1 (4)综上,为了使文章符号表示更加清晰明确,下面列出文中所用到的符号以及其含义,如表1所示.表 1 符号定义及含义符号定义 含义+ ={u1,u2,…,ui,…,uN} N 个用户的集合( ={v1,v2,…,vj,…,vM} M 个项目的集合R={Ri,j}N×MN×M 阶用户-项目评分矩阵Ri,j 用户ui对项目vj的评分, ={g1,g2,…,gl,…,gL}L 个群的集合|gl| 群gl内包含的成员数目G={Gl,i} 群 -用户信息矩阵Gl,i 用户ui是否加入了群gl,1是,0否|Gi| 用户ui加入的群组数量GIi,m 用户ui和用户um的群组交集|GIi,m| 用户ui和用户um群组交集的数量Si,m 用户ui和用户um的相似性Ui 用户潜在特征向量Vj 项目潜在特征向量RG={RGl,j} 群预测评分矩阵RGl,j 群gl对项目vj的评分ARG 由均值策略获得的群预测评分矩阵LRG 由最小痛苦策略获得的群预测评分矩阵MRG 由最大幸福策略获得的群预测评分矩阵4 基于联合概率矩阵分解的群推荐方法4.1 基于联合概率矩阵分解的群推荐框架本研究在群组推荐过程中引入矩阵分解方法,并以此为基础充分考虑群组的相关特征.本文所提出的方法框架如图3所示.图 3 基于联合概率矩阵分解的群推荐方法框架根据图3可以看出,本文所提方法主要包括以下步骤:(1)衡量用户相关性.用户间的相互关联性由群组及用户包含的信息获 得.其中,用户拥有的群组、用户间拥有的共同群组以及共同群组的个数、规模等信息都被考虑在内.(2)联合概率矩阵分解过程.将上述所得的用户的关联信息集成到原始的评分矩阵分解过程中,进行联合矩阵分解,得到用户对项目的预测评分.(3)群组合成过程.使用常用的合成策略生成群组对项目的预测评分矩阵,根据评分高低选取最终的项目出现在群推荐列表中.120 计  算  机  学  报 2019年个过程通过输入的评分矩阵和用户加入群组的信息,最终为每个群组生成推荐结果.接下来将对上述过程进行详细介绍.4.2 建立基于群信息的用户相关性矩阵在衡量用户的相关性时,现有的群推荐方法往往忽略了用户加入群组所产生的信息在一定程度上会对衡量用户的相关性起作用.比如说两个用户拥有的共同群组越多则可能越相似.为了更好的描述用户之间有关群组信息的关联性,构建群组 -用户二部图,如图4所示.其中,用户间的连线表示两用户拥有着共同的群组,权重 GIi,m则指向共同群组的个数.由此,用户相关性Si,m计算如下:Si,m=GIi,mGi + Gm(5)其中,Gi和 Gm分别表示用户ui和用户um加入的群数目.图 4 群 -用户二部图此外,可能对用户相关性产生一定影响的因素还包括用户之间拥有的共同群组的规模大小.若用户u1和用户u2共同加入的某个群集,规模大小为10,而用户u3和用户u4共同加入的某个群集,规模大小为10 000,那么用户u1、u2应该比用户u3、u4更具有相关性.因此,可以合理的认为,用户之间拥有的共同群组的规模越小,组内成员的相似度越高.由此,可以对用户相关性可以优化为Si,m=1Gi + Gm∑gl∈GIi,m1gl -1(6)其中,gl表示群gl内拥有的成员数目.4.3 联合概率矩阵分解方法本文提出一种联合概率矩阵分解方法,将基于群组结构信息的用户相关性集 成到概率矩阵分解中,具体过程如下:首先,假设评分矩阵 R 中的每个元素Ri,j是相互独立的,且服从于均值为g(UTiVj),方差为σR的高斯分布,据此得到评分矩阵R 的概率分布如下:p(R U,V,σ2R)=∏Ni=1∏Mj=1(N(Ri,j g(UTiVj),σ2R))IRi,j(7)其中,N(x|μ,σ2)表示x的高斯分布,其中均值为μ,方差为σ2.IRi,j表示若用户ui在项目vj上的评分不为空,则IRi,j=1,否则IRi,j=0;g(x)=1/(1+exp(-x)),其目的是将UTiVj的值映射到[0,1]区间内.其次,本研究考虑到用户特征向量要与其相似用户的特征向量近似,由此可得,用户特征矩阵U的高斯先验分布如下:p(U S,σ2U,σ2S)∝p(U σ2U)×p(U S,σ2S)=∏Ni=1N(Ui0,σ2UI)×∏Ni=1N Ui∑Nm =1Si,mUm,σ2S( I)(8)最后,假设项目特征向量vj均服从高斯先验分布,均值为0,如下所示:p(V σ2V)=∏Mj=1N(Vj0,σ2VI) (9)综合以上定义,由贝叶斯推理可得后验概率分布为p(U,V R,S,σ2R,σ2U,σ2S,σ2V)∝p(R U,V,σ2R)p(U S,σ2U,σ2S)p(V σ2V)= ∏Ni=1∏Mj=1(N(Ri,j g(UTiVj),σ2R))IRi,j× ∏Ni=1N(Ui0,σ2UI)×∏Ni=1N Ui∑Nm =1Si,mUm,σ2S( I)× ∏Mj=1N(Vj0,σ2VI) (10)为了便于求解,对上式两边取ln进行处理,可以得到式(11):lnp(U,V R,S,σ2R,σ2U,σ2S,σ2V)=  -12σ2R∑Ni=1∑Mj=1IRi,j(Ri,j-g(UTiVj))2-12σ2S∑Ni=1Ui-∑Nm =1(Si,mU )mTUi-∑Nm =1(Si,mU )( )m-12σ2U∑Ni=1UTiUi-12σ2V∑Mj=1VTjVj-12(N×K)lnσ2U-12∑Ni=1∑Mj=1IRi,( )jlnσ2R-12(N×K)lnσ2S-12(M×K)lnσ2V+C (11)其中,K 为所求的用户和项目特征矩阵的潜在特征维度,并且 C 为 常 数.对 式 (11)进 行 等 价 变 换,如式(12)所示:L(R,S,U,V)=12∑Ni=1∑Mj=1IRi,j(Ri,j-g(UTiVj))2+1期 王 刚等:基于联合概率矩阵分解的群推荐方法研究130+λV2∑Mj=1VTjVj+λS2∑Ni=1Ui-∑Nm =1(Si,mU )mTUi-∑Nm =1(Si,mU )( )m(12)其中,λS=σ2Rσ2S,λU=σ2Rσ2U,λV=σ2Rσ2V.上述目标函数的最小值可由多种方式求得,本文选择最常用的梯度下降方法进行求解,由此,参数Ui和Vj的梯度下降公式如式(13)和(14)所示:LUi=∑Mj=1IRi,j(g(UTiVj)-Ri,j)g′(UTiVj)Vj+λS Ui-∑Nm=1(Si,mU )m-λS∑Nm=1Sm,i Um-∑Nt=1(St,mU )t+λUUi(13)LVj=∑Ni=1IRi,j(g(UTiVj)-Ri,j)g′(UTiVj)Ui+λVVj (14)其中,g′(x)为g(x)的导数且g′(x)=exp(-x)/(1+exp(-x))2.4.4 评分合成本文所提的群推荐方法最后一步则是要对已获得的个人预测评分进行合成,以获取群组评分.由上述联合概率矩阵分解方法可得,用户ui对项目vj的预测评分R⌒i,j为R⌒i,j=∑Kk=1Ui,kVj,k (15)接着,本文选取了均值、最小痛苦和最大幸福三种策略进行融合,得到最终群推荐预测结果,以评分矩阵RG(ARG,LRG,MRG)表示.其中,均值策略是指该组所有成员预测评分的平均值作为该群组的预测评分,其具体计算公式如式(16)所示:ARGl,j=∑ui∈glR⌒i,jgl(16)最小痛苦策略则指的是将群组预测评分与群组内最不满意成员的意见保持一致,即将群组内所有成员评分的最小值当作群组评分,其计算公式如式(17)所示:LRGl,j=Minui∈gl(R⌒i,j) (17)而最大幸福 策 略则是将群组预测评分 与 群 组内最满意成员的意见保持一致,即将群组内所有成员评分的最大值当作群组评分,其计算公式如式(18)所示:MRGl,j=Maxui∈gl(R⌒i,j) (18)最后,由上述三种合 成 策 略 分 别 获 取 到 ARG、LRG、MRG后,再分别形成推荐列表.综上所述,本文提出的方法如下所示.算法1. 基于联合概率矩阵分解的群推荐方法.输入:用户集合+,项目集 合 (,群 集 合 ,,用 户 -项 目 评分矩阵R,群用户信息矩阵G,最大迭代次数I输出:群预测评分RG1.FORi=1,2,…,M2. FOR m=1,2,…,M3.  IF(i!=m)4.   根据式(6)计算用户相关性Si,m=1Gi + Gm∑gl∈GIi,m1gl -15. END FOR6.END FOR7.初始化用户、项目潜在特征矩阵U,V,生成随机矩阵U 和V8.FORiter=1,2,…,I9. FOR each〈i,j〉∈R10.  根据式(13)所求梯度更新Ui=Ui-αLUi11.  根据式(14)所求梯度更新Vj=Vj-αLVj12. END FOR13.END FOR14.根据式(15)计算用户 -项目预测评分矩阵R⌒i,j=∑Kk=1Ui,kVj,k15.FORl=1,2,…,L16. FORj=1,2,…,N17.  根据式(16)利用均值策略计算群预测评分ARGl,j=∑ui∈glR⌒i,jgl18.  根据式(17)利用最小痛苦策略计算群预测评分LRGl,j=Minui∈gl(R⌒i,j)19.  根据式(18)利用最大幸福策略计算群预测评分MRGl,j=Maxui∈gl(R⌒i,j)20. END FOR21.END FOR4.5 时间复杂度分析本文所提方法的时间复杂度计算主要分为三个步骤.首先,衡量用户相关性时,由于系统中有 N 个用户,假定用 户 拥有的群 组数为y-,群规模大小为g-,则计算用户相关性需要的时间为Ο(N×g-×y-).然后,联合概率矩阵分解时,由于融入了用户相关性,假定每个用户评价过t-个项目,每个项目又被r-个用户评价,则每次迭代所需要的时间为 Ο(N×t-×K+N×g-2×y-2×K+M×r-×K).最后,合成评分140 计  算  机  学  报 2019年荐 列 表 时,由 于 个 人 评 分 矩 阵 生 成 的时间复杂度为 Ο(N×M ×K),而合成群组又需要Ο(L×g-×M),因此,这一步骤总共的计算时间复杂度应为Ο(N×M×K+L×g-×M).由于本文方法计算复杂度主要来自于矩阵分解中的迭代过程,且由Ο(N×t-×K+N×g-2×y-2×K+M×r-×K)可以体现,本文所提方法的时间复杂度的增加是线性的,因此其可扩展性较强,并且可以同样适用于数据量较大的情况.5 实验设计5.1 数据集本研究的数据来源于 CiteULike网站,它是能够帮助科研学者们增强学术交流的一个科研社交网站,该网站上的用户可以在浏览和阅读文章时,收藏感兴趣的论文.同时,该网站还允许用户创建科研小组或兴趣小组,邀请同领域或同爱好的其他用户加入,共同分享相关研究并进行交流.因此,CiteULike网站所包含的信息与本研究所需的数据刚好契合,本研究从 该 网 站 爬 取 了 用 户 12 379 个、学 术 文 章1 343 257篇、用户收藏学术文章的信息1 563 838次以及群组4748个.为了保证数据的质量,我们对爬取的原始数据进行了一定的筛选,首先被用户收藏的次数小于2次的学术文章被剔除,进一步,收藏学术文章数 少 于 15 篇 的 用 户 以 及 包 含 用 户 数 少 于2个的群组都被剔除.最后,经过预处理,实验数据集包含用户数为2065个、学术文章数为85542篇以及用户 收 藏 学 术 文 章 的 信 息 198 744 次 和 群 组 数718个.5.2 评价指标本研究选取了 Precision、Recall、MAP 和 MRR作为评价指标.其中,Precision 指的是推荐列表中群真实喜欢的项目占推荐总数的比例.Recall则是群真实喜欢的项目被推荐的比例.MAP,即平均准确率,在测量准确性的同时,也考虑了为该组推荐的项目的排序.MRR,即平均倒数排名,是指在返回的推荐列表中,符合群组偏好 的项目位置越靠前,则推荐结果越好.下面给出了这4个评价标准的具体定义:Precision=R(gl)∩T(gl)R(gl)     (19)Recall=R(gl)∩T(gl)T(gl)(20)MAP=1,∑|,|l=11R(gl)∑|R(gl)|k=1Pre(Rlk) (21)MRR=1,∑|,|l=11rank(Fl)(22)其中,R(gl)表示群组gl的推荐列表集合,T(gl)表示测试集中群内用户喜欢所有项目的集合.Pre(Rlk)表示的 该 项 目 在 推 荐 列 表 和 群gl的 测 试 集 的 交集中的位置,rank(Fl)表示在推荐列表和测试集中第一个共同出现的项目在推荐列表中的排序.上述4个评价指标,可以分别衡量结果的准确性和排序情况,因此,同时考虑以上评价指标对本文 所提的群推荐方法进行评估,可以得到相对客观的评价.5.3 对比方法本研究共选取了12种对比方法衡量本文方法的有效性.其中,UserKNN、SVD 以及 PMF 方法为预测个人 评 分 阶 段 的 对 比 方 法;而 在 为 群 组 合 成个人预测评分的阶段,均值策略、最小痛苦策略和最大幸福策略也同样被作为合成方法.此外,为了与最新的群推荐方法进行对比,本文还选取了 Ortega等人提出的 WBF 方法[28]、Kim 等人提出的 TSBook方法[8]以及 Kassak等人提出的 MultiRec方法[9]加入对 比 实 验.综 上,本 文 提 出 的 对 比 方 法 如 下:以UserKNN 为 基 础 方 法的 群 推 荐 方法 UK_AVG,UK_LM,UK_MP;以 SVD 为基础方法的群推荐方法SVD_AVG;SVD_LM,SVD_MP;以 PMF 为基础方 法 的 群 推 荐 方 法 PMF_AVG,PMF_LM,PMF_MP;文献中最新的群推荐方法 WBF,TSBook,MultiRec.其中,UK_AVG 表示利用 UserKNN 方法和均值策略相结合的群推荐方法;UK_LM 表示利用 UserKNN 和最小痛苦策略相结合的群推荐方法;UK_MP 表示利用 UserKNN 和最大幸 福策略相结合的群推荐方法.对于其他的对比方法,本研究采用了与上述相同的命名方式.5.4 实验流程本研究的实验过程中,矩阵分解的迭代设置为200次,且在 UserKNN 方法中,目标用户的邻居数设置为30个.随后,对实验中的一些参数进行讨论,分别设置了不同的推荐个数、矩阵分解的潜在特征维度以及社会化参数λS,讨论不同参数值对实验结果的影响.本研究将实验数据集进行随机划分,训练集和测试集的划分比例分别为80%和20%,最终的实验结果由十次实验结果的平均值获得.图5展示了本研究整体实验流程.1期 王 刚等:基于联合概率矩阵分解的群推荐方法研究150图 5 实验流程图6 结果分析与讨论6.1 实验结果本研究的实验结果如表 2 所示,其中,取λU=λV=0.001,λS=10,K=10,且推荐个数d=20,表中加粗的数字表示相比之下更优的实验结果.表 2 实验结果方法 Precision/% Recall/% MAP/% MRR/%UK_AVG  4.50  0.95  12.75  15.57UK_LM  2.98  0.84  11.46  13.29UK_MP  4.92  0.93  13.45  15.68SVD_AVG  4.29  0.82  12.52  14.78SVD_LM  2.52  0.56  8.72  10.09SVD_MP  4.14  0.87  13.21  15.32PMF_AVGP  4.35  0.84  12.62  14.90MF_LM  2.56  0.57  8.81  10.14PMF_MP  4.21  0.89  13.42  15.51WBF[28]5.11  0.95  15.21  17.44TSBook[9]4.37  0.87  13.46  15.82MultiRec[10]4.61  0.98  14.53  16.84UPMF_AVG  5.26  1.08  14.92  17.69UPMF_LM  5.16  1.05  14.56  17.32UPMF_MP  5.21  1.08  15.17  18.01表2所示的结果中,UPMF_AVG、UPMF_LM和 UPMF_MP为本文提出的群推荐方法.由表2可以看出:首先,本文所提的三种方法在多个评价指标下均表现较优,进一步表明本文所提的群推荐方法在预测评分时考虑群组相关信息的有效性.其次,在利用 UserKNN、SVD、PMF 和 UPMF 作为基础方法的群推荐方法中,可以看出,作为群合成策略的最小痛苦策略,与其他两种群合成策略对比,在大部分情况下均取得了较差的实验结果,可能的原因是最小痛苦策略利用群内最不满意成员的意见当作群组意见会忽略群内大多数用户都真实感兴趣的文章,因此最小痛苦策略的结果不太理想.此外,本文的基础方法 UPMF在三种群合成策略下的结果相差并不大,进一步表明本文基础方法较 UserKNN、SVD和 PMF具有 更 好 的 稳 定 性.从 WBF 对 比 方 法 来看,其 Precision 和Recall 两个评 价指标均 低于本文提出的 UVPMF 方法,而 MAP 和 MRR 的值非常接近于 UVPMF 方法,甚至高 于 UVPMF.这表明本文的方法在推荐顺序满意度上效果与 WBF 相160 计  算  机  学  报 2019年

[返回]
上一篇:基于离散优化的哈希编码学习方法
下一篇:RDBMS上的声明式递归计算