基于用户评论的深度情感分析和多视图协同融合的混合推荐方法 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

基于用户评论的深度情感分析和多视图协同融合的混合推荐方法

来源：一起赢论文网日期：2020-02-03 浏览数：2157 【字体：大中小】

ｕｓｅｒｓ　ｅｘｐｒｅｓｓ　ｔｈｅｉｒ　ｐｒｅｆｅｒｅｎｃｅｓ　ａｓ　ｓｃａｌａｒ　ｒａｔｉｎｇｓ　ｏｎ　ｉｔｅｍｓ．Ｃｏｎｔｅｎｔ－ｂａｓｅｄ　ｒｅｃｏｍｍｅｎｄｅｒ　ｍｅｔｈｏｄｓｒｅｌｙ　ｉｎｓｔｅａｄ　ｏｎ　ｔｈｅ　ｃｏｎｔｅｎｔ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ　ｏｆ　ｉｔｅｍｓ　ｔｏ　ｌｏｃａｔｅ　ｉｔｅｍｓ　ｔｈａｔ　ｈａｖｅ　ｓｉｍｉｌａｒ　ｃｏｎｔｅｎｔ　ｔｏｉｔｅｍｓ　ｔｈｅ　ｔａｒｇｅｔ　ｕｓｅｒ　ｌｉｋｅｄ．Ｈｏｗｅｖｅｒ，ｔｈｅｓｅ　ｍｅｔｈｏｄｓ　ａｒｅ　ｓｔｉｌｌ　ｉｎａｄｅｑｕａｔｅ　ａｎｄ　ｉｔｓ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎｅｆｆｅｃｔ　ｉｓ　ｌｉｍｉｔｅｄ，ｅｓｐｅｃｉａｌｌｙ　ｗｈｅｎ　ｔｈｅ　ｔａｒｇｅｔ　ｕｓｅｒ　ｈａｓ　ｌｉｔｔｌｅ　ｈｉｓｔｏｒｉｃａｌ　ｄａｔａ．Ａｔ　ｐｒｅｓｅｎｔ，ｉｔ　ｉｓ　ａ　ｒｅｃｅｎｔｄｅｖｅｌｏｐｍｅｎｔ　ｔｒｅｎｄ　ｔｏ　ｄｏ　ｐｅｒｓｏｎａｌｉｚｅｄ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｔｈｒｏｕｇｈ　ｆｕｓｉｎｇ　ｍｕｌｔｉ－ｖｉｅｗ　ｏｆ　ｉｎｔｅｒｅｓｔｐｒｅｆｅｒｅｎｃｅｓ　ｔｏ　ｂｕｉｌｄ　ｔｈｅ　ｈｙｂｒｉｄ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｍｏｄｅｌ，ｗｈｉｃｈ　ｕｓｕａｌｌｙ　ｍａｋｅｓ　ｐｅｒｓｏｎａｌｉｚｅｄ　ｒｅｃｏｍ－ｍｅｎｄａｔｉｏｎ　ｗｉｔｈ　ｕｓｅｒ－ｉｔｅｍ　ｉｎｔｅｒａｃｔｉｏｎ　ｒａｔｉｎｇｓ，ｉｍｐｌｉｃｉｔ　ｆｅｅｄｂａｃｋ　ａｎｄ　ａｕｘｉｌｉａｒｙ　ｉｎｆｏｒｍａｔｉｏｎ　ｉｎ　ｈｙｂｒｉｄｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｓｙｓｔｅｍ．Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ａ　ｎｏｖｅｌ　ｈｙｂｒｉｄ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ａｌｇｏｒｉｔｈｍ　ｉｓ　ｐｒｏｐｏｓｅｄｔｈａｔ　ｂａｓｅｄ　ｏｎ　ｄｅｅｐ　ｓｅｎｔｉｍｅｎｔ　ａｎａｌｙｓｉｓ　ｏｆ　ｕｓｅｒ　ｒｅｖｉｅｗｓ　ａｎｄ　ｍｕｌｔｉ－ｖｉｅｗ　ｃｏｌｌａｂｏｒａｔｉｖｅ　ｆｕｓｉｏｎ．Ｆｏｒｔｈｅｓｅ　ｐｒｏｂｌｅｍｓ　ｔｈａｔ　ｉｔ　ｉｓ　ｄｉｆｆｉｃｕｌｔ　ｔｏ　ａｎａｌｙｚｅ　ｕｓｅｒ　ｒｅｖｉｅｗｓ’ｓｅｎｔｉｍｅｎｔ　ａｎｄ　ｉｔｅｍｓ　ｃｏｎｔｅｎｔ’ｓｅｍａｎｔｉｃｓ，ａｎｄ　ａ　ｓｉｎｇｌｅ　ｖｉｅｗ　ｏｆ　ｔｈｅ　ｒｅｃｏｍｍｅｎｄｅｄ　ｍｏｄｅｌ　ｌｅａｄ　ｔｏ　ｕｓｅｒ　ｐｒｏｆｉｌｅ　ｉｓ　ｅｘｔｅｎｓｉｖｅ，ｗｅ　ｕｓｅ　Ｗｏｒｄ２ｖｅｃ　ｔｏｃｈａｒａｃｔｅｒｉｚｅ　ｔｈｅ　ｓｈｏｒｔ　ｔｅｘｔｓ　ｏｆ　ｕｓｅｒ　ｒｅｖｉｅｗｓ　ａｎｄ　ｃｏｍｂｉｎｅ　ｌｏｎｇ　ｓｈｏｒｔ－ｔｅｒｍ　ｍｅｍｏｒｙ　ｎｅｔｗｏｒｋｓ　ｔｏｒｅａｌｉｚｅ　ｔｈｅ　ｓｅｎｔｉｍｅｎｔ　ａｎａｌｙｓｉｓ　ｏｆ　ｔｈｅ　ｕｓｅｒ　ｒｅｖｉｅｗ　ｏｎ　ｔｈｅ　ｃｏｎｔｅｘｔ　ｓｅｍａｎｔｉｃ　ｌｅｖｅｌ．Ａｔ　ｔｈｅ　ｓａｍｅ　ｔｉｍｅ，ａ　ｓｅｎｔｉｍｅｎｔ　ｆｕｓｉｏｎ　ｍｅｔｈｏｄ　ｂａｓｅｄ　ｏｎ　ｏｐｉｎｉｏｎ　ｐｒｅ－ｆｉｌｔｅｒｉｎｇ　ａｎｄ　ｕｓｅｒ　ｒａｔｉｎｇ　ｅｍｂｅｄｄｉｎｇ　ｉｓ　ｐｒｏｐｏｓｅｄ，ａｎｄ　ａｎ　ｅｍｂｅｄｄｅｄ　ｎｅｔｗｏｒｋ　ｓｔｒｕｃｔｕｒｅ　ｉｓ　ｄｅｓｉｇｎｅｄ　ｆｏｒ　ｄｅｅｐ　ｓｅｍａｎｔｉｃ　ａｎａｌｙｓｉｓ　ａｎｄ　ｓｅｎｔｉｍｅｎｔ　ｃａｌｃｕｌａｔｉｏｎｏｆ　ｕｓｅｒ’ｓ　ｒｅｖｉｅｗ．Ｔｈｅ　ｐｒｏｐｏｓｅｄ　ｍｅｔｈｏｄ　ｗｉｌｌ　ｓｏｌｖｅ　ｔｈｅ　ｐｒｏｂｌｅｍ　ｔｈａｔ　ｔｈｅｒｅ　ｉｓ　ａ　ｇｒｅａｔ　ｄｅｖｉａｔｉｏｎｂｅｔｗｅｅｎ　ｔｈｅ　ｕｓｅｒ’ｓ　ｒａｔｉｎｇ　ａｎｄ　ｒｅａｌ　ｉｎｔｅｒｅｓｔ　ｐｒｅｆｅｒｅｎｃｅ，ａｎｄ　ａｌｓｏ　ｓｏｌｖｅ　ｔｈｅ　ｅｘｔｒｅｍｅ　ｉｍｂａｌａｎｃｅｐｒｏｂｌｅｍ　ｏｆ　ｔｈｅ　ｕｓｅｒ　ｒａｔｉｎｇ　ｄｉｓｔｒｉｂｕｔｉｏｎ．Ｉｎ　ａｄｄｉｔｉｏｎ，ｗｅ　ｕｓｅ　ｔｈｅ　ｄｉｓｔｒｉｂｕｔｅｄ　ｖｅｃｔｏｒ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆ　ｐａｒａｇｒａｐｈ　ｔｏ　ｃｈａｒａｃｔｅｒｉｚｅ　ｔｈｅ　ｓｈｏｒｔ　ｔｅｘｔ　ｏｆ　ｔｈｅ　ｉｔｅｍ’ｓ　ｔｅｘｔ　ｄｅｓｃｒｉｐｔｉｏｎ，ｓｏ　ａｓ　ｔｏ　ｒｅａｌｉｚｅ　ｔｈｅｓｉｍｉｌａｒｉｔｙ　ｃａｌｃｕｌａｔｉｏｎ　ｏｆ　ｔｈｅ　ｉｔｅｍ’ｓ　ｃｏｎｔｅｎｔ．Ｗｅ　ｄｅｓｉｇｎ　ａ　ｍｅｔｈｏｄ　ｔｏ　ｍｅａｓｕｒｅ　ｔｈｅ　ｓｉｍｉｌａｒｉｔｙ　ｏｆｃａｎｄｉｄａｔｅ　ｉｔｅｍｓ　ａｎｄ　ｃａｌｃｕｌａｔｅ　Ｋｎｅａｒｅｓｔ　ｎｅｉｇｈｂｏｒ　ｉｔｅｍｓ，ｗｈｉｃｈ　ｓｏｌｖｅｓ　ｔｈｅ　ｐｒｏｂｌｅｍ　ｔｈａｔ　ｔｈｅ　ｉｔｅｍ’ｓｃｏｎｔｅｎｔ　ｉｎｆｏｒｍａｔｉｏｎ　ｉｓ　ｎｏｔ　ｅａｓｙ　ｔｏ　ｍｉｎｅ　ａｎｄ　ｕｓｅ　ｉｎ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｓｙｓｔｅｍ．Ｆｉｎａｌｌｙ，ａ　ｆｕｓｉｏｎｍｅｔｈｏｄ　ｏｆ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｖｉｅｗ　ｂａｓｅｄ　ｏｎ　ｃｏｌｌａｂｏｒａｔｉｖｅ　ｔｒａｉｎｉｎｇ　ｉｓ　ｐｒｏｐｏｓｅｄ，ｗｈｉｃｈ　ｉｎｔｅｇｒａｔｅｓｕｓｅｒ　ｒａｔｉｎｇｓ，ｓｅｎｔｉｍｅｎｔ　ｐｒｅｆｅｒｅｎｃｅｓ　ａｎｄ　ｉｔｅｍ’ｓ　ｃｏｎｔｅｎｔ　ｉｎｆｏｒｍａｔｉｏｎ．Ｉｔ　ｃａｎ　ｆｉｌｌ　ａｎｄ　ｍｏｄｉｆｙ　ｔｈｅｓｐａｒｓｅ　ｕｓｅｒ　ｒａｔｉｎｇｓ　ｍａｔｒｉｘ，ａｎｄ　ｔｈｅｎ　ｒｅａｌｉｚｅ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ｒａｔｉｎｇｓ　ｐｒｅｄｉｃｔｉｏｎ．Ｉｔ　ｓｏｌｖｅｓｔｈｅ　ｐｒｏｂｌｅｍ　ｔｈａｔ　ｍｕｌｔｉ－ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｖｉｅｗｓ　ｗｉｔｈ　ｄｉｆｆｅｒｅｎｔ　ｉｎｔｅｒｅｓｔｓ　ａｎｄ　ｐｒｅｆｅｒｅｎｃｅｓ　ａｒｅ　ｄｉｆｆｉｃｕｌｔｔｏ　ｆｕｓｅ　ｉｎ　ｈｙｂｒｉｄ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｓｙｓｔｅｍ，ａｎｄ　ｓｏｌｖｅｓ　ｔｈｅ　ｐｒｏｂｌｅｍ　ｏｆ　ｌａｃｋ　ｏｆ　ｓｕｆｆｉｃｉｅｎｔ　ｌａｂｅｌｅｄ　ｄａｔａｆｏｒ　ｍｏｄｅｌｉｎｇ　ｉｎ　ａ　ｃｅｒｔａｉｎ　ｄｅｇｒｅｅ．Ｗｅ　ｃｏｎｄｕｃｔ　ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔｓ　ｏｎ　Ａｍａｚｏｎ　ｐｒｏｄｕｃｔ　ｄａｔａｓｅｔ，ａｎｄｃｏｍｐａｒｅ　ｏｕｒ　ａｌｇｏｒｉｔｈｍ　ｗｉｔｈ　ａ　ｖａｒｉｅｔｙ　ｏｆ　ｃｌａｓｓｉｃ　ａｎｄ　ｓｔａｔｅ－ｏｆ－ｔｈｅ－ａｒｔ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ａｌｇｏｒｉｔｈｍｓ．Ｓｐｅｃｉａｌｌｙ，ｔｈｅ　ｒｅｓｕｌｔｓ　ａｒｅ　ｅｖａｌｕａｔｅｄ　ｉｎ　Ｍｅａｎ　Ｓｑｕａｒｅｄ　Ｅｒｒｏｒ，Ｈｉｔ　Ｒａｄｉｏ，ａｎｄ　Ｎｏｒｍａｌｉｚｅｄ　ＤｉｓｃｏｕｎｔｅｄＣｕｍｕｌａｔｉｖｅ　Ｇａｉｎ．Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔ　ｒｅｓｕｌｔ　ｓｈｏｗｓ　ｔｈａｔ　ｔｈｅ　ａｌｇｏｒｉｔｈｍ　ｐｒｏｐｏｓｅｄ　ｉｎ　ｔｈｉｓ　ｐａｐｅｒ　ｈａｓ　ａｓｉｇｎｉｆｉｃａｎｔ　ｅｆｆｅｃｔ　ｉｎ　ｍｉｎｉｎｇ　ｕｓｅｒ’ｓ　ｓｅｎｔｉｍｅｎｔ．Ｏｎ　ｔｈｅ　ｔｅｎ　ｒｅｃｏｍｍｅｎｄｅｄ　ｄａｔａｓｅｔｓ，ｏｕｒ　ａｌｇｏｒｉｔｈｍｈａｓ　ａｌｓｏ　ａ　ｓｉｇｎｉｆｉｃａｎｔ　ｉｍｐｒｏｖｅｍｅｎｔ　ｉｎ　ｔｈｅ　ａｃｃｕｒａｃｙ　ｏｆ　ｔｈｅ　ｓｃｏｒｅ　ｐｒｅｄｉｃｔｉｏｎ　ａｎｄ　ＴｏｐＮｐｅｒｆｏｒｍａｎｃｅｏｆ　ｔｈｅ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｓｙｓｔｅｍ　ｉｎ　ｄｉｆｆｅｒｅｎｔ　ｄｅｇｒｅｅｓ．Ｋｅｙｗｏｒｄｓ　ｈｙｂｒｉｄ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ；ｄｉｓｔｒｉｂｕｔｅｄ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ；ｓｅｎｔｉｍｅｎｔ　ａｎａｌｙｓｉｓ；ｃｏｌｌａｂｏｒａｔｉｖｅｔｒａｉｎｉｎｇ；ｓｃｏｒｉｎｇ　ｍａｔｒｉｘ１　引　言随着电子商务和社交网络等信息技术的迅速发展，“信息超载”成为困扰人们网络生活的主旋律．个性化推荐作为一种帮助用户快速搜寻有用信息的有效工具，越来越受到人们的青睐．伴随而来的，各种推荐算法如雨后春笋般出现．纵观推荐算法的发展历程，协同过滤和隐语义模型［１］是推荐系统发展早期较流行的算法，其在过去十多年间得到了长足发展．鉴于深度学习技术在人工智能诸多应用中取得的显著成效，基于深度学习的推荐模型也逐渐成为研究者追逐的焦点［２－３］．目前，用户评分矩阵（ＲａｔｉｎｇＭａｔｒｉｘ）仍然是大多数推荐系统利用的主要行为偏６期张宜浩等：基于用户评论的深度情感分析和多视图协同融合的混合推荐方法３１７１息［４］，但基于用户评论［５］、用户隐式反馈［６］、物品内容信息［７］的推荐越来越受到人们的关注，然而受文本挖掘、用户行为分析等方面的制约，这些方面研究取得的进展并不十分令人满意，但它们在解决推荐系统的推荐准确性、冷启动、可解释性等方面具有重要的潜力．在推荐算法的发展历程中，一种传统的为研究者推崇的是协同过滤算法，其目标是将用户和物品间的二元关系转化为评分预测问题，然后依据用户对物品的评分进行协同过滤或排序［８］，进而产生推荐列表．随后大量的研究工作发现，由于受用户评分真实性的制约以及评分矩阵稀疏性的影响，依据用户评分产生的推荐结果并不能准确地体现用户的兴趣偏好［８－９］．基于此，研究者们做了大量的后续工作．Ｚｈａｎｇ等人［１０］通过比较用户评分和评论文本的情感倾向，指出用户评分并不能真实反映用户评论的情感倾向．扈中凯等人［５］对用户评分进行统计分析，发现用户对物品的评分比较随意、且评分等级分布极度不均衡（如图１中的统计数据［５］，评分等级为５分的占９６．２％，评分等级为４分的占３．５％，评分等级为１～３分的仅占０．３％）．同时，本文对实验中来自亚马逊１９９５年至２０１３年的Ａｕｔｏｍｏｔｉｖｅ等１０个数据集的４　１２０　９４８条用户评论数据进行统计分析，得出类似的结论，即用户的评分等级分布极度不均（评图１　用户评分等级分布图分等级为１～５分的分别占比４．８％、４．４％、９．０％、２１．７％、６０．１％）．研究表明，这种评分分布极度不均衡的状况给协同过滤推荐造成了极大的困扰．陈龙等人［１１］对用户评论的情感倾向进行分析，发现商品评论的评分是一种弱标注标签，即评论中可能存在实际情感语义与评分不一致的情况（如一条５星级的评分对应的评论中仍然存在负面描述）．这种情感语义与评分不相符的标注数据称为噪声数据．研究表明这种噪声数据会对协同过滤的推荐结果产生较大的负面影响．在基于内容的推荐方面，物品内容的描述文本信息是一个重要的推荐依据．基于内容的推荐能有效解决系统的冷启动问题［１２］，且不受打分稀疏性的约束，能够发掘隐藏的“暗信息”，具有良好的用户体验，因此受到广泛的关注．然而，针对物品内容的短文本自然语言描述（通常较短且零散），无足够的信息量供机器进行统计推断，这给物品内容的语义理解带来了巨大困难．当前，利用深度学习技术融合多源异构数据［１３］、融合评分矩阵及评论文本［１４］、融合多特征的协同推荐［１５］成为研究的热点．本文在上述研究的基础上，针对推荐系统中用户评分分布的不均衡及多推荐视图不易融合的问题，提出了基于用户评论的深度情感分析与多视图协同融合的混合推荐方法（ＨＲＳＭ算法），此处多视图即推荐系统中的多维度推荐因素．本文的混合推荐方法融合了用户评分矩阵、用户评论文本、物品的内容描述信息等三个推荐视图．与传统的加权融合和级联型等混合方法不同，本文设计了一种基于协同训练的推荐算法，实现用户评分的行为视图和物品描述的内容视图的融合．本文主要贡献在于提出了基于协同训练的多推荐视图融合的评分预测方法，并探讨了利用基于深度学习的自然语言处理技术对推荐系统中用户评论文本等辅助信息进行整合的技巧．本文的创新主要体现在以下３个方面：（１）提出基于协同训练的推荐视图融合方法．设计了一种基于协同训练的融合用户评分、情感偏好和物品内容信息的推荐算法，实现对稀疏的用户评分矩阵的循环填充和修正，进而实现基于评分预测的推荐．解决了混合推荐系统中不同兴趣偏好的多推荐视图不易融合的问题，同时在一定程度上解决了推荐系统建模中缺乏足够的有标签数据问题；（２）提出基于观点预过滤和基于用户评分嵌入的情感融合方法．设计一种嵌入的网络结构实现从上下文层面对用户评论进行深层语义分析和情感计算，并比较其在挖掘用户评论信息方面的效果．解决了推荐系统中用户原始评分与真实兴趣偏好存在偏差且评分等级分布不均衡的问题；（３）研究在推荐系统建模中融合多种自然语言处理技术的技巧．本文利用分布式的段落向量表征对物品内容描述的短文本进行相似度计算，并设计度量候选物品相似性的计算方法及计算Ｋ个最近３１８１计　　算　　机　　学　　报２０１９年品的方法，解决了推荐系统中物品内容的文本描述信息不易挖掘和利用的问题．２　相关工作在协同过滤推荐中，基于用户历史评分数据的推荐算法通常面临着数据稀疏的问题，而这种稀疏的用户评分通常会导致推荐质量下降［１６］；此外，原始数据的不完整及算法本身处理数据的特殊性，也会导致最终推荐效果不理想［１７］．当前，基于用户评论、用户隐式反馈挖掘的推荐研究受到了高度的重视，但其受文本挖掘和情感分析等技术的困扰．田超等人［１８］通过整合网上商城的用户评论进行情感分析，实现ＳｕｐｅｒＲａｎｋ智能推荐系统原型．Ｓｈｍｕｅｌｉ等人［１９］将用户评论信息作为协同过滤推荐的依据，并将其和内容信息并入因子模型中进行混合推荐．Ｚｈａｎｇ等人［２０］研究用户评论作弊对推荐系统的制约，提出了一种基于可疑行为扩散的统一框架，使得系统人员不需要关心具体的作弊方法就能以较高的准确率识别作弊用户以及作弊行为．Ｗａｎｇ等人［２］针对评分数据在应用中的稀疏性问题，提出结合物品内容的深度表示及协同训练构建评分矩阵．Ｗｕ等人［２１］通过对Ｓｔａｃｋｅｄ　Ｄｅｎｏｉｓｉｎｇ　Ａｕｔｏｅｎｃｏｄｅｒｓ进行扩展来提高评分预测的精确度．Ｃｈｅｎ等人［２２］归纳总结了各种各样的基于评论的推荐方法，通过将用户生成的有价值的评论信息融入用户建模和推荐过程中，实现对用户评论推荐因素的挖掘，包括考虑评论的有用性、评论的主题、评论的总体观点、评论的内容、评论的情感等．为了充分挖掘推荐系统中用户评论的上下文信息，以及减少评论中无关信息对推荐准确性的影响．Ｚｈａｎｇ等人［２３］提出了一种协同多级嵌入模型，它利用一个投影层将词嵌入模型整合进标准的评分矩阵模型中来解决上述两个局限．Ｚｈａｎｇ等人［２４］提出一种深度协同神经网络（ＤｅｅｐＣｏＮＮ），在网络的最后一层中耦合两个并行的神经网络来实现混合推荐，其中一个网络学习用户评论的行为信息，另外一个网络从用户评论中学习物品的属性信息．Ｃｈｅｎ等人［２５］通过引入一种新颖的注意力机制挖掘用户评论的有用性信息，提出了基于神经注意回归模型的推荐系统，可以预测精确的评分及每条评论的有用性．Ｈａｎ等人［２６］从异构信息网络中提取不同层面的特征，利用精心设计的深度神经网络来学习各个层面的潜在因子，然后将其融合到一个注意力机制中实现协同过滤推荐．在推荐系统中，通过对真实数据分析也表明：用户评分往往与用户的兴趣偏好存在着较大的偏差，而用户评论等短文本信息可能更真实地反映了用户的兴趣偏好，故对用户评论的短文本的语义理解和情感挖掘是解决推荐系统中用户评分不真实、分布不均的重要途径［５，１８］．在基于内容的推荐中，物品的内容信息是一个重要的推荐依据，它也是用来解决推荐系统中冷启动问题的重要途径，但这种推荐方法会受到信息获取技术的约束．在众多的物品内容表现形式中，一种重要的形式是商家对物品的自然语言描述，传统的自然言语处理技术（如Ｂａｇ　ｏｆ　Ｗｏｒｄｓ）将文本表示成一个Ｗ维的独热向量，该表示方法缺点非常明显，其假设所有对象都是相互独立的，容易受到数据稀疏问题的影响［２７］；同时，这种自然语言处理技术不能从语义层面对物品的内容信息进行分析，因此对物品内容的短文本进行语义理解和相似度计算是解决问题的关键．在对短文本的语义理解方面，研究者做了大量的工作．Ｗａｎｇ等人［２８］利用语义聚类和卷积神经网络对短文本进行建模，并在模型中使用预训练的词嵌入来引入额外知识．王仲远等人［２９］归纳了当前比较流行的短文本语义理解模型：隐性模型、半显性模型、显性模型．Ｍａ等人［３０］提出一个新颖有效的框架，利用社会化媒体的内容信息来实现评分预测．Ｌｉａｎ等人［３１］提出了一个深度混合模型来提高个性化新闻推荐系统的表征学习能力．基于内容的推荐是依据用户喜爱的物品内容信息找到相似物品进行推荐，当前较流行的做法是利用信息检索中的相关理论、方法与技术来实现对物品内容信息的建模．由于评分（ｒａｔｉｎｇ）相对于物品（ｉｔｅｍ）的稀疏性，基于模型的推荐通常缺乏足够的有标签数据［３２］．半监督学习作为一种同时利用有标签数据和无标签数据建模，来改进系统性能的学习策略，在推荐系统建模中得到较广泛的应用［３３－３４］．鉴于推荐系统中各个推荐因素相对独立的特点，其很容易被划分为多个“充分冗余视图”，为利用协同训练策略构建推荐预测模型创造了天然的条件．Ｗｕ等人［３３］利用无标签和有标签用户信息（Ｕｓｅｒ　Ｐｒｏｆｉｌｅ）构建一个多分类模型，实现了一个半监督混合推荐系统（ＨｙＳＡＤ）．Ｚｈａｎｇ等人［３４］提出了一个基于上下文感知的半监督协同训练方法，来解决推荐系统中的冷启动问题．Ｄｉｎｇ等人［３５］将视图数据集成到基于隐式反馈的推荐系统中，以挖掘购买等主要反馈数据以外的隐藏偏好信息．Ｗａｎｇ等人［３６］提出一种６期张宜浩等：基于用户评论的深度情感分析和多视图协同融合的混合推荐方法３１９１收稿日期：２０１８－０５－２０；在线出版日期：２０１９－０３－０５．本课题得到国家自然科学基金（６１７０２０６３）、重庆市基础科学与前沿技术研究重点专项（ｃｓｔｃ２０１７ｊｃｙｊＢＸ００５９）资助．张宜浩，博士，副教授，中国计算机学会（ＣＣＦ）会员，主要研究方向为推荐系统、机器学习、自然语言处理．Ｅ－ｍａｉｌ：ｙｈｚｈａｎｇ＠ｃｑｕｔ．ｅｄｕ．ｃｎ．朱小飞，博士，教授，中国计算机学会（ＣＣＦ）会员，主要研究领域为大数据搜索与推荐、Ｗｅｂ挖掘、机器学习．徐传运，博士，副教授，中国计算机学会（ＣＣＦ）会员，主要研究方向为机器学习、图像处理．董世都，博士，副教授，中国计算机学会（ＣＣＦ）会员，主要研究方向为机器学习、图像处理．基于用户评论的深度情感分析和多视图协同融合的混合推荐方法张宜浩１）　朱小飞２）　徐传运１）　董世都１）１）（重庆理工大学两江人工智能学院　重庆　４０００５４）２）（重庆理工大学计算机科学与工程学院　重庆　４０００５４）摘　要　目前，大多数推荐技术使用用户评分来推断用户偏好．当有充足的评分信息时，协同过滤技术表现良好．然而，评分数据普遍存在着稀疏性，或者难以让用户将其偏好表示为对物品的评分等级，故有效性受到限制．基于内容的推荐方法依据物品的内容来寻找与目标用户喜欢的物品内容相似的物品．在目标用户没有充足的历史数据的情况下，该方法仍然不充分，其推荐效果也很有限．当前，融合多视图的兴趣偏好信息构建混合推荐系统是个性化推荐研究发展的趋势．混合推荐系统通过融合用户物品的交互评分、隐式反馈和辅助信息进行个性化推荐，故本文提出了一种新颖的基于用户评论的深度情感分析和多视图协同融合的混合推荐方法．针对用户评论、物品内容描述等短文本的情感及语义难以分析，单一推荐视图易导致对用户画像建模粗放等问题，本文利用词向量对用户评论的短文本进行分布式表征，并结合长短期记忆网络实现从上下文语义层面对用户评论的情感进行分析．同时，本文提出基于观点预过滤和基于用户评分嵌入的情感融合方法，设计了一种嵌入的网络结构对用户评论进行深层语义分析和情感计算，以解决用户评分与真实兴趣偏好存在较大偏差、评分等级分布极度不均衡等问题．此外，本文利用分布式的段落向量表征对物品内容描述的短文本进行相似度计算，并设计了候选物品相似性的计算方法及度量Ｋ个最近邻物品的方法，解决了推荐系统中物品的内容信息不易挖掘和利用的问题．最后，本文提出了一种基于协同训练的融合用户评分、情感倾向和物品内容信息的混合推荐算法，实现对稀疏的用户评分矩阵的循环填充和修正，进而实现基于评分预测的ＴｏｐＮ推荐．该方法解决了混合推荐系统中不同兴趣偏好的多推荐视图难以融合的问题，同时在一定程度上解决了推荐系统建模中缺乏足够的有标签数据问题．本文在亚马逊数据集上进行实验，与多种经典的和当前先进的推荐算法进行性能对比，采用平方误差、命中率和标准化折扣累积增益进行性能评价．实验结果表明，本文提出的算法在挖掘用户情感上效果显著；在１０个推荐数据集上，系统的评分预测和ＴｏｐＮ推荐指标皆有不同程度的显著改进．关键词　混合推荐；分布式表征；情感分析；协同训练；评分矩阵中图法分类号ＴＰ３９１　　　ＤＯＩ号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０１９．０１３１６Ｈｙｂｒｉｄ　Ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　Ａｐｐｒｏａｃｈ　Ｂａｓｅｄ　ｏｎ　Ｄｅｅｐ　Ｓｅｎｔｉｍｅｎｔ　Ａｎａｌｙｓｉｓ　ｏｆＵｓｅｒ　Ｒｅｖｉｅｗｓ　ａｎｄ　Ｍｕｌｔｉ－Ｖｉｅｗ　Ｃｏｌｌａｂｏｒａｔｉｖｅ　ＦｕｓｉｏｎＺＨＡＮＧ　Ｙｉ－Ｈａｏ１）　ＺＨＵ　Ｘｉａｏ－Ｆｅｉ　２）　ＸＵ　Ｃｈｕａｎ－Ｙｕｎ１）　ＤＯＮＧ　Ｓｈｉ－Ｄｕ１）１）（Ｓｃｈｏｏｌ　ｏｆ　Ｌｉａｎｇｊｉａｎｇ　Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，Ｃｈｏｎｇｑｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｔｅｃｈｎｏｌｏｇｙ，Ｃｈｏｎｇｑｉｎｇ　４０００５４）２）（Ｃｏｌｌｅｇｅ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｃｈｏｎｇｑｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｔｅｃｈｎｏｌｏｇｙ，Ｃｈｏｎｇｑｉｎｇ　４０００５４）Ａｂｓｔｒａｃｔ　Ｃｕｒｒｅｎｔｌｙ，ｍｏｓｔ　ｒｅｃｏｍｍｅｎｄｅｒ　ｔｅｃｈｎｉｑｕｅｓ　ｕｓｅ　ｕｓｅｒ　ｒａｔｉｎｇｓ　ｔｏ　ｉｎｆｅｒ　ｕｓｅｒ　ｐｒｅｆｅｒｅｎｃｅｓ．Ｃｏｌｌａｂｏｒａｔｉｖｅ　ｆｉｌｔｅｒｉｎｇ　ｔｅｃｈｎｉｑｕｅｓ　ｐｅｒｆｏｒｍ　ｗｅｌｌ　ｗｈｅｎ　ｔｈｅｒｅ　ｉｓ　ｓｕｆｆｉｃｉｅｎｔ　ｒａｔｉｎｇ　ｉｎｆｏｒｍａｔｉｏｎ．Ｈｏｗｅｖｅｒ，ｔｈｅｉｒ　ｅｆｆｅｃｔｉｖｅｎｅｓｓ　ｉｓ　ｌｉｍｉｔｅｄ　ｂｅｃａｕｓｅ　ｏｆ　ｔｈｅ　ｒａｔｉｎｇ　ｓｐａｒｓｉｔｙ　ｐｒｏｂｌｅｍ，ｏｒ　ｔｈｅ　ｄｉｆｆｉｃｕｌｔｙ　ｉｎ　ｌｅｔｔｉｎｇ基于树增强的嵌入方法，来学习显式的决策规则和不可见的交叉特征，使推荐过程更加透明且有解释性．３　基于协同训练的混合推荐系统模型鉴于上述对推荐系统研究现状的论述，本文提出了一种基于用户评论的深度情感分析与多源推荐视图协同融合的混合推荐方法．一方面，我们通过挖掘用户评论的情感倾向，以实现对用户原始评分偏离用户真实兴趣偏好的纠正，采用观点预过滤（ｏｐｉｎｉｏｎ　ｐｒｅ－ｆｉｌｔｅｒｉｎｇ）方法［３７］实现对用户的情感倾向和原始评分等级的综合度量，为基于物品的协同过滤推荐模型提供更加精确的反映用户真实兴趣偏好的综合评分数据．另一方面，我们对物品内容描述的文本信息进行挖掘，利用神经网络的方法将其表示成为分布式的段落向量，实现对物品内容的相似度计算，进而构建基于物品内容的推荐模型．最后，本文利用协同训练策略实现对两个推荐视图的融合，并在协同训练中增加了基于置信度估计与聚类分析的数据选择策略，尽量消除迭代训练中加入到训练数据池中的数据分布偏差．在此基础上，利用协同训练模型输出的评分矩阵和物品的相似度，对初始推荐结果进行过滤和排序，从而得到最终推荐结果．基于协同训练的混合推荐系统框架如图２所示．图２　基于协同训练的混合推荐系统框架３．１　用户评论的情感分析３．１．１　用户评论文本的分布式向量表示通过对推荐系统中的用户评论文本进行统计分析，发现其呈现形式通常是关键词和短文本．研究表明，这些短文本信息通常与长文本的处理方法不尽相同．短文本具有长度短、语法不规则的特点，且亦无足够的信息量来供研究者进行统计和推断．传统的诸如词性标注、句法分析等自然语言处理技术在短文本分析方面基本无能为力．早期对短文本的分析和应用主要通过枚举或关键词匹配的方式，对文本的语义理解基本避而不谈，而自动化的短文本理解通常需要依赖额外的知识．本文利用基于词向量的关键词表示方法，解决了传统稀疏表示方式的维数灾难，且无法表示语义信息的问题．同时也挖掘了词之间的关联属性，从而提高了关键词语义表示的准确度．词向量（Ｗｏｒｄ２ｖｅｃ）作为一种进行高效率词嵌套学习的预测模型［３８］，其包括连续词袋模型（ＣＢＯＷ）和Ｓｋｉｐ－Ｇｒａｍ模型两种变体．ＣＢＯＷ通过窗口范围内的词语预测中心词出现的概率，而Ｓｋｉｐ－Ｇｒａｍ则是基于中心词预测窗口范围内词语出现的概率，其训练目标就是找出对预测句子或文档中的周围词语有用的词语的向量表示．假如对于一个给定句子，ｗ１，ｗ２，…，ｗＴ表示句子中的词语，Ｓｋｉｐ－Ｇｒａｍ模型的目标函数ｇ（ｗ）就是求最大化平均对数概率．ｇ（ｗ）＝１Ｔ∑Ｔｔ＝１∑－ｃｊｃ，ｊ≠０ｌｏｇｐ（ｗｔ＋ｊ｜ｗｔ）（１）在式（１）中，ｃ表示训练文本的数量，ｃ越大，可能会使得模型的准确率越高．Ｓｋｉｐ－Ｇｒａｍ模型使用层次Ｓｏｆｔｍａｘ函数来定义ｐ（ｗｔ＋ｊ｜ｗｔ）．层次Ｓｏｆｔｍａｘ使用Ｗ个字作为叶子的输出层的二叉树表示，并且对于每个节点明确表示其子节点的相对概率，利用随３１０２计　　算　　机　　学　　报２０１９年走算法分配每个单词的概率．Ｗｏｒｄ２ｖｅｃ可以自动从大规模无标注用户评论中学习到句法和语义信息，实现对用户评论中关键词的表征．利用Ｗｏｒｄ２ｖｅｃ对用户评论的短文本信息进行向量表示，主要分为以下两个步骤：（１）根据收集的用户评论文本数据，利用Ｓｋｉｐ－Ｇｒａｍ或ＣＢＯＷ训练词向量模型，将每个词表示成Ｋ维向量实数值；（２）对于用户评论的短文本，在分词的基础上利用ＴＦ－ＩＤＦ等算法抽取Ｔｏｐ－Ｎ个词表示文本的情感，然后从词向量模型中查找得到抽取的Ｔｏｐ－Ｎ个词的Ｋ维向量表示．在得到每个关键词的Ｋ维实数向量表示后，一种较为普遍的做法是利用加权平均的方式对关键词的向量进行处理，将其等价于用户评论文本的向量表示，以实现对评论信息的情感分析．这种加权平均的处理方法忽略了词语间的排列顺序对情感预测模型的影响．因为基于Ｗｏｒｄ２ｖｅｃ的词向量表示只是基于词的维度进行 “语义分析”，而对词向量进行加权平均的处理方式并不具备上下文的“语义分析”能力，故本文构建基于词向量和长短期记忆网络的情感计算模型来实现对用户评论的情感分析．３．１．２　基于词向量和长短期记忆网络的情感计算在文本信息处理中，常用的方法是循环神经网络（ＲＮＮ）．然而，ＲＮＮ在处理长序列时会导致优化时出现梯度消失的问题．为解决这一问题，研究人员提出了门限（Ｇａｔｅｄ　ＲＮＮ），其中最著名的就是长短期记忆网络（ＬＳＴＭ）．研究也表明：在很多任务上，采用ＬＳＴＭ结构的神经网络比标准ＲＮＮ网络表现更好．ＬＳＴＭ利用“门”结构来去除或增加信息到细胞状态．它通过在神经元中增加输入门、遗忘门和输出门三个“门”结构来达到增强或遗忘信息的目的，使得自循环的权重是变化的．基于ＬＳＴＭ的模型在参数固定的情况下，通过动态改变不同时刻的累积，可以有效避免ＲＮＮ网络结构容易出现的梯度膨胀，甚至梯度消失等问题．在ＬＳＴＭ网络结构中，每个ＬＳＴＭ单元的计算公式如式（２）～（７）所示：ｆｔ＝σ（Ｗｆ·［ｈｔ－１，ｘｔ］＋ｂｆ）（２）ｉｔ＝σ（Ｗｉ·［ｈｔ－１，ｘｔ］＋ｂｉ）（３）Ｃ～ｔ＝ｔａｎｈ（ＷＣ·［ｈｔ－１，ｘｔ］＋ｂＣ）（４）Ｃｔ＝ｆｔ＊Ｃｔ－１＋ｉｔ＊Ｃ～ｔ（５）Ｏｔ＝σ（ＷＯ·［ｈｔ－１，ｘｔ］＋ｂＯ）（６）ｈｔ＝Ｏｔ＊ｔａｎｈ（Ｃｔ）（７）在式（２）～（７）中，ｆｔ表示遗忘门，ｉｔ表示输入门，Ｏｔ表示输出门；Ｃ～ｔ表示前一时刻细胞的状态，Ｃｔ表示当前细胞的状态，ｈｔ－１和ｈｔ分别表示前一时刻单元的输出和当前单元的输出．本文采用基于Ｗｏｒｄ２ｖｅｃ和ＬＳＴＭ的用户评论的情感分析方法如图３所示．首先利用Ｗｏｒｄ２ｖｅｃ将矩阵形式的输入编码为较低维度的一维向量，以保留大多数有用信息；然后利用ＬＳＴＭ算法训练用户评论文本的情感分类模型，实现对用户评论的评分等级预测．同时，为了兼顾用户评分和评论信息对真实情感的交互影响，本文采用基于观点预过滤的方法和基于用户评分嵌入的方法分别对用户评分和情感预测评分进行融合．前者是利用ＬＳＴＭ网络得到预测评分后，同原始用户评分进行加权求和，基于用户评分嵌入的方法则是将ＬＳＴＭ网络向量与用户评分信息进行结合，将结果作为最后一层的输入，直接输出最终的综合评分．图３　基于用户评分嵌入的情感分析方法基于观点预过滤［３７］（ｏｐｉｎｉｏｎ　ｐｒｅ－ｆｉｌｔｅｒｉｎｇ）的方法，利用Ｗｏｒｄ２ｖｅｃ和ＬＳＴＭ对用户评论文本建模进行情感分析，预测得到每个用户对物品评论的情感倾向分数Ｓｃｏｒｅｒ，对用户的原始评分进行加权求６期张宜浩等：基于用户评论的深度情感分析和多视图协同融合的混合推荐方法３１１２出综合评分Ｓｃｏｒｅｃ．Ｓｃｏｒｅｃ＝αＳｃｏｒｅｒ＋（１－α）Ｓｃｏｒｅｏ（８）在式（８）中，Ｓｃｏｒｅｒ表示用户对物品评论的情感预测评分，Ｓｃｏｒｅｏ表示用户对物品的原始评分，α 是两个评分间权重的平衡因子．基于用户评分嵌入的方法是在对用户评论信息进行情感分析的基础上，将得到的ＬＳＴＭ输出向量与用户评分信息进行结合（如式（９）所示），然后将上述结果作为最后一层（全连接层）的输入，并通过ｓｏｆｔｍａｘ激活函数直接输出最终的综合情感评分．Ｈｉ＝ｈｔＳｃｏｒｅ（Ｕｓｅｒｉ）（９）３．２　基于物品内容的相似度计算在推荐系统中，对物品内容的自然语言描述较短且大多是不完整的句子，通常也不遵循语法规则．本文利用段落向量（Ｐａｒａｇｒａｐｈ　Ｖｅｃｔｏｒ）［３９］对物品内容描述的短文本进行分布式表示．段落向量是一种基于神经网络的隐性短文本理解模型，它将短文本向量当作“语境”用于辅助推理，在极大似然估计中，文本向量亦被作为模型参数进行更新．同基于Ｗｏｒｄ２ｖｅｃ的文本向量表示方法相比，它在模型训练过程中对段落也增加了编码．与普通的词一样，段落编码也是被先映射成一个向量（即段落编码向量）．在计算中，段落编码向量和词向量累加或者连接起来，作为输出层Ｓｏｆｔｍａｘ的输入．在对物品内容描述文本的训练过程中，段落编码保持不变，相当于在每次预测单词概率时，其都整合了整个句子的语义信息．在预测阶段，我们给物品内容的描述文本分配一新的段落编码，同时保持词向量和输出层Ｓｏｆｔｍａｘ的参数不变．最后，我们利用梯度下降法训练新的物品内容描述文本，直至其收敛，从而得到物品内容的低维向量表示．物品内容的段落向量分布式表征如图４所示．图４　物品内容的段落向量分布式表征在得到物品内容的惟一ｄ维分布式向量表示后，就可以利用相似度计算的方式得到每两个物品内容之间的相似度和距离．本文利用余弦公式度量两个物品间的相似度，同时利用马氏距离计算两个物品内容自然语言描述的距离．假设两个物品内容自然语言描述的段落向量表示为ＰＶａ＝（ｘ１１，ｘ１２，…，ｘ１ｄ）和ＰＶｂ＝（ｘ２１，ｘ２２，…，ｘ２ｄ），其中ｄ表示两个段落向量的维度．则它们间的相似度和距离分别定义式（１０）和式（１１）：ｓｉｍ（ＰＶａ，ＰＶｂ）＝ＰＶｄ·ＰＶｄＰＶｄ２· ＰＶｄ２　＝∑ｉ＝ｄｉ＝０ｘ１ｉｘ２ｉ∑ｉ＝ｄｉ＝０ｘ２１槡ｉ∑ｉ＝ｄｉ＝０ｘ２２槡ｉ（１０）ｄｉｓ（ＰＶａ，ＰＶｂ）＝（ＰＶａ－ＰＶｂ）ＴＳ－１（ＰＶａ－ＰＶｂ槡）（１１）其中Ｓ是特征向量ＰＶａ和ＰＶｂ的协方差矩阵．３．３　基于协同训练的推荐视图融合在构建混合推荐系统时，本文利用用户综合评分视图构建基于物品的协同过滤推荐模型；与此同时，利用物品内容的自然语言描述视图构建基于物品内容的推荐模型；最后基于协同训练策略实现两个推荐视图的融合．在数据选择方面，利用基于置信度估计与聚类分析的数据选择算法对数据进行过滤，而后加入到另一个分类器的训练数据池中，进行下一轮训练，如此迭代．基于协同训练的推荐视图融合的框架如图５所示．图５　基于协同训练的推荐视图融合３．３．１　基于协同训练的混合推荐算法基于协同训练的混合推荐算法是在用户对物品评分的基础上构建初始评分矩阵；然后利用观点预３１２２计　　算　　机　　学　　报２０１９年过滤的方法度量综合评分，从而更新评分矩阵；最后设计一个基于协同训练的混合推荐算法，依据综合评分矩阵和物品内容描述的向量相似度来循环地填充和优化评分矩阵，进而实现推荐和排序．基于协同训练的混合推荐算法流程如图６所示．图６　基于协同训练的混合推荐算法流程在推荐系统中，用户ｕ对物品ｉ的评分记为Ｒｕ（ｉ）；对应的评分矩阵为Ｒｍ×ｎ（Ｕ，Ｉ），其中行向量ｍ表示用户的个数，列向量ｎ表示物品的个数．在基于物品的协同过滤推荐模型中，输入用户的原始评分矩阵Ｒｍ×ｎ（Ｕ，Ｉ），其中Ｒｕ（ｉ）∈｛１，２，３，４，５｝，以及情感分析模型预测的虚拟评分矩阵Ｒ→ｍ×ｎ（Ｕ，Ｉ），其中Ｒ→ｕ（ｉ）∈｛１，５｝，１表示用户情感为负面，５表示用户情感为正面，输出为数据集Ｄｔｒａｉｎ．基于物品的协同过滤推荐算法的描述如算法１所示．算法１．　基于物品的协同过滤推荐算法．输入：用户对物品的评分矩阵Ｒｍ×ｎ（Ｕ，Ｉ），情感计算模型预测的虚拟评分Ｒ→ｍ×ｎ（Ｕ，Ｉ）输出：基于物品协同过滤推荐的训练数据集Ｄｔｒａｉｎ１．根据用户评分矩阵，抽取针对用户ｕ的训练数据Ｄｉ＝｛Ｒ（ｉ）Ｔ｜Ｒ（ｉ）∈Ｒｍ×ｎ（Ｕ，Ｉ），Ｒｕ（ｉ）≠，ｉ∈［１，ｎ］｝，其类别标签为Ｌ（ｉ）＝Ｒｕ（ｉ）∈｛１，２，３，４，５｝；／／在ｍ×ｎ的评分矩阵中，行向量表示用户，列向量表示物品．其中Ｒ（ｉ）表示评分矩阵的列向量，Ｒｕ（ｉ）表示用户ｕ对物品ｉ的评分２．更新训练数据评分Ｒｕ（ｉ）：／／利用观点预过滤的方法计算用户对物品的综合评分．其中Ｔｉｍｅｃｕｒ表示当前时间，ＴｉｍｅＲｕ（ｉ）表示用户对物品的评论时间，时间只取年份Ｒ→ｕ（ｉ）＝｛Ｒ→ｍ×ｎ（Ｕ，Ｉ）∈｛１，５｝｜ｍ＝ｕ，ｎ＝ｉ｝，Ｒｕ（ｉ）＝αＲ→ｕ（ｉ）＋（１－α）Ｒｕ（ｉ）Ｔｉｍｅｃｕｒ－ＴｉｍｅＲｕ（ｉ）．３．更新训练数据集：／／将评分４的标记为正类，加入数据池Ｄｉ（＋）中，将评分 ２的标记为负类，加入数据池Ｄｉ（－）中ＤＬ＝｛Ｄｉ（＋）∪Ｄｉ（－）｝，Ｄｉ（＋）＝｛Ｒ（ｉ）Ｔ｜Ｒ（ｉ）∈Ｒｍ×ｎ（Ｕ，Ｉ），Ｌ（ｉ）４｝，Ｄｉ（－）＝｛Ｒ（ｉ）Ｔ｜Ｒ（ｉ）∈Ｒｍ×ｎ（Ｕ，Ｉ），Ｌ（ｉ）２｝．４．训练基于物品的协同过滤推荐模型，用分类器ｈ１对候选数据Ｄ＝｛Ｒ（ｉ）Ｔ｜Ｒ（ｉ）∈Ｒｍ×ｎ（Ｕ，Ｉ），Ｒｕ（ｉ）＝｝进行预测，得到预测标签Ｌ（ｉ）；Ｄ′Ｌ←｛（Ｄ（ｉ），Ｌ（ｉ））｝．５．利用基于置信度估计与聚类分析的数据选择算法对数据进行筛选，返回预加入训练数据池的数据．／／ＤＬ表示一次迭代中原有的数据，Ｄ′Ｌ表示一次迭代中增加的数据（数据的标签为协同过滤模型的预测评分）Ｒｅｔｕｒｎ　Ｄｔｒａｉｎ＝｛ＤＬ ∪Ｄ′Ｌ｝．在算法１中，利用基于物品的协同过滤推荐方法，来填充用户评分矩阵的缺省值；同时更新用户ｕ的训练数据集．在情感分类模型中，一般分为细粒度（５级分类）和粗粒度（２级分类），考虑到２级情感分类模型的准确率远高于５级情感分类模型［３８］，故本文的推荐算法中采用２级情感分类．分别将用户情感为正面和负面的评分设置为５分和１分；然后利用观点预过滤的方法对用户情感评分和原始评分进行综合度量；最后利用基于物品的协同过滤模型实现对评分矩阵的预测和填充，并利用基于置信度估计与聚类分析的数据选择算法对数据进行筛选，将增量数据加入用户ｕ的训练数据集．在基于物品内容描述模型中，利用Ｋ最近邻算法来计算物品内容描述的距离，通过物品的余弦相似度以及Ｋ个最近邻物品（马氏距离）的评分来更新或填充用户评分和缺省值，将其利用到基于物品内容的推荐模型中进行下一步迭代．基于物品内容的推荐算法描述如算法２所示．算法２．　基于物品内容的推荐算法．输入：用户对物品的预测评分Ｄ′Ｌ＝｛（Ｄ（ｉ），Ｌ（ｉ）｝，物品内容描述的向量表示ＰＶ（Ｉｔｅｍ），训练数据集Ｄｔｒａｉｎ输出：评分矩阵Ｒｍ×ｎ（Ｕ，Ｉ）６期张宜浩等：基于用户评论的深度情感分析和多视图协同融合的混合推荐方法３１２３

[返回]

上一篇：基于区块链的分布式K匿名位置隐私保护方案
下一篇：基于离散优化的哈希编码学习方法