基于双注意力机制和迁移学习的跨领域推荐模型_柴玉梅 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

基于双注意力机制和迁移学习的跨领域推荐模型_柴玉梅

来源：一起赢论文网日期：2021-01-13 浏览数：1713 【字体：大中小】

基于双注意力机制和迁移学习的跨领域推荐模型柴玉梅１）　员武莲１）　王黎明１）　刘　箴２）１）（郑州大学信息工程学院　郑州　４５０００１）２）（宁波大学信息科学与工程学院　浙江宁波　３１５２１１）摘　要　跨领域推荐可用于解决单一领域数据稀疏导致的推荐系统性能退化问题，还可以缓解推荐系统中存在的用户冷启动问题．然而，现有的方法大多利用用户对项目的评分进行建模，忽略了评论文本所蕴含的信息．为此，本文提出了一种基于双注意力机制和迁移学习的跨领域推荐模型，首先通过ＣＮＮ对评论文本建模，提取用户和项目特征；其次通过构造融合词的上下文关系的词注意力机制从评论文本中捕获词级别的信息，以提升ＣＮＮ对文本中重点信息的关注度；然后通过构造特征突显机制从ＣＮＮ提取到的用户特征和项目特征中捕获特征级别的信息；最后引入迁移学习，通过同时提取领域特有的特征和领域间的共享特征进行不同领域之间的联合建模，进行评分预测．本文在Ａｍａｚｏｎ数据集上进行了实验比较与分析，首先对本文模型的推荐性能进行评估，与现有的跨领域推荐模型相比，在两种不同的跨领域数据集上平均绝对误差分别提升６．１％和９．１５％，均方根误差分别提升３．６６％和７．０１％；然后对本文模型的知识迁移性能进行评估，与现有的单领域推荐模型相比，在不同数据集下均方误差分别提升５．４７％和１０．３５％；最后通过实验验证了本文提出的注意力机制的有效性，及在缓解数据稀疏问题和用户冷启动问题方面的优势，也验证了模型的普适性．关键词　推荐系统；迁移学习；跨领域；ＣＮＮ；评论文本中图法分类号ＴＰ３９１　　　ＤＯＩ号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０２０．０１９２４Ａ　Ｃｒｏｓｓ－Ｄｏｍａｉｎ　Ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　Ｍｏｄｅｌ　Ｂａｓｅｄ　ｏｎＤｕａｌ　Ａｔｔｅｎｔｉｏｎ　Ｍｅｃｈａｎｉｓｍ　ａｎｄ　Ｔｒａｎｓｆｅｒ　ＬｅａｒｎｉｎｇＣＨＡＩ　Ｙｕ－Ｍｅｉ　１）　ＹＵＮ　Ｗｕ－Ｌｉａｎ１）　ＷＡＮＧ　Ｌｉ－Ｍｉｎｇ１）　ＬＩＵ　Ｚｈｅｎ２）１）（Ｓｃｈｏｏｌ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｚｈｅｎｇｚｈｏｕ　Ｕｎｉｖｅｒｓｉｔｙ，Ｚｈｅｎｇｚｈｏｕ　４５０００１）２）（Ｓｃｈｏｏｌ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｎｉｎｇｂｏ　Ｕｎｉｖｅｒｓｉｔｙ，Ｎｉｎｇｂｏ，Ｚｈｅｊｉａｎｇ　３１５２１１）Ａｂｓｔｒａｃｔ　Ｃｒｏｓｓ－ｄｏｍａｉｎ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｃａｎ　ｂｅ　ｕｓｅｄ　ｔｏ　ｓｏｌｖｅ　ｔｈｅ　ｐｒｏｂｌｅｍ　ｏｆ　ｄｅｇｒａｄｉｎｇ　ｔｈｅｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｔｈｅ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｓｙｓｔｅｍ　ｃａｕｓｅｄ　ｂｙ　ｓｐａｒｓｅ　ｄａｔａ　ｉｎ　ａ　ｓｉｎｇｌｅ　ｄｏｍａｉｎ，ａｎｄ　ｉｔ　ｃａｎａｌｓｏ　ａｌｌｅｖｉａｔｅ　ｔｈｅ　ｃｏｌｄ　ｓｔａｒｔ　ｐｒｏｂｌｅｍ　ｏｆ　ｕｓｅｒｓ　ｉｎ　ｔｈｅ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｓｙｓｔｅｍ．Ｈｏｗｅｖｅｒ，ｍｏｓｔ　ｏｆｔｈｅ　ｅｘｉｓｔｉｎｇ　ｍｅｔｈｏｄｓ　ｕｓｅ　ｔｈｅ　ｕｓｅｒ’ｓ　ｒａｔｉｎｇ　ｄａｔａ　ｔｏ　ｍｏｄｅｌ　ｔｈｅ　ｉｔｅｍ，ｉｇｎｏｒｉｎｇ　ｔｈｅ　ｒｅｖｉｅｗ　ｔｅｘｔｗｒｉｔｔｅｎ　ｂｙ　ｔｈｅ　ｕｓｅｒ　ｆｏｒ　ｔｈｅ　ｉｔｅｍ　ａｎｄ　ｔｈｅ　ｒｉｃｈ　ｕｓｅｒ　ａｎｄ　ｉｔｅｍ　ｉｎｆｏｒｍａｔｉｏｎ　ｉｔ　ｃｏｎｔａｉｎｓ．Ｉｎ　ｒｅｃｅｎｔｙｅａｒｓ，ｄｅｅｐ　ｌｅａｒｎｉｎｇ　ｈａｓ　ｂｅｅｎ　ｓｕｃｃｅｓｓｆｕｌｌｙ　ａｐｐｌｉｅｄ　ｔｏ　ｖａｒｉｏｕｓ　ｆｉｅｌｄｓ．Ｉｎｓｐｉｒｅｄ　ｂｙ　ｔｈｉｓ，ｔｈｉｓ　ａｒｔｉｃｌｅｐｒｏｐｏｓｅｓ　ａ　Ｃｒｏｓｓ－Ｄｏｍａｉｎ　Ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　Ｍｏｄｅｌ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　Ｄｕａｌ　Ａｔｔｅｎｔｉｏｎ　Ｍｅｃｈａｎｉｓｍ　ａｎｄＴｒａｎｓｆｅｒ　Ｌｅａｒｎｉｎｇ（ＡＭＴＲ）ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｒｅｖｉｅｗ　ｔｅｘｔ．Ｆｉｒｓｔｌｙ，ｍｏｄｅｌｉｎｇ　ｒｅｖｉｅｗ　ｔｅｘｔ　ｔｈｒｏｕｇｈｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ，ｅｘｔｒａｃｔ　ｕｓｅｒ　ａｎｄ　ｉｔｅｍ　ｆｅａｔｕｒｅｓ．Ｓｅｃｏｎｄｌｙ，ｔｈｉｓ　ｐａｐｅｒ　ｃｏｎｓｔｒｕｃｔｓ　ｔｈｅｗｏｒｄ　ａｔｔｅｎｔｉｏｎ　ｍｅｃｈａｎｉｓｍ　ａｎｄ　ｆｅａｔｕｒｅ　ｈｉｇｈｌｉｇｈｔｉｎｇ　ｍｅｃｈａｎｉｓｍ　ｔｈａｔ　ｆｕｓｅｄ　ｔｈｅ　ｃｏｎｔｅｘｔ　ｏｆ　ｗｏｒｄｓ，ａｎｄ　ｐｒｏｐｏｓｅｓ　ａ　ｆｅａｔｕｒｅ　ｅｘｔｒａｃｔｉｏｎ　ｎｅｔｗｏｒｋ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｄｕａｌ　ａｔｔｅｎｔｉｏｎ　ｍｅｃｈａｎｉｓｍ．Ｔｈｅ　ｗｏｒｄａｔｔｅｎｔｉｏｎ　ｍｅｃｈａｎｉｓｍ　ｃａｐｔｕｒｅｓ　ｗｏｒｄ－ｌｅｖｅｌ　ｉｎｆｏｒｍａｔｉｏｎ　ｆｒｏｍ　ｔｈｅ　ｒｅｖｉｅｗ　ｔｅｘｔ　ｔｏ　ｉｎｃｒｅａｓｅ　ＣＮＮ’ｓａｔｔｅｎｔｉｏｎ　ｔｏ　ｔｈｅ　ｋｅｙ　ｉｎｆｏｒｍａｔｉｏｎ　ｉｎ　ｔｈｅ　ｔｅｘｔ，ｗｈｉｌｅ　ｍａｋｉｎｇ　ｔｈｅ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｉｎｔｅｒｐｒｅｔａｂｌｅ；Ｔｈｅｆｅａｔｕｒｅ　ｈｉｇｈｌｉｇｈｔｉｎｇ　ｍｅｃｈａｎｉｓｍ　ｃａｐｔｕｒｅｓ　ｆｅａｔｕｒｅ　ｌｅｖｅｌ　ｉｎｆｏｒｍａｔｉｏｎ　ｔｈａｔ　ｉｓ　ｈｅｌｐｆｕｌ　ｆｏｒ　ｒａｔｉｎｇｐｒｅｄｉｃｔｉｏｎ　ｆｒｏｍ　ｕｓｅｒ　ｆｅａｔｕｒｅｓ　ａｎｄ　ｉｔｅｍ　ｆｅａｔｕｒｅｓ　ｅｘｔｒａｃｔｅｄ　ｂｙ　ＣＮＮ．Ｆｉｎａｌｌｙ，ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ　ｎｅｔｗｏｒｋ，ｔｒａｎｓｆｅｒ　ｌｅａｒｎｉｎｇ　ｉｓ　ｉｎｔｒｏｄｕｃｅｄ　ｔｏ　ｊｏｉｎｔｌｙ　ｍｏｄｅｌ　ｂｅｔｗｅｅｎ　ｄｉｆｆｅｒｅｎｔ　ｄｏｍａｉｎｓ　ｔｏａｃｈｉｅｖｅ　ｋｎｏｗｌｅｄｇｅ　ｔｒａｎｓｆｅｒ　ｂｅｔｗｅｅｎ　ｄｏｍａｉｎｓ．Ｉｎ　ｔｈｉｓ　ｐｒｏｃｅｓｓ，ｆｅａｔｕｒｅ　ｅｘｔｒａｃｔｉｏｎ　ｎｅｔｗｏｒｋｓ　ｉｎｄｉｆｆｅｒｅｎｔ　ｄｏｍａｉｎｓ　ａｒｅ　ｕｓｅｄ　ｔｏ　ｓｉｍｕｌｔａｎｅｏｕｓｌｙ　ｅｘｔｒａｃｔ　ｄｏｍａｉｎ－ｓｐｅｃｉｆｉｃ　ｆｅａｔｕｒｅｓ　ａｎｄ　ｓｈａｒｅ　ｆｅａｔｕｒｅｓａｎｄ　ｃｏｍｂｉｎｅ　ｗｉｔｈ　ｆａｃｔｏｒｉｚａｔｉｏｎ　ｍａｃｈｉｎｅ　ｔｏ　ｐｅｒｆｏｒｍ　ｒａｔｉｎｇ　ｐｒｅｄｉｃｔｉｏｎ　ｔｏ　ａｃｈｉｅｖｅ　ｃｒｏｓｓ－ｄｏｍａｉｎｒｅｃｏｍｍｅｎｄａｔｉｏｎ．Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｃｏｍｐａｒｉｓｏｎ　ａｎｄ　ａｎａｌｙｓｉｓ　ｉｓ　ｃａｒｒｉｅｄ　ｏｕｔ　ｏｎ　ｔｈｅＡｍａｚｏｎ　ｄａｔａｓｅｔ．Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｔｈｅ　ＡＭＴＲ　ｍｏｄｅｌ　ｉｎｔｅｒｍｓ　ｏｆ　ｍｅａｎ　ａｂｓｏｌｕｔｅ　ｅｒｒｏｒ，ｒｏｏｔ　ｍｅａｎ　ｓｑｕａｒｅ　ｅｒｒｏｒ　ａｎｄ　ｍｅａｎ　ｓｑｕａｒｅ　ｅｒｒｏｒ　ｉｓ　ｂｅｔｔｅｒ　ｔｈａｎ　ｔｈｅｃｏｍｐａｒｉｓｏｎ　ｍｏｄｅｌ．Ｆｉｒｓｔｌｙ，ｅｖａｌｕａｔｅ　ｔｈｅ　ｒｅｃｏｍｍｅｎｄ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｔｈｅ　ＡＭＴＲ　ｍｏｄｅｌ，ｃｏｍｐａｒｅｄｗｉｔｈ　ｔｈｅ　ｅｘｉｓｔｉｎｇ　ｃｒｏｓｓ－ｄｏｍａｉｎ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｍｏｄｅｌ，ｔｈｅ　ｍｅａｎ　ａｂｓｏｌｕｔｅ　ｅｒｒｏｒ　ｏｆ　ｔｈｅ　ＡＭＴＲｍｏｄｅｌ　ｏｎ　ｂｏｔｈ　ｄｉｆｆｅｒｅｎｔ　ｃｒｏｓｓ－ｄｏｍａｉｎ　ｄａｔａｓｅｔｓ　ｉｎｃｒｅａｓｅｄ　ｂｙ　６．１％ａｎｄ　９．１５％，ｒｅｓｐｅｃｔｉｖｅｌｙ，ａｎｄｔｈｅ　ｒｏｏｔ　ｍｅａｎ　ｓｑｕａｒｅ　ｅｒｒｏｒ　ｉｓ　ｉｍｐｒｏｖｅｄ　３．６６％ａｎｄ　７．０１％．Ｓｅｃｏｎｄｌｙ，ｔｈｅ　ｋｎｏｗｌｅｄｇｅ　ｔｒａｎｓｆｅｒｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｔｈｅ　ＡＭＴＲ　ｍｏｄｅｌ　ｉｓ　ｅｖａｌｕａｔｅｄ．Ｃｏｍｐａｒｅｄ　ｗｉｔｈ　ｔｈｅ　ｅｘｉｓｔｉｎｇ　ｓｉｎｇｌｅ　ｄｏｍａｉｎｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｍｏｄｅｌ，ｔｈｅ　ｍｅａｎ　ｓｑｕａｒｅ　ｅｒｒｏｒ　ｏｆ　ｔｈｅ　ＡＭＴＲ　ｍｏｄｅｌ　ｉｎｃｒｅａｓｅｄ　ｂｙ　５．４７％ａｎｄ１０．３５％ｉｎ　ｄｉｆｆｅｒｅｎｔ　ｄａｔａｓｅｔｓ．Ｔｈｅｎ，ｔｈｅ　ｅｆｆｅｃｔｉｖｅｎｅｓｓ　ｏｆ　ｔｈｅ　ａｔｔｅｎｔｉｏｎ　ｍｅｃｈａｎｉｓｍ　ｐｒｏｐｏｓｅｄ　ｉｎ　ｔｈｉｓｐａｐｅｒ　ｉｓ　ｖｅｒｉｆｉｅｄ　ｔｈｒｏｕｇｈ　ｒｅｌａｔｅｄ　ｅｘｐｅｒｉｍｅｎｔｓ，ａｎｄ　ｂｙ　ｃｏｎｔｒｏｌｌｉｎｇ　ｔｈｅ　ｎｕｍｂｅｒ　ｏｆ　ｒｅｖｉｅｗｓ，ｔｈｅａｄｖａｎｔａｇｅｓ　ｏｆ　ｔｈｅ　ｐｒｏｐｏｓｅｄ　ｍｏｄｅｌ　ｉｎ　ｍｉｔｉｇａｔｉｎｇ　ｄａｔａ　ｓｐａｒｓｅｎｅｓｓ　ａｎｄ　ｕｓｅｒ　ｃｏｌｄ　ｓｔａｒｔ　ｐｒｏｂｌｅｍｓ　ａｒｅｖｅｒｉｆｉｅｄ；Ｆｉｎａｌｌｙ，ｔｈｅ　ｕｎｉｖｅｒｓａｌｉｔｙ　ｏｆ　ｔｈｅ　ｍｏｄｅｌ　ｉｓ　ｖｅｒｉｆｉｅｄ　ｏｎ　ｖａｒｉｏｕｓ　ｄａｔａ　ｓｅｔｓ．Ｉｎ　ａｄｄｉｔｉｏｎ，ｔｈｉｓｐａｐｅｒ　ａｌｓｏ　ｃｏｎｓｉｄｅｒｓ　ｔｈｅ　ｉｍｐａｃｔ　ｏｆ　ｔｈｅ　ｄｉｆｆｅｒｅｎｃｅ　ｉｎ　ｒａｔｉｎｇ　ｓｃａｌｅｓ　ｏｎ　ｔｈｅ　ｍｏｄｅｌ　ｉｎ　ｔｈｉｓ　ｐａｐｅｒ．Ｔｈｉｓｐａｐｅｒ　ｍａｋｅｓ　ｆｕｌｌ　ｕｓｅ　ｏｆ　ｒｅｖｉｅｗ　ｔｅｘｔ　ｉｎ　ｄｉｆｆｅｒｅｎｔ　ｄｏｍａｉｎｓ，ｅｆｆｅｃｔｉｖｅｌｙ　ｍｉｎｅｓ　ｕｓｅｒ　ａｎｄ　ｉｔｅｍ　ｉｎｆｏｒｍａｔｉｏｎｉｎ　ｄｉｆｆｅｒｅｎｔ　ｄｏｍａｉｎｓ　ｔｈｒｏｕｇｈ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ，ｉｍｐｒｏｖｅｓ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｃｒｏｓｓ－ｄｏｍａｉｎｒｅｃｏｍｍｅｎｄａｔｉｏｎ，ａｎｄ　ｅｘｐａｎｄｓ　ｔｈｅ　ｎｅｗ　ｗａｙ　ｏｆ　ｕｓｉｎｇ　ｒｅｖｉｅｗ　ｔｅｘｔ　ｉｎｆｏｒｍａｔｉｏｎ　ｔｏ　ａ　ｃｅｒｔａｉｎ　ｅｘｔｅｎｔ．Ｋｅｙｗｏｒｄｓ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｓｙｓｔｅｍ；ｔｒａｎｓｆｅｒ　ｌｅａｒｎｉｎｇ；ｃｒｏｓｓ－ｄｏｍａｉｎ；ＣＮＮ；ｒｅｖｉｅｗ　ｔｅｘｔ１　引　言推荐系统［１］可以缓解当下大数据时代中存在的“信息过载”问题，它帮助用户从繁杂的信息中挑选出需求的信息，为用户提供个性化服务．传统的推荐都是基于单一领域，但随着数据的急剧增长，单一领域的信息难以满足用户的需求，而广泛应用于单领域的协同过滤方法［２－３］虽然简单有效，却存在评分数据稀疏和用户冷启动问题［４］，使得推荐性能下降，解决这种问题的方法之一是跨领域推荐．跨领域推荐［５－６］旨在利用其它领域的用户偏好和项目特征等信息来帮助目标领域提高推荐的准确性，使得目标领域能对用户或项目进行更加充分的建模，有效地缓解了数据稀疏和用户冷启动问题．研究与事实也表明，来自不同领域的用户和项目之间有较大的关联，例如：用户在不同的领域也会表现出相同的爱好，如喜爱恐怖类电影的用户也会倾向于购买恐怖类的书籍．现有的大部分跨领域推荐工作主要是利用用户对项目的评分数据［７－８］，这种方法虽然一定程度上缓解了数据稀疏和用户冷启动问题，但在数据高度稀疏的情况下，仅依靠评分信息，推荐系统难以全面地对用户和项目建模，无法学习出可以进行知识迁移的有效信息，并且难以将源域的知识充分地迁移到目标域．相比于评分仅代表用户对项目的一个总体态度来说，评论文本在反应用户喜好的同时，可以解释给出评分高低的原因，为用户和项目的建模提供丰富的信息，同时可以补充利用评分进行知识迁移过程中有效信息不足的缺点，提高跨领域推荐效果，这是以往跨领域推荐工作所忽视的．然而评论文本结构复杂，很难直接被推荐系统所理解，因此如何利用自然语言处理技术帮助推荐系统解析评论，提取出评论文本包含的信息，同时使得推荐具有可解释性以及如何将这些信息在领域之１０期柴玉梅等：基于双注意力机制和迁移学习的跨领域推荐模型１９２５间进行迁移是本文研究的重点．受Ｌｉｕ等人［９］利用迁移学习［１０］方法提高文本分类性能的启发，本文提出了一种端到端的基于双注意力机制和迁移学习的跨领域推荐模型ＡＭＴＲ（Ａｔｔｅｎｔｉｏｎ　Ｍｅｃｈａｎｉｓｍ　ａｎｄ　Ｔｒａｎｓｆｅｒ　Ｌｅａｒｎｉｎｇ），主要工作如下：（１）本文利用ＣＮＮ分别对用户和项目对应的评论聚合文本进行特征提取，相较于传统的特征提取方法能够提取更为充分的信息，并对用户和项目的特征进行更好地建模．（２）本文提出两种不同的注意力机制，分别从词级别和特征级别两种视角提取出评论文本中的重要信息．词注意力机制（Ｗｏｒｄｓ　Ａｔｔｅｎｔｉｏｎ　Ｍｅｃｈａｎｉｓｍ，ＷＡＭ）通过融合词的上下文信息，衡量单词的重要性，过滤出相对于全局重要的单词，同时增加推荐的可解释性．特征突显机制（Ｆｅａｔｕｒｅ　ＨｉｇｈｌｉｇｈｔｉｎｇＭｅｃｈａｎｉｓｍ，ＦＨＭ）通过抑制相似通道，捕捉特征通道中独立性较强的通道．从而提高模型对评论文本中的重要信息的关注，使其具有更好的特征提取能力．（３）本文提出了一种新的跨领域推荐模型，联合建模源域、目标域和共享域，利用不同领域的神经网络同时提取领域特有的特征和领域间的共享特征，有效地学习到了可以进行知识迁移的信息，将源域的知识充分地迁移到目标域，提高了推荐性能，并缓解了数据稀疏问题和用户冷启动问题．此外，本文还针对用户之间的评分尺度差异问题进行了相应的研究和实验验证．２　相关工作跨领域推荐采用知识迁移的策略将与目标领域关联较为密集的辅助领域的知识迁移到目标领域，提高目标领域的推荐性能，有效地缓解了传统推荐系统中存在的数据稀疏和用户冷启动问题．Ｌｉ等人［１１］提出了一个密码本迁移模型ＣＢＴ（ＣｏｄｅＢｏｏｋＴｒａｎｓｆｅｒ），它假设不同领域共享一个评分模式并将其称为“密码本”，将密码本从辅助领域迁移到目标领域缓解数据稀疏问题，但是这种方法忽略了不同领域的评分模式具有差异性，可能会导致负迁移．Ｇａｏ等人［１２］在ＣＢＴ基础上考虑不同领域拥有各自的特异性提出了ＣＬＦＭ模型，在学习所有领域共享的评分模式的同时，还学习领域特有的评分模式，提高了跨领域推荐的准确度．Ｍｏｒｅｎｏ等人［１３］考虑不同辅助领域和目标领域之间的关系，根据不同领域的相关性自动学习不同程度的知识．王俊等人［１４］在考虑领域具有共享和特有的评分模式后，考虑了项目的共享被评分模式，提出一种三元桥迁移学习模型（Ｔｒｉｐｌｅ－Ｂｒｉｄｇｅ　Ｔｒａｎｓｆｅｒ，ＴＲＢＴ），增加了正迁移．Ｈｕ等人［１５］考虑领域和领域之间的潜在关系，把不同领域的评分矩阵组成张量，通过张量分解捕获特征．随后Ｈｕ等人又提出了ＷＩＴＦ（Ｗｅｉｇｈｔｅｄ　Ｉｒｒｅｇｕｌａｒ　Ｔｅｎｓｏｒ　Ｆａｃｔｏｒｉｚａｔｉｏｎ）模型［１６］，利用所有用户的多领域反馈数据来学习用户和项目的跨领域先验，从而提高推荐性能．Ｌｉａｎ等人［１７］通过引入一个因子分解框架将协同过滤和基于内容的过滤结合，随后将其嵌入到一个多视图神经网络实现跨领域推荐．Ｈｕ和Ｚｈａｎｇ等人［１８］采用神经网络学习各领域的潜在特征以及复杂的用户－项目交互关系，实现不同领域之间的知识传递．合理地使用评论文本进行评分预测从而提高推荐系统性能已被证明是有效的［１９－２０］．Ｚｈｅｎｇ等人［２１］利用两个并行神经网络，学习目标用户撰写的所有评论文本的潜在特征得到用户行为，以及项目的所有评论文本的潜在特征得到项目属性，然后结合这些潜在的特征提出ＤｅｅｐＣｏＮＮ（Ｄｅｅｐ　ＣｏｏｐｅｒａｔｉｖｅＮｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ）模型．Ｃａｔｈｅｒｉｎｅ等人［２２］在Ｄｅｅｐ－ＣｏＮＮ模型上扩展一个ｔｒａｎｓｆｏｒｍ层，将用户和项目的潜在特征转换为目标评论的近似表示并用于评分预测，构建出新的评分预测模型．Ｓｅｏ等人［２３］在ＣＮＮ基础上提出了通过注意力机制建模评论中不同部分与用户行为和项目属性的关联度，从而构造潜在表示．Ｔａｙ等人［２４］提出了一种共同关注的多指针学习方案的深度学习推荐框架，使最具信息性的评论能够用于评分预测同时实现更深层次的单词级交互．３　加入双注意力机制的特征提取网络为了从评论文本中获得用于评分预测的用户特征和项目特征．本文首先构造特征提取网络进行文本特征提取，将ＣＮＮ作为特征提取的基础，相较于传统的机器学习方法，ＣＮＮ具有提取复杂特征的优势，可以自动提取评论文本中的语义特征，不依赖于人工，从而有效地避免了人工提取特征的不足，学习到更鲁棒的特征表示．为了使模型有更好的特征提取能力，提出词级别的ＷＡＭ以及特征级别的ＦＨＭ．如图１所示，特征提取网络首先将用户和项１９２６计　　算　　机　　学　　报２０２０年图１　特征提取网络目对应评论文本的词向量通过ＷＡＭ，加强对评论文本的重点信息的关注，其次使用ＣＮＮ提取特征，最后通过ＦＨＭ捕获更多重要信息．３．１　相关定义为了方便阅读，本节主要介绍一些模型中用到的定义．定义１．　数据表示．输入模型的数据表示可以描述为一个四元组｛Ｕ，Ｉ，ＸＵＩ，ＲＵＩ｝，其中Ｕ为用户、Ｉ为项目、ＸＵＩ为用户Ｕ对项目Ｉ所做的评论、ＲＵＩ为用户Ｕ对项目Ｉ的评分．定义２．　评论聚合文本．某个用户ｕ为项目Ｉ撰写的所有评论文本或某个项目ｉ拥有的用户Ｕ为其撰写的所有评论文本．定义３．　用户行为．一个用户的行为可以从它为项目撰写的评论中体现，可以描述为一个二元组｛ｕ，Ｄｕ｝，其中ｕ表示用户，Ｄｕ表示用户ｕ撰写评论的集合，Ｄｕ＝｛Ｘ１，Ｘ２，Ｘ３，…，Ｘｍ｝，其中ｍ表示用户撰写评论的个数．定义４．　项目属性．一个项目的属性可以从用户为其撰写的评论集合中体现，可以描述为一个二元组｛ｉ，Ｄｉ｝，其中ｉ表示项目，Ｄｉ表示用户为项目ｉ撰写评论的集合，Ｄｉ＝｛Ｘ１，Ｘ２，Ｘ３，…，Ｘｐ｝，其中ｐ表示项目拥有的评论的个数．３．２　用户和项目评论聚合文本的词向量表示模型使用自然语言处理中词向量［２５］表示文本的方法将评论文本词向量化，然后通过神经网络提取评论文本的语义信息．不同于传统词袋模型，为了保留单词的顺序，设每条评论Ｘ＝｛ｘ１，ｘ２，ｘ３，…，ｘｎ｝．通过Ｇｌｏｖｅ［２６］获得评论Ｘ中每个词的词向量，得到评论Ｘ的句向量ｅ＝｛ｅｘ１，ｅｘ２，ｅｘ３，…，ｅｘｎ｝．根据定义３，对于用户ｕ撰写的评论来说，其撰写ｍ条评论，将这些评论聚合为一个文档ｄｕ１：ｍ，记为ｄｕ１：ｍ＝ｅ１ｅ２ｅ３…ｅｍ（１）根据定义４，项目ｉ的评论聚合文本的表示为文档ｄｉ１：ｐ，其中ｐ条评论分别来自不同的用户ｕ，ｄｉ１：ｐ记为ｄｉ１：ｐ＝ｅ１ｅ２ｅ３…ｅｐ（２）评论聚合文本的词向量生成的具体过程如算法１所示．算法１．　评论聚合文本词向量生成．输入：评论文本集合｛｛Ｕ，Ｉ，ＸＵＩ，ＲＵＩ｝（１…Ｆ）｝输出：用户评论聚合文本ｄｕ、项目评论聚合文本ｄｉ１．ＦＯＲ评论文本集合中的每一个用户ｕ∈ＵＤＯ２．　ＩＦ　ｕ＝｛Ｕ，Ｉ，ＸＵＩ，ＲＵＩ｝［０］ＴＨＥＮ３．　　将评论ＸＵＩ词向量化生成句向量ｅＵＩ４．　　执行操作（１）：ｄｕ＝ｄｕｅＵＩ５．　ＥＮＤ　ＩＦ６．ＥＮＤ　ＦＯＲ７．ＦＯＲ评论文本集合中的每一个用户ｉ∈Ｉ　ＤＯ８．　ＩＦｉ＝｛Ｕ，Ｉ，ＸＵＩ，ＲＵＩ｝［０］ＴＨＥＮ９．　　将评论ＸＵＩ词向量化生成句向量ｅＵＩ１０．　　执行操作（２）：ｄｉ＝ｄｉｅＵＩ１１．　ＥＮＤ　ＩＦ１２．ＥＮＤ　ＦＯＲ１３．ＲＥＴＵＲＮｄｕ，ｄｉ其中，｛Ｕ，Ｉ，ＸＵＩ，ＲＵＩ｝［０］表示元组的第１个元素，｛Ｕ，Ｉ，ＸＵＩ，ＲＵＩ｝［１］表示元组的第２个元素．３．３　融合上下文关系的ＷＡＭ受Ｓｅｏ等人［２３］采用局部和全局注意力层学习单词权重的启发，本文在词向量层和卷积层之间加入ＷＡＭ．ＷＡＭ通过融合词的上下文关系，在原始评论文本中得到不同词在当前文本中的重要性，使得ＣＮＮ的训练重点集中在评论文本中与评分预测信息关联度高的部分，由此加强对评论文本的重点部分的关注，并且削弱了影响较小的词，ＷＡＭ如图２所示．１０期柴玉梅等：基于双注意力机制和迁移学习的跨领域推荐模型１９２７图２　ＷＡＭ示意图以用户评论聚合文本的词向量经过ＷＡＭ为例，首先将用户评论聚合文本的词向量矩阵经过一个卷积层进行卷积操作．卷积层具有ｗ个神经元，每个神经元ｊ对应一个窗口大小为ｑ的卷积核．将用户ｕ的词向量文档ｄｕ１：ｍ与卷积层的每个卷积核Ｋｊ进行卷积运算，压缩后的特征如下：ＷＡｕｊ＝ｆ（ｄｕ１：ｍ＊Ｋｊ＋ＷＡｊ）（３）本文将ＷＡＭ的卷积操作视为一种参数可学习的特征压缩方法，因此将该卷积核的窗口大小与输出通道个数设置为１．其中卷积核为Ｋｊ∈ＲＣ×１，“＊”表示卷积操作，ＷＡｊ表示偏置量，ｆ是ＲｅＬＵ［２７］（Ｒｅｃｔｉｆｉｅｄ　Ｌｉｎｅａｒ　Ｕｎｉｔｓ）激活函数．将压缩后的特征输入到权重生成块中得到对应词的权重因子，权重生成块包含两个全连接层．受ｗｏｒｄ２ｖｅｃ［２８］的启发，使用全连接层进行上下文关系的融合，将文本中每个词的上下文信息融合到隐层的每个结点．第一层全连接层使用ＲｅＬＵ为激活函数，压缩长度为Ｌ的特征，输出长度为Ｌ／ｒ的特征，其表示如下：ｆｃ１＝ＲｅＬＵ（Ｗｄ＊ＷＡｕｊ＋ｂｄ）（４）其中，Ｗｄ∈ＲＬ×（Ｌ／ｒ）表示权重矩阵，其中Ｌ为词向量矩阵的宽，ｒ为超参数（本文设置ｒ为１６），表示中间的特征衰减系数，ｂｄ∈ＲＬ／ｒ表示偏置量．第二层全连接层使用ｓｉｇｍｏｉｄ为激活函数，将经过第一层全连接层衰减后的特征维度复原，输出长度为Ｌ的权重向量，即每个单词对应的权重因子ｆｃ２．ｆｃ２＝ｓｉｇｍｏｉｄ（Ｗｕ＊ｆｃ１＋ｂｕ）（５）其中，Ｗｕ∈Ｒ（Ｌ／ｒ）×Ｌ表示权重矩阵，ｂｕ∈ＲＬ表示偏置量．将得出的权重因子与原始用户评论聚合文本的词向量逐通道相乘，得到带有权重因子的向量矩阵，从而融合上下文关系，突出不同单词的重要性，向量矩阵表示如下：ＷＡＭｕ１：ｍ＝ｄｕ１：ｍｆｃ２（６）３．４　基于ＣＮＮ的文本特征提取网络本文采用ＣＮＮ进行文本特征的自动提取，在ＷＡＭ后利用卷积层以及最大池化进行特征提取．卷积层对经过ＷＡＭ后的词向量文档进行卷积操作后得到新的特征．用户ｕ的词向量文档ＷＡＭｕ１：ｍ首先进行卷积运算，每个卷积操作后产生一个特征图，产生的特征图的公式如下：ｚｕｊ＝ｆ（ＷＡＭｕ１：ｍ＊Ｋｊ＋ｂｊ）（７）其中卷积核为Ｋｊ∈Ｒｃ×ｑ，ｑ（ｑ∈｛３，４，５｝）表示卷积核的窗口大小，“＊”表示卷积操作，ｂｊ表示偏置量，ｆ是ＲｅＬＵ激活函数．随后对特征图的每个通道进行最大池化操作，得出每个通道中最大的值ｏｊ．ｏｕｊ＝ｍａｘ　ｚｕ１，ｚｕ２，…，ｚｕ（Σｉ＝１，…，ｍｎｉ－ｑ＋１｛｝）（８）最大池化后，卷积特征被缩减为一个固定大小的向量，其维度和通道的个数相同．将ｗ个神经元对应特征拼接得到特征，记为Ｏｕ＝｛ｏｕ１，ｏｕ２，ｏｕ３，…，ｏｕｗ｝（９）随后将用户特征和项目特征进行拼接，构建用户－项目特征，得到特征Ｏ如下：Ｏ＝ＯｕＯｉ（１０）其中，Ｏｉ表示项目ｉ经网络提取得到的特征．３．５　引入ＦＨＭ受Ｈｕ等人［２９］的启发，提出关注特征层通道之间相关性的ＦＨＭ．ＦＨＭ通过建模特征通道之间的关系，抑制相似通道，自适应地增加特征通道中独立性较强的通道，提高网络性能，ＦＨＭ如图３所示．图３　ＦＨＭ示意图１９２８计　　算　　机　　学　　报２０２０年将词向量经过ＣＮＮ之后产生大小为Ｃ×Ｈ×Ｗ的特征图Ｏ作为ＦＨＭ的输入，随后进行形状转换，转换为Ｃ×１×（Ｈ×Ｗ）的特征图Ｇ后，将Ｇ中的通道与通道之间两两进行点乘操作，计算通道之间的相似性矩阵．ＦＨＭ的目的是削弱特征通道之间相似度较高的通道，突显相似度较低的通道作为重要的特征通道．因此将相似性矩阵中最大的特征值减去其中的每一个元素，随后计算权重因子ａｔｔｅ：ａｔｔｅ＝ｓｏｆｔｍａｘ（ｍａｘ（ＧＧＴ）－ＧＧＴ）（１１）将ａｔｔｅ与原始的特征进行内积操作得到的新的特征，随后将新的特征与可学习参数α相乘，再与原始输入特征相加得出最终输出．ｈ＝α·（ａｔｔｅ·Ｏ）＋Ｏ（１２）其中，“·”表示向量的内积．４　跨领域推荐模型ＡＭＴＲＡＭＴＲ模型目的是在对评论文本合理建模提取有效信息的基础上，将源领域获取的知识用来丰富目标领域的数据，实现跨领域的知识迁移，从而解决目标领域数据稀疏和用户冷启动问题，提高目标域推荐的准确性．因此本文在基于双注意力机制的特征提取网络基础上，通过联合建模源域、目标域和共享域三个不同的领域，利用特征提取网络分别学习源域和目标域中领域特有的特征以及共享特征，最后引入因子分解机ＦＭ（Ｆａｃｔｏｒｉｚａｔｉｏｎ　Ｍａｃｈｉｎｅ）从而构建出跨领域推荐模型ＡＭＴＲ．如图４所示，ＡＭＴＲ模型由词向量、特征提取网络和决策网络组成，其中特征提取网络使用ＣＮＮ同时提取评论文本中用户的源域特征、目标域特征和共享特征，以及项目的源域特征、目标域特征和共享特征，在ＣＮＮ前后加入ＷＡＭ和ＦＨＭ．决策网络进行不同领域知识融合以及使用因子分解机进行评分预测．图４　ＡＭＴＲ模型４．１　引入迁移学习后的特征提取网络本文模型通过建模不同的领域实现知识的迁移，因此特征提取网络分为三个部分：源域、目标域以及共享域．三个域的网络模块皆使用两个并行的ＣＮＮ分别进行用户特征和项目特征的提取，其使用相同的网络结构，网络之间参数不共享．通过源域和１０期柴玉梅等：基于双注意力机制和迁移学习的跨领域推荐模型１９２９目标域学习领域特有的特征，通过共享域学习领域间的共享特征．其中源域输入源域评论，目标域输入目标域评论，共享域输入源域和目标域的评论．源域、目标域和共享域的特征提取的具体过程如算法２所示．算法２．　源域、目标域以及共享域的特征提取．输入：用户聚合评论文本文档ｄｕ１：ｍ、项目聚合评论文本文档ｄｉ１：ｐ，卷积核的窗口大小ｑ输出：源域、目标域特征Ｏｌ，共享域特征Ｏｃ，ｌ∈｛ｓ，ｔ｝１．将ｄｕ１：ｍ，ｄｉ１：ｐ送进ＷＡＭ中，生成ＷＡＭｕ１：ｍ，ＷＡＭｉ１：ｐ２．对ＷＡＭｕ１：ｍ，ＷＡＭｉ１：ｐ进行操作（７），生成（Ｚｕｊ）ｌ，（Ｚｉｊ）ｌ３．对（Ｚｕｊ）ｌ，（Ｚｉｊ）ｌ执行操作（８）４．ＦＯＲ　ＥＡＣＨｊ∈ｑ　ＤＯ５．进行操作（９）生成（Ｏｕ）ｌ＝（Ｏｕｊ）ｌ，（Ｏｉ）ｌ＝（Ｏｉｊ）ｌ６．ＥＮＤ　ＦＯＲ７．进行操作（１０）生成Ｏｌ＝（Ｏｕ）ｌ＋（Ｏｉ）ｌ８．对ＷＡＭｕ１：ｍ，ＷＡＭｉ１：ｐ进行操作（７），生成（Ｚｕｊ）ｃ，（Ｚｉｊ）ｃ９．对（Ｚｕｊ）ｃ，（Ｚｉｊ）ｃ进行操作（８）１０．ＦＯＲ　ＥＡＣＨｊ∈ｑ　ＤＯ１１．进行操作（９）生成（Ｏｕ）ｃ＝（Ｏｕｊ）ｃ，（Ｏｉ）ｃ＝（Ｏｉｊ）ｃ１２．ＥＮＤ　ＦＯＲ１３．进行操作（１０）生成Ｏｃ＝（Ｏｕ）ｃ＋（Ｏｉ）ｃ１４．ＲＥＴＵＲＮＯｌ，Ｏｃ４．２　知识融合以及评分预测的网络通过特征提取网络得到三个领域的特征，随后进行三个领域知识的融合，将来自源域的特征和共享域的特征结合，来自目标域的特征和共享域的特征结合，实现知识的迁移．特征融合过程为：三个域的特征分别通过全连接层后进行拼接，得到最终的特征输出ｙ＾ｋ：ｙ＾ｋ＝ｆ（ｗｓｃｈｃ＋ｗｓｈｓ＋ｂｓ），ｋ＝０ｆ（ｗｔｃｈｃ＋ｗｔｈｔ＋ｂｔ），ｋ烅烄烆＝１（１３）其中，ｋ（ｋ∈｛０，１｝）是域标签，０代表源域，１代表目标域．ｗｓｃ、ｗｔｃ、ｗｓ、ｗｔ和ｗｃ分别为共享域和源域、共享域和目标域、源域、目标域和共享域的权重，而ｂｓ和ｂｔ分别为源域和目标域的偏置量，ｆ代表ＲｅＬＵ激活函数．随后引入ＦＭ［３０］得到用户对项目的预测评分：ｒ＾＝ｗ＾０＋Σ｜ｙ＾ｋ｜ｉ＝１ｗ＾ｉｙ＾ｋｉ＋Σ｜ｙ＾ｋ｜ｉ＝１Σ｜ｙ＾ｋ｜ｊ＝ｉ＋１〈ｖ＾ｉ，ｖ＾ｊ〉ｙ＾ｋｉｙ＾ｋｊ（１４）其中，ｗ＾０是全局偏置量，ｗ＾ｉ是ｙ＾ｋ中第ｉ个分量的权重值．〈ｖ＾ｉ，ｖ＾ｊ〉＝Σ｜ｙ＾ｋ｜ｆ＝１ｖ＾ｉ，ｆｖ＾ｊ，ｆ为各分量之间的二阶交互．４．３　ＡＭＴＲ模型的损失函数考虑到领域特有的特征可能进入共享特征空间，导致数据冗余，为保证它们之间的独立性，在共享特征后引入域鉴别器［９］．使用域鉴别器ｐ（ｄ｜ｈｃ），预测共享特征ｈｃ上的领域标签ｄ，区分特征来自源域还是目标域，定义如下：ｐ（ｄ｜ｈｃ）＝ｓｏｆｔｍａｘ（ｗｃｈｃ＋ｂｃ）（１５）其中，ｗｃ表示共享域权重，ｂｃ表示共享域偏置量．为了使共享域难以区分特征是来自于源域还是目标域的特征空间，减少不同领域的概率分布的差异，防止领域特有的特征进入共享空间，本文在共享特征空间中加入对抗性损失［９］Ｌａｄｖ消除噪声特征，记为Ｌａｄｖ＝１ｎΣ ｎｉ＝１Σ１ｋ＝０ｐ（ｄ＝ｋ｜ｈｃｉ）ｌｏｇｐ（ｄ＝ｋ｜ｈｃｉ）（１６）随后分别在源域和目标域的特征空间加入域鉴别损失函数，使得领域特有的特征空间可以更好地区分不同的领域，定义源域Ｌｓ和目标域Ｌｔ的负熵损失函数为Ｌ｛ｓ，ｔ｝＝－１ｎ｛ｓ，ｔ｝Σｎ｛ｓ，ｔ｝ｉ＝１ Σ ｋ∈｛ｓ，ｔ｝Ｉ（ｄｉ＝ｋ）ｌｏｇｐ（ｄ＝ｋ｜ｈ｛ｓ，ｔ｝ｉ）（１７）为了学习领域的不变的特征，在已学到的共享特征ｈｃ和领域特有的特征ｈｃ、ｈｔ上增加正交约束［９］Ｌｏｒｔｈ记为Ｌｏｒｔｈ＝Σ ｋ∈｛ｓ，ｔ｝ｈｃＴｈｋ（１８）ＡＭＴＲ模型可以选择最小均方误差（Ｌ２）和最小绝对值误差（Ｌ１）损失函数训练模型，实验显示Ｌ２比Ｌ１的表现稍好，因此本文利用Ｌ２损失函数进行训练，实验结果详细见５．５．６节．模型的损失函数最终定义为ｌｏｓｓ＝Σ ｋ∈｛ｓ，ｔ｝－１ｎｋΣｎｋｊ＝１１２（ｒｋｕ，ｉ－ｒ＾ｋｕ，ｉ）２＋λ１２Ｌａｄｖ＋λ２２Ｌｓ＋λ３２Ｌｔ＋λ４２Ｌｏｒｔｈ＋λ５２Θ ２Ｆ（１９）其中，λ１、λ２、λ３、λ４和λ５为不同损失函数的正则化参数，Θ 表示模型参数．ｒｋｕ，ｉ和ｒ＾ｋｕ，ｉ为用户ｕ对项目ｉ的真实评分和预测评分．４．４　ＡＭＴＲ模型的联合训练ＡＭＴＲ模型训练的具体过程如算法３所示．采用联合训练的方式将源域和目标域中的数据依次送入网络中，用域鉴别器判定特征的域标签，将不同域传递出的损失值相加进行反向传播从而进行参数的更新．１９３０计　　算　　机　　学　　报２０２０年算法３．　ＡＭＴＲ模型的训练．输入：源域的训练数据Ｄｓ（｛数据ｄｓ，标签ｌｓ｝），目标域的训练数据Ｄｔ（｛数据ｄｔ，标签ｌｔ｝）（｜Ｄｓ｜＞｜Ｄｔ｜），模型ｆ，损失函数Ｌ，学习率ε，衰减率ρ１，ρ２，稳定系数δ输出：决策层参数ｗｃ，ｗｂ，ｗｓ，ｂｓ，ｗｔ，ｂｔ，ｗｓｃ，ｂｓｃ，ｗｔｃ，ｂｔｃ，特征层的网络参数Θｓ，Θｔ，Θｃ１．正交初始化参数Θ＝｛ｗｃ，ｗｂ，ｗｓ，ｂｓ，ｗｔ，ｂｔ，ｗｓｃ，ｂｓｃ，ｗｔｃ，ｂｔｃ，Θｓ，Θｔ，Θｃ｝２．迭代次数ｅｐｏｃｈ＝０３．一阶矩和二阶矩变量ｓ＝０，ｒ＝０；４．时间步ｓｔｅｐ＝０５．ＷＨＩＬＥｅｐｏｃｈＭａｘｅｐｏｃｈ　ＤＯ６．　ＦＯＲ　ＥＡＣＨ（ｄｓ，ｌｓ）∈Ｄｓ　ＤＯ７．　　从Ｄｔ中随机选取一个目标域训练数据ｄｔ，ｌｔ８．　　计算梯度ｇ←１ｍΘＬ（ｆ（ｄｓ，ｄｔ，Θ），ｌｓ，ｌｔ）９．　　更新参Θ←Θ－ερ１ｓ＋（１－ρ１）ｇ１－ρｓｔｅｐ１ρ１ｒ＋（１－ρ１）ｇ２槡１－ρｓ１ｔｅｐ＋δ，ｓ←ρ１ｓ＋（１－ρ１）ｇ，ｒ←ρ１ｒ＋（１－ρ１）ｇ２１０．　　ｓｔｅｐ＋＝１１１．　ＥＮＤ　ＦＯＲ１２．　ｅｐｏｃｈ＋＝１１３．ＥＮＤ　ＷＨＩＬＥ１４．ＲＥＴＵＲＮΘ４．５　模型时间复杂度分析本文提出的ＡＭＴＲ模型中，主要的时间成本包含以下两个部分：特征提取网络和决策网络．其中特征提取网络包含ＷＡＭ、ＣＮＮ和ＦＨＭ．对于ＷＡＭ来说，设置句子的长度为ｎ，词向量的维度为ｄ．进行卷积操作的时间复杂度为Ｏ（ｎｄ），通过两个全连接层的时间复杂度为Ｏ（２×ｎ２／ｒ），ｒ为特征衰减系数．通过ＣＮＮ的时间复杂度为Ｏ（Σｉｑｉ×ｄ ×ｎ×Ｃｏｕｔ），其中Ｃｏｕｔ为输出通道数．通过ＦＨＭ的时间复杂度为Ｏ Σｉ（Ｃｏｕｔｉ）．对于决策网络来说，特征合并层的时间复杂度为Ｏ Σｉ（Ｃｏｕｔｉ×ｎ′），ｎ′表示决策参数，且ｎ′＜ｎ．ＦＭ的时间复杂度为Ｏ（ｋ（ｎ′）２），其中ｋ为ＦＭ的系数．因此ＡＭＴＲ模型总的时间复杂度为Ｏ＝（ｎｄ＋２×ｎ２／ｒ＋Σｉｑｉ×ｄ×ｎ×Ｃｏｕｔ＋ΣｉＣｏｕｔｉ＋ΣｉＣｏｕｔｉ×ｎ′＋ｋ（ｎ′）２）．５　实验与分析５．１　数据集为保证实验结果的可靠性，本文选用Ａｍａｚｏｎ数据集①进行实验评估．该数据集主要包含用户对网站商品的评价信息及商品元数据，总共有１４２８０００００条评论，评分范围为１到５的整数，时间跨度为１９９６年５月至２０１４年７月．本文在Ａｍａｚｏｎ数据集中选择“电影”、“图书”和“ＣＤ”作为实验数据，将其分为“电影－图书”和“电影－ＣＤ”两个跨领域组合进行实验分析．首先对数据进行稠密度的预处理，保留三组数据中具有１０条以上评论的用户，“图书”和“电影”中超过１２０条评论的项目，“ＣＤ”中超过３０条评论的项目，随后从“电影－图书”和“电影－ＣＤ”跨领域组合中选择有交互的用户．“电影”的稠密度相比于“图书”和“ＣＤ”的稠密度更大，因此在跨领域组合中将“电影”作为源域，“图书”和“ＣＤ”分别作为目标域．其次对评论文本进行分词、删除停用词、用Ｎｌｔｋ② 进行词形的还原等处理，数据集统计信息如表１所示．表１　数据集统计信息域＃用户＃项目＃评论稠密度／％电影－图书电影图书２０００５８４６５６３８２１５８６２１２１１３５１．８４１．０７电影－ＣＤ电影ＣＤ２０００５８７３６９７５２１４０３８１４０４２２１．８２１．００６５．２　评价指标平均绝对误差ＭＡＥ（Ｍｅａｎ　Ａｂｓｏｌｕｔｅ　Ｅｒｒｏｒ）、均方根误差ＲＭＳＥ（Ｒｏｏｔ　Ｍｅａｎ　Ｓｑｕａｒｅ　Ｅｒｒｏｒ）和均方误差ＭＳＥ（Ｍｅａｎ　Ｓｑｕａｒｅ　Ｅｒｒｏｒ）是评估推荐性能的三个指标，它们通过计算预测评分和真实评分之间的误差来衡量推荐结果的准确性．ＭＡＥ、ＲＭＳＥ和ＭＳＥ定义分别为ＭＡＥ＝１ＮΣ Ｎｉ＝１｜ｒｕ，ｉ－ｒ＾ｕ，ｉ｜（２０）ＲＭＳＥ＝１ＮΣ Ｎｉ＝１（ｒｕ，ｉ－ｒ＾ｕ，ｉ）槡２（２１）ＭＳＥ＝１ＮΣ Ｎｉ＝１（ｒｕ，ｉ－ｒ＾ｕ，ｉ）２（２２）其中，Ｎ表示测试数据的数量，ｒｕ，ｉ表示测试数据真实的评分，ｒ＾ｕ，ｉ表示通过ＡＭＴＲ模型后得到的ｒｕ，ｉ的１０期柴玉梅等：基于双注意力机制和迁移学习的跨领域推荐模型１９３１①②ｈｔｔｐ：／／ｊｍｃａｕｌｅｙ．ｕｃｓｄ．ｅｄｕ／ｄａｔａ／ａｍａｚｏｎ／ｈｔｔｐｓ：／／ｗｗｗ．ｎｌｔｋ．ｏｒｇ／预测值．ＭＡＥ、ＲＭＳＥ和ＭＳＥ三个指标越小代表推荐准确性越高．ＭＡＥ、ＲＭＳＥ和ＭＳＥ的评价结论一致．为了与对比模型在同一评估方法下进行实验对比，本文将选择对比模型采用的评价指标来评估评分预测的精度．５．３　对比模型为了评估ＡＭＴＲ模型的性能，将与以下模型进行对比：（１）ＣＢＴ［１１］．一种跨领域推荐的经典模型．将用户和项目的特征因子进行聚类得到评分模式矩阵，同时假设领域之间的评分模式相似，在领域间进行评分模式共享．（２）ＣＬＦＭ［１２］．一种聚类层次的潜在因子模型．不仅学习领域之间共享的评分模式，还学习每个领域特有的评分模式，仅利用共享评分模式进行知识迁移．（３）ＣＤＴＦ［１５］．一种典型的基于张量分解的跨领域推荐模型．利用用户－项目－领域三元关系，通过张量的三因式分解捕捉特征，从而进行知识迁移．（４）ＷＩＴＦ［１６］．一种基于张量因式分解模型．它利用从多领域学习到的显式偏好数据和隐式偏好数据作为先验知识从而提高目标域的推荐性能．（５）ＣＣＣＦＮｅｔ［１７］．一种多视图的神经网络学习框架．将协同过滤和基于内容的过滤结合进行跨领域推荐．（６）ＭＦ［３１］．一种传统的基于协同过滤思想的方法．它将评分矩阵进行分解，得到用户矩阵和项目矩阵，从而预测缺失评分．（７）ＤｅｅｐＣｏＮＮ［２１］．一种利用神经网络进行评论文本建模的代表性推荐模型．通过并行ＣＮＮ联合学习评论文本中用户和项目的特征从而进行评分预测．（８）Ｄ－ＡＴＴ［２３］．一种基于注意力机制的推荐模型．通过在ＣＮＮ编码层之前引入注意力机制过滤评论文本中重要单词得到用户和项目特征进行评分预测．５．４　实验设置本文模型采用两种不同的方式进行训练与测试．方式１将经过预处理的实验数据集中源域数据全部用于训练，目标域数据随机分为训练集和测试集，其中８０％的数据用于训练，２０％用于测试．方式２将源域数据全部用于训练，目标域数据随机分为５０％的训练集和５０％的测试集．在实验环节，实验配置为Ｕｂｕｎｔｕ１６．０４、ＣＰＵｉ７－８７００ＨＱ、１６ＧＢ内存、ＮＶＩＤＩＡ　ＧＴＸ　１０５０Ｔｉ　４Ｇ，实验所需环境为Ｐｙｔｈｏｎ２．７．１３、Ｐｙｔｏｒｃｈ０．４．０、Ｎｌｔｋ、Ｓｃｉｐｙ、Ｇｅｎｓｉｍ＝３．２．０、Ｎｕｍｐｙ＝１．１５．本文使用Ｇｌｏｖｅ将评论文本向量化，词向量维度Ｌ为１００，卷积核数量设置为１５０，采用多个不同的卷积核进行卷积操作，窗口大小分别为３、４、５．为了缓解过拟合现象，将０．５的ｄｒｏｐｏｕｔ［３２］应用于决策网络的全连接层．损失函数的参数设置为λ１＝λ２＝λ３＝λ４＝０．０４，λ５＝０．０００　６４．本文模型中ＦＭ的权重因子维度设置为５，输入ＦＭ的用户特征维度和项目特征维度设置为５０．采用自适应矩估计Ａｄａｍ［３３］（ＡｄａｐｔｉｖｅＭｏｍｅｎｔ　Ｅｓｔｉｍａｔｉｏｎ）训练模型进行优化，它是一个基于随机梯度的优化器，具有自适应估计，其学习率设置为０．００１，其余参数设置和Ｐｙｔｏｒｃｈ① 相同．对比模型的参数均为最优值，ＣＢＴ模型的用户和项目的聚类的数量均设置为５０；ＣＬＦＭ模型的用户和项目的聚类的数量均设置为５０，共享公共子空间的维度设置为４０；ＣＤＴＦ模型的潜在因子向量的维度设置为２５，λＵ＝０．０５，λＶ＝０．００１，λＣ＝０．００１；ＷＩＴＦ模型的潜在因子向量的维度设置为２５，λＵ＝１，λＶ＝１，λＣ＝１；ＣＣＣＦＮｅｔ模型的参数按论文最优值取值；ＭＦ算法的潜在因子向量的维度设置为２０，正则化参数设置为０．００１；ＤｅｅｐＣｏＮＮ模型的卷积核数目设置为１５０，权重衰减设置为０．００６４；Ｄ－ＡＴＴ模型按照原论文的最优参数取值．本文对ＡＭＴＲ的重要参数进行了研究，实验表明不同的卷积核数目对模型的性能有不同的影响．在实验中，设置卷积核数目为５０、１００、１５０、２００、２５０．在“电影－ＣＤ”数据集得到的实验结果如图５所示．图５　卷积核数目对ＭＳＥ值的影响从图５中可以看出，当卷积核数目为１５０时，模型在数据集上ＭＳＥ取最小值，而随着卷积核数目的继续增加，模型的ＭＳＥ持续变大，模型的性能随着卷积核数目的增加反而变差，因此本文设置模型１９３２计　　算　　机　　学　　报２０２０年① ｈｔｔｐｓ：／／ｐｙｔｏｒｃｈ．ｏｒｇ／的卷积核数目为１５０．而ＤｅｅｐＣｏＮＮ模型与本文一样采用深度学习的方法，利用ＣＮＮ进行文本特征的提取从而进行用户和项目的建模．在ＤｅｅｐＣｏＮＮ模型测试卷积核数目对模型性能影响的时候，ＭＳＥ同样呈先下降后上升的趋势．因此可以看出卷积核数目对模型性能有较大的影响．５．５　实验结果与分析本文实验的目的是验证融合评论文本信息进行跨领域推荐的ＡＭＴＲ模型优于仅利用评分信息的跨领域推荐模型以及仅在单领域进行推荐的模型．因此通过验证如下内容，评估本文模型的有效性：（１）验证融合文本信息带来的推荐性能提升；（２）验证迁移学习在不同数据集上带来的推荐性能提升；（３）验证注意力机制带来的推荐性能提升；（４）验证本文模型解决数据稀疏和用户冷启动问题的能力；（５）验证本文模型的普适性．此外，还对调整用户评分尺度差异问题进行了相应实验验证．５．５．１　推荐准确度比较为了验证模型的推荐准确度，实验评估了本文提出的ＡＭＴＲ模型与现有的跨领域推荐模型ＣＢＴ、ＣＬＦＭ、ＣＤＴＦ、ＷＩＴＦ以及ＣＣＣＦＮｅｔ在“电影－图书”和“电影－ＣＤ”两种数据集下的结果，并将结果进行比较．对于ＡＭＴＲ模型，使用方式１进行训练与测试．由于上述对比模型大多采用ＭＡＥ和ＲＭＳＥ作为实验评估指标，为与其评估方法一致，采用上述指标．不同模型在不同数据集下的ＭＡＥ和ＲＭＳＥ如表２所示．表２　不同数据集下ＭＡＥ和ＲＭＳＥ的比较模型电影－图书ＭＡＥ　ＲＭＳＥ电影－ＣＤＭＡＥ　ＲＭＳＥＣＢＴ　０．８５４６　１．０２８６　０．８７７７　１．０６３１ＣＬＦＭ　０．９０３５　１．０７８７　０．９１０１　１．１１１５ＣＤＴＦ　１．１５４３　１．２５３５　１．１５２２　１．２２３８ＷＩＴＦ　１．０８００　１．２７９０　１．０３４１　１．２００３ＣＣＣＦＮｅｔ　０．９４６２　１．１９９１　０．８７１３　１．０９５８ＡＭＴＲ　０．７９３６　０．９９２０　０．７７９８　０．９９３０从表２可以看出，不管是基于ＭＡＥ指标，还是ＲＭＳＥ指标，本文提出的ＡＭＴＲ模型在不同数据集的实验中均优于对比模型，并且取得了最优的结果．在“电影－图书”数据集上，ＡＭＴＲ模型的ＭＡＥ为０．７９３６，相对对比模型中表现最好的ＣＢＴ模型提高６．１％；ＲＭＳＥ为０．９９２０，提高３．６６％．另外在“电影－ＣＤ”数据集上，其ＭＡＥ为０．７７９８，相对对比模型中ＭＡＥ最好的ＣＣＣＦＮｅｔ模型提高了９．１５％；ＲＭＳＥ为０．９９３０，相对对比模型中ＲＭＳＥ最好的ＣＢＴ模型提高７．０１％．该结果表明利用评论文本的ＡＭＴＲ模型相对于利用评分的模型能更有效提高评分预测的准确度．５．５．２　知识迁移的有效性为了验证ＡＭＴＲ模型知识迁移的有效性，表明模型可以通过迁移学习提高目标域的推荐精度，本文将ＡＭＴＲ与单领域的推荐模型ＭＦ、Ｄｅｅｐ－ＣｏＮＮ以及Ｄ－ＡＴＴ进行了比较．对于ＡＭＴＲ模型采用方式１进行训练和测试，其中三个单领域模型只在“图书”和“ＣＤ”数据集上进行测试．由于对比模型大多采用ＭＳＥ作为评价指标，因此本实验采用ＭＳＥ作为评价指标，结果如图６和图７所示．从图６和图７的结果可以看出，在两种数据集上，本文提出的ＡＭＴＲ模型均优于对比模型．在“电影－图书”数据集上，ＡＭＴＲ模型的ＭＳＥ为０．９８４１，相比于ＭＦ、ＤｅｅｐＣｏＮＮ和Ｄ－ＡＴＴ模型分别提升了４７．７２％、１４．１％、５．４７％．在“电影－ＣＤ”数据集上，ＡＭＴＲ模型的ＭＳＥ为０．９８６１，相比于ＭＦ、ＤｅｅｐＣｏＮＮ和Ｄ－ＡＴＴ模型分别提升了４２．４９％、１４．１８％、１０．３５％．结果表明，相比于只利用单领域数据来说，利用辅助领域数据可以帮助目标域提高推荐性能．表明了ＡＭＴＲ模型具有较好的知识迁１０期柴玉梅等：基于双注意力机制和迁移学习的跨领域推荐模型１９３３移性能，可以提高目标域的推荐精度．与此同时，利用评论文本的模型ＤｅｅｐＣｏＮＮ和Ｄ－ＡＴＴ以及ＡＭＴＲ的ＭＳＥ相较于利用评分的ＭＦ在“电影－图书”数据集分别提升了３３．６２％、４２．２５％、４７．７２％，在“电影－ＣＤ”数据集分别提升了２８．３１％、３２．１４％、４２．４９％，由此可见利用评论文本相比于利用评分可以更好地提高推荐的性能．为了进一步验证ＡＭＴＲ模型能够有效地进行知识迁移，本文设计了一组新的对比实验进行验证，本文模型采用方式２进行训练与测试，单领域推荐模型的数据集随机分为５０％作为训练集，剩余５０％作为测试集．实验结果如图８和图９所示．通过图８和图９可以看出，本文的ＡＭＴＲ模型在不同的数据集下仍取得了最优性能．在“电影－图书”数据集上，ＡＭＴＲ模型的ＭＳＥ为１．０００３，相比于ＭＦ、ＤｅｅｐＣｏＮＮ和Ｄ－ＡＴＴ模型分别提升了４６．４１％、１４．２％、４．５５％．在“电影－ＣＤ”数据集上，ＡＭＴＲ模型的ＭＳＥ为０．９８８４，相比于ＭＦ、ＤｅｅｐＣｏＮＮ和Ｄ－ＡＴＴ模型分别提升了４７．０６％、１６．８２％、１０．８１％．结果表明本文模型可以充分利用源域数据提高目标域的推荐精度的问题，具有较好的知识迁移性能．５．５．３　ＷＡＭ和ＦＨＭ的有效性本文加入词级别和特征级别的注意力机制，用于捕获更多的重要信息，使得模型有更好的特征提取能力．为了研究ＷＡＭ和ＦＨＭ对模型性能的影响，本文在“电影－图书”和“电影－ＣＤ”跨领域数据集上设置了一组对比实验．分别在不加入ＷＡＭ和ＦＨＭ的ＡＭＴＲ－Ｗ＆Ｆ模型，只加入ＦＨＭ的ＡＭＴＲ－Ｗ模型，只加入ＷＡＭ的ＡＭＴＲ－Ｆ模型以及ＡＭＴＲ模型上进行对比，结果如表３所示．表３　不同注意力机制下的ＭＳＥ比较数据集ＡＭＴＲ－Ｗ＆Ｆ　ＡＭＴＲ－Ｗ　ＡＭＴＲ－Ｆ　ＡＭＴＲ电影－图书１．１４２３　１．０５４６　１．０９４５　０．９８４１电影－ＣＤ　１．１０８９　１．０７３０　１．０９２５　０．９８６１从表３可以看出加入注意力机制的模型的性能整体优于不加入注意力机制的模型．在“电影－图书”数据集下，加入ＷＡＭ和ＦＨＭ的本文模型ＡＭＴＲ的ＭＳＥ为０．９８４１，相较于ＡＭＴＲ－Ｗ＆Ｆ、ＡＭＴＲ－Ｗ、ＡＭＴＲ－Ｆ分别提升了１５．８２％、７．０５％、１１．０４％．在“电影－ＣＤ”数据集下，本文模型的ＭＳＥ为０．９８６１，相较于ＡＭＴＲ－Ｗ＆Ｆ、ＡＭＴＲ－Ｗ、ＡＭＴＲ－Ｆ分别提升了１２．２８％、８．６９％、１０．６４％．由此可以表明ＷＡＭ和ＦＨＭ可以有效地捕获出重要信息，使模型有更好的特征提取能力，提高了模型的性能．为了更直观地说明ＷＡＭ可以通过词的输出权重表示不同词的重要性，因此以两个可视化的案例来说明本文提出的ＷＡＭ的有效性，随机从“图书”和“电影”的测试集中选择一条用户对某个项目的评论语句作为测试对象，该评论不做任何除词干化之外的操作，保留该句的每一个词的权重，将权重值大于平均值的词标为斜体加下划线，对远大于平均值的词加粗显示，以此为标准，绘制如图１０所示的注意力分布情况．图１０　注意力分布可视化结果１９３４计　　算　　机　　学　　报２０２０年“图书”领域下的评论总体是用户对书籍内容本身，以及阅读感受的分析评价．“Ｔｈｉｓ　ｉｓ　ａ　ｇｏｏｄ　ｂｏｏｋ”表明用户对“书”的积极情感；“ｂｏｏｋ　ｆｏｒ　ｃｈｉｌｄｒｅｎ　ｏｆａｌｌ　ａｇｅｓ”表达了物品“书”本身的特征，是关于“儿童”的书籍；“ｄｅｓｃｒｉｂｉｎｇｔｈｅ　ｓｔｏｒｉｅｓ　ｂｅｈｉｎｄ　ｓｏｍｅ　ｏｆ　ｔｈｅｍｏｓｔ　ｐｏｐｕｌａｒ　ｂａｌｌｅｔｓ”表明书中“描述”的“故事”是关于“芭蕾舞的”；“ｗｒｉｔｔｅｎ　ｉｎ　ｅａｓｙ－ｔｏ－ｕｎｄｅｒｓｔａｎｄｌａｎｇｕａｇｅ　ａｎｄ　ｈａｓ　ｂｅａｕｔｉｆｕｌ　ｉｌｌｕｓｔｒａｔｉｏｎｓ”表明书用“易于理解的语言”进行“编写”以及具有“精美的插图”．从这句话可以得出“书”的特征有“儿童”、“描述”、“芭蕾舞的故事”、“编写”、“易于理解的语言”和“精美的插图”，同时也可以得知用户对书的“描述”、“编写”、“语言”和“插图”等方面特征的关注．用户虽然只有一个“ｇｏｏｄ”描述了对这本书的感受，但是从“易于理解的语言”和“精美的插图”等方面可以看出用户对这本书的评价呈优．“电影”领域的评论中，可以看出用户对电影整体的偏好，认为它有趣，动作丰富，人物鲜活，摄影技术很好，是蓝光的．体现出用户对电影关注在“电影给予的感觉”、“动作”、“角色”和“摄像”，这些关注的评价呈优，也体现了电影本身的特征“有趣”、“动作”、“角色”、“摄像”和“蓝光”．ＷＡＭ很好地关注了ｅｎｊｏｙ、ｍｏｖｉｅ、ｆｕｎ、ａｃｔｉｏｎ　ｐａｃｋｅｄ、ｃｈａｒａｃｔｅｒｓａｒｅ　ｆｒｅｓｈ、ｃｉｎｅｍａｔｏｇｒａｐｈｙ　ｆｅｅｌｓ　ｇｏｏｄ、Ｂｌｕｅ－ｒａｙ（喜欢、电影、有趣、动作丰富、人物鲜活、摄影技术很好、蓝光）．且“ａｃｔｉｏｎ”和“Ｂｌｕｅ－ｒａｙ”具有更好的权重，说明它们占据的关注度更高．从上可以看出，ＷＡＭ很好地关注了文本中的重要信息，并为这些重要的信息赋予了高权重，因此，神经网络可以通过ＷＡＭ加强对文本内容重点部分的关注，使得模型有更好的特征提取能力，同时ＷＡＭ提取重要信息的有效性得到证明，使得推荐更具有解释性．５．５．４　缓解数据稀疏问题为验证ＡＭＴＲ模型可以缓解目标域中数据稀疏问题，本节设置两组对比实验，分别与跨领域推荐模型和单领域推荐模型进行对比，通过控制测试集中用户的评论数进行实验．本文模型采用方式１进行训练与测试．针对测试集中每个用户的所有评论，分别从中随机挑选α 倍的评论作为测试集，α 为１０％、３０％、５０％、７０％以及１００％．实验１．　与跨领域推荐模型的比较本实验在不同的α下分别对跨领域模型进行测试，结果如图１１和图１２所示．１０期柴玉梅等：基于双注意力机制和迁移学习的跨领域推荐模型１９３５α越小，表明领域中的数据越稀疏，数据稀疏问题越明显．由图１１和图１２可以看出无论α取何值，ＡＭＴＲ模型在“电影－图书”和“电影－ＣＤ”两个数据集上ＭＡＥ、ＲＭＳＥ普遍优于对比模型，取得了较好的效果．其中，在α为１０％时，ＣＢＴ模型由于数据太少无法得出实验结果．图１１表示“电影－图书”数据集下的实验结果．首先从横向比较可以看出，随着α的增加，用户的评论数量增加，各个模型的推荐效果均逐步在提升．例如，当α 为１００％时，ＡＭＴＲ、ＣＢＴ、ＣＬＦＭ、ＣＤＴＦ、ＷＩＴＦ、ＣＣＣＦＮｅｔ模型相比于α 为１０％时，ＭＡＥ分别提升了２．２４％、－、８．１９％、１３．１７％、１８．２４％、１０．８７％；ＲＭＳＥ分别提升了１．９１％、－、１４．７６％、１．９７％、１４．５１％、１０．９８％；相比于α 为５０％时分别提升了１．７５％、４．１１％、４．５２％、６．２３％、５．５２％、５．６１％；ＲＭＳＥ分别提升了１．１７％、３．８２％、９．５％、０．９８％、１０．２％、５．２％．由此可见，本文的ＡＭＴＲ模型相较于对比模型取得了更为稳定的效果，说明ＡＭＴＲ模型受数据稀疏问题的影响较小．同时表明了ＡＭＴＲ模型相对于对比模型可以挖掘更多的有利于评分预测的用户和项目信息，即使在数据较为稀疏的情况下，模型通过评论文本进行知识迁移后的信息可以帮助模型取得较为稳定的推荐效果，更好地缓解数据稀疏问题．从纵向比较可看出，本文模型在各种不同α 下相较于对比模型呈现的效果为最优．例如，当α 为１０％时，ＡＭＴＲ模型的ＭＡＥ为０．８１６０，与ＣＬＦＭ、ＣＤＴＦ、ＷＩＴＦ、ＣＣＣＦＮｅｔ模型相比分别提高了１６．９４％、４７％、４４．６４％、２３．８９％；ＲＭＳＥ为１．０１１１，分别提高了２１．５２％、２６．２１％、４１．３％、２９．７８％．α为５０％时，ＡＭＴＲ模型的ＭＡＥ为０．８１１１，相比于ＣＢＴ、ＣＬＦＭ、ＣＤＴＦ、ＷＩＴＦ、ＣＣＣＦＮｅｔ模型分别提高了８．４６％、１３．７６％、４０．５５％、３２．４１％、１９．１２％；ＲＭＳＥ为１．００３７，分别提高了６．３１％、１７％、２５．９６％、３７．５５％、２４．７４％．α最小时，本文模型效果远高于对比模型，充分说明ＡＭＴＲ模型相较于对比模型可以更好地缓解数据稀疏问题．此外，在α为任意值的情况下ＡＭＴＲ模型相比于考虑评分的模型效果提升显著，说明评论文本相较于评分蕴含更多的用户和项目信息，能更好的缓解数据稀疏问题．图１２表示“电影－ＣＤ”数据集下的实验结果．首先从横向比较可以看出，随着α的增加，各个模型的推荐效果均不断变好．例如，当α为１００％时，ＡＭＴＲ、ＣＢＴ、ＣＬＦＭ、ＣＤＴＦ、ＷＩＴＦ、ＣＣＣＦＮｅｔ模型相比于α为３０％时，ＭＡＥ分别提升了１．７９％、１８．５２％、１３．４％、１３．５５％、１２．８３％、６．７４％，ＲＭＳＥ分别提升了１．７％、１１．６１％、１６．１９％、１．９６％、１８．３１％％、８．８４％；相比于α 为７０％时，ＭＡＥ分别提升了１．３８％、０．７４％、８．５９％、６．４％、０．９９％、２．１７％，ＲＭＳＥ分别提升了０．９２％、０．２７％，１１．４４％、０．９７％、５．２％、４．５２％．由此可见，本文的ＡＭＴＲ模型效果较为稳定，相比于对比模型能够更好地缓解数据稀疏问题．从纵向比较可看出，本文模型在各种不同α下效果呈最优．例如，当α 为３０％时，ＡＭＴＲ模型的ＭＡＥ为０．７９７７与ＣＢＴ、ＣＬＦＭ、ＣＤＴＦ、ＷＩＴＦ、ＣＣＣＦＮｅｔ模型相比分别提高了２６．５２％、２４．６４％、４９％、３６．４７％、１４．１％；ＲＭＳＥ为１．０１００，分别提高了１６．９２％、２６．３４％、２３．３４％、３７．３４％、１７．４２％．α为７０％时，ＡＭＴＲ模型的ＭＡＥ为０．７９３６，与ＣＢＴ、ＣＬＦＭ、ＣＤＴＦ、ＷＩＴＦ、ＣＣＣＦＮｅｔ模型相比分别提高了９．１５％、２０．２４％、４２．２６％、２５．０４％、９．９４％；ＲＭＳＥ为１．００２２，分别提高了６．３６％、２２．３７％、２３．１３％、２５．０１％、１３．８８％．由此可见，本文所提出的ＡＭＴＲ模型在一定程度上缓解了数据稀疏问题对推荐结果带来的不利影响，更好地提高了推荐的性能．实验２．　与单领域推荐模型的比较．本实验在不同的α下分别对单领域模型的表现情况进行了测评，结果如图１３和图１４所示．１９３６计　　算　　机　　学　　报２０２０年图１３和图１４结果表明，即使在不同的数据集下，本文模型相较于对比模型取得了较高的性能．首先从横向比较可以看出，随着α的增加，各个模型效果逐步提高．例如，在“电影－图书”数据集下，α 为１００％时，ＡＭＴＲ模型的ＭＳＥ为０．９８４１，与α 为１０％、３０％、５０％、７０％相比分别提高了３．８３％、２．８１％、２．３４％、０．５７％．在“电影－ＣＤ”数据集下，α为１００％时，ＡＭＴＲ模型的ＭＳＥ为０．９８６１，与α为１０％、３０％、５０％、７０％相比分别提高了４．９９％、３．３９％、１．９４％、１．８４％．本文ＡＭＴＲ模型效果随着α增加效果变化不明显，表明数据稀疏问题对模型性能影响不大，ＡＭＴＲ模型的稳定性较好．其次，从纵向可以看出，在各种不同α下，ＡＭＴＲ模型呈现的效果最好．例如，在“电影－图书”数据集下，α为１０％时，ＡＭＴＲ模型的ＭＳＥ为１．０２２４，与ＭＦ、ＤｅｅｐＣｏＮＮ、Ｄ－ＡＴＴ模型相比分别提高了５５．２７％、１４．７９％、２４．６％．α 为５０％时，ＡＭＴＲ模型的ＭＳＥ为１．００７５，分别提高了５１．５２％、１２．８６％、１１．２１％．在“电影－ＣＤ”数据集下，α为３０％时，ＡＭＴＲ模型的ＭＳＥ为１．０２００，与ＭＦ、ＤｅｅｐＣｏＮＮ、Ｄ－ＡＴＴ模型相比分别提高了４９．８１％、１２．３４％、２３．１１％．α为７０％时，ＡＭＴＲ模型的ＭＳＥ为１．００４５，分别提高了４７．４９％、１２．５３％、１０．１％．结果表明，数据越稀疏，ＡＭＴＲ模型的性能越优于对比模型，表明了本文ＡＭＴＲ模型相较于仅利用单领域信息的推荐模型能够更有效地缓解数据稀疏问题．且利用评论文本的ＤｅｅｐＣｏＮＮ、Ｄ－ＡＴＴ、ＡＭＴＲ的效果相较于利用评分的ＭＦ的效果更好，表明了评论文本相对于评分蕴含着更丰富的用户和项目信息，可以更好地缓解数据稀疏问题．５．５．５　缓解用户冷启动问题用户冷启动［３４］是推荐系统存在的一个不可忽视的问题，当新用户行为消息较少时，系统无法掌握其喜好，推荐性能会下降，跨领域推荐可以缓解这种问题．为验证ＡＭＴＲ模型可以缓解目标域中用户冷启动问题，本节设置两组对比实验，将ＡＭＴＲ模型与对比模型分别在“电影－图书”和“电影－ＣＤ”数据集上进行对比．从“图书”和“ＣＤ”数据集中挑选出４００个不与训练集用户重叠的新用户，同时将新用户的评论数目控制为１、３、

[返回]

上一篇：理性公平的秘密共享方案_刘海
下一篇：基于笔画ELMo和多任务学习的中文电子病历命名实体识别研究_罗凌