基于流行度分类特征的托攻击检测算法 - EI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

EI期刊论文

当前位置：首页 > EI期刊论文

基于流行度分类特征的托攻击检测算法

来源：一起赢论文网日期：2016-10-31 浏览数：6015 【字体：大中小】

第41卷第9期自动化学报 Vol. 41, No. 92015年9月 ACTA AUTOMATICA SINICA September, 2015一种基于流行度分类特征的托攻击检测算法李文涛1;2高旻1;3李华1;2熊庆宇1;3文俊浩1;3凌斌4摘要基于协同过滤的推荐系统容易受到托攻击的危害, 如何检测托攻击成为推荐系统可靠性的关键. 针对现有托攻击检测手段使用基于评分的分类特征易受混淆技术干扰的局限, 本文从用户选择评分项目方式入手, 分析由此造成的用户概貌中已评分项目的流行度分布情况的不同, 提出用于区分正常用户与虚假用户基于流行度的分类特征, 进而得到基于流行度的托攻击检测算法. 实验表明该算法在托攻击检测中具有更强的检测性能与抗干扰性.关键词协同过滤, 托攻击, 项目流行度, 幂律分布, 基于流行度的分类特征引用格式李文涛, 高旻, 李华, 熊庆宇, 文俊浩, 凌斌. 一种基于流行度分类特征的托攻击检测算法. 自动化学报, 2015, 41(9):1563¡1576DOI 10.16383/j.aas.2015.c150040An Shilling Attack Detection Algorithm Based on Popularity Degree FeaturesLI Wen-Tao1;2GAO Min1;3LI Hua1;2XIONG Qing-Yu1;3WEN Jun-Hao1;3LING Bin4Abstract Recommendation systems based on collaborative ¯ltering are vulnerable to shilling attacks, so how to detectattacks becomes crucial to ensure the reliability of these systems. Because the current shilling attack detection methodsbased on features extracted from rating patterns are susceptible to obfuscation technologies, this paper starts from astatistics analysis of the way users choose items to rate, thus getting the corresponding results of di®erent rated itemspopularity degree (rated times) distributions in normal users0s pro¯les and spam users0pro¯le. Then classi¯cation featuresbased on popularity degree are proposed to distinguish these two types of users. Finally, a shilling attack detectionalgorithm based on popularity features is developed. Experiments show that the detection performance of the algorithmis superior in attack detection precision and interference resistance.Key words Collaborative ¯ltering, shilling attack, item popularity, power-law distribution, features based on popularityCitation Li Wen-Tao, Gao Min, Li Hua, Xiong Qing-Yu, Wen Jun-Hao, Ling Bin. An shilling attack detection algorithmbased on popularity degree features.Acta Automatica Sinica, 2015, 41(9): 1563¡1576推荐系统[1¡3]是电子商务领域中为用户选择潜在感兴趣项目的重要工具. 协同过滤[4¡5]是推荐收稿日期2015-01-26 录用日期2015-06-01Manuscript received January 26, 2015; accepted June 1, 2015国家重点基础研究发展计划(973 计划) (2013CB328903), 国家自然科学基金(71102065), 重庆市基础与前沿研究计划项目(cstc2015jcyjA40049), 中国博士后基金(2012M521680), 中央高校基础研究基金(106112014CDJZR095502, CDJZR12090001) 资助Supported by National Key Basic Research Program of China(973 Program) (2013CB328903), National Natural Science Foun-dation of China (71102065), Basic and advanced researchprojects in Chongqing (cstc2015jcyjA40049), China Postdoc-toral Science Foundation (2012M521680), and FundamentalResearch Funds for the Central Universities (106112014CD-JZR095502, CDJZR12090001)本文责任编委赵铁军Recommended by Associate Editor ZHAO Tie-Jun1. 信息物理社会可信服务计算教育部重点实验室重庆400044, 中国 2. 重庆大学计算机学院重庆400044,中国 3. 重庆大学软件学院重庆400044,中国 4. 英国朴茨茅次大学工程学院朴茨茅次PO13AH,英国1. Key Laboratory of Dependable Service Computing in Cy-ber Physical Society, Ministry of Education Chongqing 400044,China 2. College of Computer Science, Chongqing University,Chongqing 400044, China 3. School of Software Engineering,Chongqing University, Chongqing 400044, China 4. School ofEngineering, University of Portsmouth, Portsmouth PO1 3AH,UK系统中广泛应用的一种技术, 这种技术通过为目标用户寻找相似用户作为最近邻, 利用最近邻的购买信息产生推荐结果. 这种工作模式在实际中十分有效, 但是却容易受到托攻击(Shilling attacks)[6¡7].托攻击是指虚假用户通过注入一定的虚假概貌伪装成正常用户的最近邻, 从而增加或者减少目标项目的推荐频率, 分别称为推攻击和核攻击(Push andnuke attacks),如何防范和检测托攻击成为当前推荐系统研究领域的热点之一[8¡10].如果把托攻击检测看成对正常用户与虚假用户进行分类[11], 那么其中就涉及到分类特征的选择[12¡13], 即通过寻找一系列的特征区分这两类用户. 当前使用的分类特征大多与用户对项目评分有关, 即从正常用户与虚假用户对项目评分的方式不同入手寻找相应的分类特征, 利用基于评分的分类特征有两个问题: 1) 某些正常用户与虚假用户的评分方式类似, 容易造成对此类正常用户的误判; 2) 实际中的攻击大多是经过混淆的, 如对目标项目不评最高(低) 分而是评次高(低) 分或在原始评分基础1564 自动化学报 41卷上加入一个随机数作为噪音干扰, 这样当前的检测指标难以胜任托攻击方式的各种变化.为解决这一问题, 本文从用户对评分项目选择方式入手, 提出基于流行度的托攻击分类特征. 由于真实用户对项目的选择带有自己的偏好, 而虚假用户则缺乏正常用户的购买动机, 因此无论采用何种形式的攻击模型对系统进行攻击, 为了降低攻击需要的知识, 大多是随机选择评分项目[14]. 由于实际中项目的评价次数或者称为项目流行度(Item pop-ularity)具有长尾效应[15¡16], 当把两类用户购买记录中的项目流行度分布看成是以不同方式从项目流行度服从的长尾分布中抽样, 并表示成为用户流行度向量的形式, 就给我们从流行度角度进行托攻击检测提供了可能.为此, 首先, 统计项目的流行度, 得到项目流行度服从的分布特性; 然后, 统计并分析常见托攻击模型下虚假用户的流行度向量与正常用户的流行度向量存在的差异, 从而得到基于流行度的分类特征; 最后, 把这些特征作为分类特征, 结合决策树算法, 得到基于流行度分类特征的托攻击检测算法, 从而用于检测系统中存在的虚假用户.论文的主要贡献在于: 1) 分析电影推荐系统中项目流行度满足的分布特性; 2) 把用户购买记录中的项目流行度表示为向量形式, 从而研究正常用户与虚假用户流行度分布的差异; 3) 根据两类用户流行度向量的差异, 针对不同的攻击模型, 提出基于流行度的分类特征, 并融合分类特征以适应各种攻击模型; 4) 将基于流行度的分类特征与决策树算法结合, 形成托攻击检测算法, 从而实现虚假用户的检测. 论文组织如下, 第1节介绍相关工作; 第2节提出基于流行度分类特征的托攻击检测算法; 第3节对实验进行分析与讨论; 最后, 进行总结与展望.1 相关工作攻击者通过注入虚假用户概貌(Pro¯le) 信息,试图改变系统的推荐结果的这类行为被称为\托攻击"或\用户概貌注入攻击"[7]. 当编造的虚假用户的评分被注入商品推荐系统后, 很可能对商品的推荐排名造成影响, 若不能有效地对托攻击进行检测,将影响到推荐系统对正常用户推荐商品的结果, 致使用户满意度下降, 所以推荐系统中的有效托攻击检测手段受到越来越多的重视[8].1.1 托攻击模型攻击者的所有评分构成攻击概貌, 一个长度为n的攻击概貌可以分为4个部分[7]: 选择项目集(Selected items)Is、装填项目集(Filled items)If、未评分项目集合(Unrated items) I;和目标项目集(Target items) It. 其中, 目标项目是攻击者要攻击的对象, 也即试图提高或者降低推荐频率的项目; 装填项目是攻击者随机选择的一系列项目, 这些项目可以使得一个攻击概貌看起来像正常用户的概貌并且难以被检测; 选择项目是攻击者精心挑选的一系列项目, 这些项目可以使得攻击更加有效, Mobasher 等提出少部分的选择项目就可以达到较好的攻击效果[7]. 定义装填率(Filler size)P¯ll=¯If¯=n, 其中¯If¯为用户概貌中选择项目数目, n为系统中项目总数. 定义选择率(Selectingsize) Pselect=jIsj=n, 其中jIsj 为用户概貌中选择项目数目. 定义攻击强度(Attack size) Patt=jSpam user numberj=jNormal user numberj, 即虚假用户与正常用户数目的比例. P¯ll、Pselect与Patt在实际系统时选择不宜过大, 否则会增加攻击成本或增加被检验出的可能性[17¡18].常见的攻击有4种[6¡8](如表1所示),其中r(i)表示用户对项目i 的评分模式. 其中推攻击都对目标项目评最高分, 核攻击都对目标项目评最低分. 随机攻击对装填项目评分取随机值, 平均攻击对装填项目取该项目的平均值, 平均攻击的构造代价比随机攻击高. 随机攻击和平均攻击的装填项目大多是随机选择的, 而分段攻击和流行攻击除了拥有装填攻击外还拥有选择项目, 其中流行攻击使用流行项目作为选择项目, 项目是否流行用项目的被评分次数衡量; 分段攻击选择目标项目的近邻项目作为选择项目, 以加强对同类型用户的影响程度.表1 4种常见攻击模型Table 1 Four common shilling attack models攻击模型 Is(选择项目) If(装填项目) It(目标项目)随机攻击 ; r(If) =rrandomr(It) =rmax=rmin平均攻击 ; r(If) =rrandomr(It) =rmax=rmin流行攻击最流行项目r(Is) =rmaxr(If) =rrandomr(It) =rmax=rmin分段攻击与目标项目接近项目r(Is) =rmaxr(If) =rrandomr(It) =rmax=rmin1.2 托攻击检测算法自从托攻击概念被提出以来, 国内外学者提出了很多检测算法加强推荐系统的健壮性和安全性.从对先验知识的使用程度, 可以把检测算法分为监督学习、无监督学习和半监督学习三类[12].1) 基于监督学习的托攻击检测: 使用分类特征训练一个分类器用于对用户进行分类, 如Chirita等[19]提出的根据标记用户的各项分类特征的分布规律, 使用结合DegSim和RDMA这两个特征进9期李文涛等: 一种基于流行度分类特征的托攻击检测算法 1565行托攻击检测; 美国DePaul大学Burke等[20]系统定义了托攻击分类特征, 提出了检测攻击的决策树算法. 其中DegSim为用户与k近邻相似度的均值, RDMA为用户距离评分均值的偏差, 这两个特征的计算方法如下:DegSimu=k Pu=1Wuvk(1)其中, Wuv 为用户u与用户v的相似度, 这里取前k个最相似的用户计算相似度的均值作为DegSim.RDMAu=Nu Pi=0jru;i¡rijNRiNu(2)其中, Nu 为用户已评分项目的数目, ru;i 为用户u对项目i 的评分, ri 为项目i 的评分均值, NRi 为项目i 被评分的次数, 即项目流行度.2)基于无监督学习的托攻击检测: 由于监督学习的检测器过多依赖于特征和训练集, 因此研究者转向使用无监督学习构造检测器. Mehta 等[21]提出一个基于无监督学习的检测器PCA VarSelect,无需任何先验知识, 根据托攻击用户之间皮尔逊相似度高于正常用户这一发现使用聚类技术完成托攻击检测. Li 等[17]提出LFAMR模型, 该方法以数据非随机缺失机制为依托, 对导致评分缺失的潜在因素进行解析, 通过聚类发现虚假用户.3)基于半监督学习的托攻击检测: 由于实际系统中存在着少量有标记的用户和大量无标记的用户,因此如果结合使用这两种数据进行托攻击检测成为研究的一个方向. Wu 等[22]提出了HySAD的混合托攻击检测算法, 这种方法使用半监督主动学习方式结合使用了标记与无标记数据训练出了分类模型.为提高检测算法的检测精度与抗干扰性, 论文讨论基于流行度的分类特征在托攻击检测中的应用.为了验证该方法的可行性, 论文从用户流行度向量的统计信息入手寻找特征; 然后, 把这些特征作为决策树算法的分类特征; 最后, 利用实验结果说明基于流行度的托攻击检测算法的可行性与优越性.1.3 混淆技术现有的托攻击检测手段对于常见的攻击方式有很好的效果, 然而为了躲避检测, 恶意用户可能采用混淆技术[12], 常见的攻击方式可以归纳为以下三种:1)噪音注入: 在装填项目或选择项目的评分上加一个随机数, William 等建议随机数可以由常数因子与高斯分布的随机数相乘得到.2)目标偏移: 对目标项目评最高分或最低分容易引起检测器的注意, 目标偏移将目标项目评分改为次高分或者次低分.3)流行装填: 在T op¡x%的最流行项目集合内等概率选择装填项目, 其中流行程度就是我们说的项目流行度, 我们把这种混淆技术称为平均流行攻击.2 基于流行度分类特征的托攻击检测方法这部分首先说明推荐系统中项目流行度满足幂率分布, 并说明由于选择评分项目的方式不同, 正常用户与随机选择评分项目的虚假用户具备不同的流行度均值, 接下来针对4种常见的攻击模型, 提出适用于这些模型的基于流行度的托攻击的分类特征,最后结合决策树算法, 提出基于流行度分类特征的托攻击检测算法. 在介绍具体的算法之前, 为了能够对基本的流程做一个介绍, 我们使用了图1所示的框架图进行说明.框架的左边是数据的预处理阶段, 通过统计评分矩阵中每一个项目被评分次数, 得到项目的流行度, 通过将用户对项目的评分替换为项目的流行度,从而得到每一个用户的流行度向量.框架的右边为算法的主体部分, 将用户的流行度向量按照基于流行度的分类特征的计算公式得到每一个用户的分类特征向量, 结合决策树算法实现对两类用户的分类.图1 基于流行度的托攻击检测算法框架图Fig. 1 Framework of popularity based shilling attackdetection algorithm2.1 基于流行度的托攻击检测方法基础推荐系统中项目被评分的次数可以定义为项目的流行度[15], 而正常用户与虚假用户对项目的评价或购买行为可以看成是从这些带有流行度的项目中进行抽样的结果. 由于选择方式不同导致两类用户之间的流行度分布不同, 这是本论文使用流行度分布进行托攻击检测的方法基础. 为了得到托攻击检测特征, 先定义几个与流行度相关的定义, 然后引出与检测方法相关的两个假设.1566 自动化学报 41卷定义1.项目的流行度(Item popularity) 指的是系统中某项目被所有用户评分的次数. 项目i 的流行度可以记为di.定义2.项目流行度分布(Item popularity dis-tribution) 指的是系统中流行度为d 的项目所占的比例, 由于把系统中的所有项目作为总体, 所以Pd=dmaxd=1Pd= 1,其中dmax为系统中项目流行度的最大值. Pd 可以定义为Pd =nd=n, 其中nd 为di =d的项目个数, 即流行度为d的项目个数, n为系统中项目的总个数.定义3. 用户流行度向量Du(User popu-larity vector) 指的是某用户的概貌中已评分项目的流行度形成的向量. 某个用户的流行度由概貌中项目的流行度决定, 即用户概貌可以表示为Du= (d1; d2;¢ ¢ ¢ ; dG) 流行度向量形式, 每一项为用户评分项目的流行度, G为用户已评分项目的个数. 当把用户已购买的项目及对应的分值看成一个向量, 并将已评分项目的分值换成对应的流行度值,这些值形成的新向量称为用户流行度向量.定义4. 用户流行度均值(Mean of user pop-ularity degree, MUD)指的是用户流行度向量的均值, 用户的流行度均值可以记作MUDu, 计算方法为, MUDu=1nPni=1di, 其中di 为用户u概貌中已评分项目i 的流行度.假设1.推荐系统中项目的流行度分布服从幂率分布用户对于项目的评分数据可以看成是用户的行为数据, 如论文研究Movielens数据集中电影的流行度, 会发现少量电影被大多数人评价, 如图2所示. 将项目流行度按照从大到小排序, 列在一个坐标下, 可以发现到大部分的电影评分次数集中在较低水平, 而仅有少部分影片被大多数人观看, 这个现象可以用长尾效应刻画.图2 按照项目流行度升序排序后项目流行度的分布情况Fig. 2 Distribution of item popularity inan ascending order长尾效应其实被很多研究者、统计学家注意到,1932年, 哈佛大学的语言学家Zipf[23]在研究英文单词的词频时发现, 如果将单词出现的频率按照从高到低排名, 这每个单词出现的频率和它在热门排行榜中排名的常数次幂成反比, 这个称为Zipf定律,它表明在英语单词中, 只有极少数的词被经常使用,而绝大多数词很少被使用. 周涛等[24]对人类行为的时空特性进行统计分析, 发现人类时间行为的时间间隔分布呈现出长尾效应. 这个分布在互联网领域上也称为长尾分布. Lv 等[25]进一步分析了复杂网络中存在的长尾效应, 并对这种关系进行了建模.为了研究电影推荐中存在的长尾效应, 我们统计了项目的评分次数, 得到项目流行度的统计信息.下面对项目流行度满足的分布进行进一步研究. 如果统计项目流行度在每一个度数出现的频率, 就可以得到项目流行度的分布, 进而可以得到如图3所示的图形.图3 项目流行度分布Fig. 3 Item popularity distribution从直观上判断项目的流行度分布有很厚的长尾,论文使用累计分布的对比来进一步分析项目流行度满足的分布. 首先, 使用广义帕累托分布进行拟合,得到理想的分布; 然后, 将实际的累计分布函数与理想分布的累计分布函数进行对比, 得到图4的拟合效果对比图.论文的结论没有建立在理论分布基础上, 而是基于项目流行度总体做统计分析, 所以不对项目流行度满足的广义帕累托分布进行进一步假设检验.但是通过以上的累积概率分布函数拟合图可知, 项目的流行度分布基本服从帕累托分布, 即可以认为项目流行度分布服从长尾分布.通过上面的分析, 可以得到一个结论: 可预见的不平衡, 即项目被关注(评分次数)的概率是不均等的, 部分项目的关注概率远远高于其他项目. 这就导致了攻击者在构建攻击概貌的时候, 如果项目的选择是随机的, 那么该用户流行度均值就会远远低于9期李文涛等: 一种基于流行度分类特征的托攻击检测算法 1567正常用户的平均流行度. 下面讨论正常用户的流行度均值与随机选择装填项目的用户流行度均值, 从它们分布的差别中得到流行度视角的托攻击检测的方法基础.图4 帕累托拟合项目流行度分布Fig. 4 Fitting a Pareto distribution to item popularitydistribution假设2.随机选择评分项目的用户流行度均值与正常用户流行度均值存在差异1)正常用户流行度均值分析: 正常用户对于不同流行度项目的选择不是随机的, 往往带有一定的偏好, 因此正常用户流行度均值的分布呈现如图5的形式.可以发现正常用户流行度分布基本在数值100以上, 经过统计可知平均流行度值大于100的用户数量在整个用户中的比例是99.26 %. 一个可能原因是用户偏向于选择流行度高且吻合自己偏好的项目.2)随机选择项目进行装填的用户流行度均值分析: 与正常用户不同, 虚假用户选择的装填项目大多是任意选择的, 而这些项目的流行度满足幂律分布, 可以认为用户流行度是从物品流行度分布中抽样得出的. 为说明情况, 我们讨论项目填充率是3 %、6 %、9 %和12 %时用户流行度均值的分布情况, 如图6所示.图5 正常用户的流行度均值分布情况Fig. 5 The distribution of normal users' mean popularitydistribution从系统项目流行度总体中随机抽取装填率为3 %、6 %、9 %和12 %的项目进行装填, 为了说明情况, 重复试验10 000次, 这样可以看成是10 000个虚假用户的概貌, 通过计算这些用户的流行度均值, 可以得到图6的分布, 通过统计发现分别有比例为0.9908、0.9999、0.9999和1的用户的流行度均值在100以下.项目的流行度服从幂律分布, 所以如果随机选择项目作为装填项目得到的用户概貌, 计算其所得到用户平均流行度数值与正常用户的平均流行度数值有差异. 无论现有的攻击模型经过何种变化, 装填项目均是随机选择, 这就给从流行度角度进行托攻击检测提供了机会, 由于论文的方法不考虑目标项目的评分, 所以无论是推攻击还是核攻击都是适用的, 不失一般性, 本文主要针对推攻击讨论常见的4种托攻击模型及其托攻击检测特征.图6 随机抽取项目作为装填的用户流行度均值Fig. 6 The mean popularity of spam users who random choose item to rate1568 自动化学报 41卷2.2 基于流行度的托攻击检测的分类特征前面已经讨论了两类用户流行度的均值, 发现随机选择评分项目的用户平均流行度远远低于正常用户. 传统的4种攻击方式在流行度视角下可以看成两类: 第一类是仅仅具有随机选择的装填项目, 如随机攻击与平均攻击; 第二类是除了随机选择的装填项目之外, 还有用户精心挑选的选择项目, 如流行攻击与分段攻击. 这一部分提出适用于不同攻击模式下的统计特征, 为结合决策树的检测算法提供分类特征.2.2.1 攻击概貌中随机选择项目进行装填这一类的攻击者的用户概貌由目标项目It和填充项目If组成, 没有选择项目Is, 比如随机攻击和平均攻击, 这两类攻击除了给装填项目的评分值不同, 其他都是完全一样的, 因此放在一起讨论. 假设2说明如果项目是随机抽取的, 那么该用户的攻击概貌中流行度的平均值将远远低于正常用户, 因此提出如下分类特征:特征1.用户流行度均值MUD (Mean of userpopularity degree),如前面讨论, MUD 即为用户概貌中项目流行度向量的均值, 用户u的MUD值计算方法如下:MUDu=n Pi=1din(3)其中, di 为用户u概貌中已评分项目i 的流行度.从上面的讨论可知如果一个用户的已评分项目是随机选择的, 那么该用户的MUD值将远远低于正常用户, 随机攻击和平均攻击两种托攻击模型与前面的虚假用户攻击模式相比仅仅多了一个目标项目, 因此这两种攻击者的MUD值也将远远低于正常用户, 通过图7可以发现利用MUD值可以有效区分这两类用户.图7 随机和平均攻击用户与正常用户的MUD值对比图Fig. 7 MUD between normal and spam users fromrandom attack and average attack2.2.2 攻击概貌中加入额外的选择项目流行攻击和分段攻击加入了额外的项目作为装填项目, 流行攻击使用最流行项目作为选择项目, 分段攻击使用目标项目攻击作为装填项目, 下面分别讨论.图7上面是随机攻击者与正常用户MUD值的对比图, 下面是平均攻击者与正常用户MUD值的对比图, 可以发现这两种虚假用户的MUD值远远低于正常用户, 且由于两种方式的攻击方式接近, 所以MUD值的分布情况也很类似, 这也说明可以使用MUD值作为分类特征进行托攻击检测.1)流行攻击流行攻击加入最流行项目作为选择项Is, 但是一般加入的选择项目数较之于装填项目较少, 因此可以发现他们的项目流行度平均值仍然十分低.当且仅当流行项目达到一定程度时, 平均流行度才会上升而难以区分, 为了对这个进行刻画, 定义ratio =Pselect=P¯ll为选择率与装填率的比值, 分析不同比值情况下的MUD值, 如图8所示.从图8可以发现随着选择项目的增加, 虚假用户的MUD值会与正常用户的MUD值接近, 因此使用用户流行度均值作为分类特征难以适应流行攻击这种模型. 但是流行攻击者的用户仍然会选择大部分的项目作为装填项目, 因此虚假用户的流行度向量会产生一个有趣的现象: 用户概貌中某些项目的流行度值十分大, 而某些项目的流行度值十分小,因此启发我们使用流行度最大值与最小值之间的差值进行流行攻击者的检测, 因此提出特征2.特征2.用户流行度极差(Range of user popu-larity degree, RUD), RUD 为用户流行度向量中项目流行度的极差, 即用户流行度向量中项目流行度最大值与最小值之间的差值. 用户u的流行度极差计算方法如下:RUDu=dmax¡dmin(4)其中, dmax为用户的流行度向量中项目流行度的最大值, dmin为最小值, RUD 值定义为两者的差距.为了讨论这个特征的分类效果, 通过对正常用户与虚假用户的RUD值进行计算, 得到图9的对比情况.从图9可以发现尽管流行攻击者可以通过加入多个流行项目提高自己的MUD值, 但是这些虚假用户的RUD值会与正常用户造成偏差, 从而可以把RUD作为分类特征.2)分段攻击分段攻击模式与流行攻击项目选择方式类似,除了具有随机选择的装填项目, 还加入了选择项目.9期李文涛等: 一种基于流行度分类特征的托攻击检测算法 1569图8 流行攻击者与正常攻击者的MUD值对比图Fig. 8 MUD between normal and spam users from bandwagon attack图9 流行攻击者与正常用户的RUD值对比图Fig. 9 RUD between normal and spam users from bandwagon attack但是选择项目的选择方式不是取全局流行度最高的项目, 而是取与目标项目类似的且评分值较高的项目. 因此根据选择项目Is流行度的可能情况分为三种情况讨论: a) 选择包含高流行度的项目, 这时可以使用RUD对正常用户与虚假用户进行分类; b)选择没有包含流行度高的项目, 且选择项目流行度均偏低, 这是可以使用MUD进行分类; c) 选择的是流行度适中的项目, 这种情况十分极端, 因为加入的项目具有的流行度值并不是十分高, 但是却可以提升整体的流行度值, 因此可能造成RUD与MUD这两个特征都无法检测, 且实际检测中不可能对三种情况一一检测, 鉴于此, 提出了特征3.特征3.用户流行度上分位数(Quantile of userpopularity degree, QUD), QUD定义为用户流行度向量中上分位点所在的值, 实际中上分位数可以是第一个四分位数, 或者某个百分位数, 具体情况需要结合实际情况, 在电影推荐系统中通过交叉验证试验得到第一个四分位数较为适中. 用户u的流行度上分位数(这里取上四分位数) 记作QUDu 计算方法如下:QUDu=di(5)di 为用户的流行度向量中按照大小排序后在四分之一位置的流行度值. 为了讨论这个特征的分类效果,得到图10的对比图.从图10可以发现尽管分段攻击中选择项目难以确定, 但是将一个用户概貌中的项目流行度升序排列后, 会发现由于装填项目的存在, 且选择项目占的比例有限, 用户流行度向量中至少一半的项目流行度十分低. 这个时候使用上分位点作为分类特征可以很好地区分这两类用户.2.3 基于流行度分类特征的托攻击检测算法根据上面的讨论, 真实用户与虚假用户的概貌中项目的流行度分布情况存在差异, 体现在用户流1570 自动化学报 41卷行度向量的均值、方差与上分位点存在差异. 我们可以利用这种差异进行分类处理, 因此针对各种托攻击模型我们提出了MUD、RUD和QUD这三个分类特征.图10 分段攻击者与正常用户的QUD值对比图Fig. 10 QUD between normal and spam users fromsegment attack以上三个特征中, QUD 是一个适用于各种统计模型的特征, 把两类用户的流行度向量中的项目流行度按照大小排序, 可以发现虚假用户对应于QUD值均低于正常用户. 实际攻击模型中, 选择项目的数量相比于装填项目的数量可以忽略[26], 因此MUD也是一个普遍使用的分类特征. RUD 是专门针对流行攻击的分类特征. 为了说明从基于流行度的特征检测托攻击的可行性, 我们把这三个特征作为相应攻击模型的分类特征, 同时使用决策树算法训练各自的分类器.决策树方法是以实例为基础的归纳学习算法[27], 它从一个无次序、无规则的实例集合中归纳出一组采用树形结构表示的分类规则. 论文使用改进的ID3 决策树算法作为分类算法, 使用标记的数据作为训练集. 改进的ID3 算法根据信息增益率来选择测试属性, 且通过属性离散化的方式对连续属性进行处理. 以实际的托攻击检测问题为例: 已知系统中正常用户与虚假用户的标记样本集S=fX1; X2;¢ ¢ ¢ ; Xng, 每一个样本Xi 包含一个属性向量P= (a1; a2;¢ ¢ ¢ ; am)T, 此处m= 3,即ai取MUD, RUD和QUD三个特征的值. 类别属性集C=fC1; C2;¢ ¢ ¢ ; Ckg, 此处k= 2,即根据属性特征P的不同取值可以把样本集S划分为C0 和C1 两个子集, 分别代表正常用户与虚假用户.基于流行度分类特征的托攻击检测算法具体的步骤如下:步骤1. 计算每一个数据样本的三个属性MUD, RUD和QUD作为该数据样本的分类特征向量.步骤2. 计算待分类数据样本在每个属性A = ai 下的信息增益率Ratio(S; A) =Gain(S; A)=Entropy(A), i = 1;2;¢ ¢ ¢ ; m, 选择信息增益率最大的属性作为根节点Root. 其中,Entropy(S) 是当前样本的信息熵, Gain(S; A) 为属性A在当前数据样本下的分类信息增益, 计算公式为Gain(S; A) =Entropy(S)¡Pv2jSvjSEntropy(Sv)(6)S为当前待分类的数据样本集, Sv 是样本集S在属性A上值等于v的样本集合.步骤3.对于根属性的每个可能值vi 及相应的数据样本Svi, 递归使用步骤2的方式建立子树, 进行子树根节点的选择, 直至在某一个分支下只有一种类标的样本子集为止.3 实验与分析3.1 实验数据集与实验评测指标实验选用了推荐系统和托攻击检测中常用的[17¡18]美国Minnesota大学GroupLens研究者发布的Movielens100K数据集, 这个数据集由943个用户对1 682个项目的评分构成, 并且每一个用户的评分项目数目都不少于20个. 考虑到托攻击模型是对真实虚假用户攻击行为的抽象, 现有的研究工作大多针对常见的攻击模型进行检测, 从而提高实际系统的抗托攻击能力[6¡15]. 实验假定系统中原有的用户为真实用户, 利用托攻击模型向系统注入的用户为虚假用户, 实验的目的是对这些虚假用户进行检测.托攻击评测指标使用了常用的正确率fp 与召回率fr 的综合指标F值[17¡18], 设N为分类器预测出的虚假用户数, Na为分类器正确分类出的虚假用户数, Nt为系统中实际存在的虚假用户数, 则正确率fp、召回率fr 及综合指标F值计算方式如下:fp=NaN(7)fr =NaNt(8)F=2fpfrfp+fr(9)9期李文涛等: 一种基于流行度分类特征的托攻击检测算法 15713.2 实验与讨论为了说明实验的效果, 我们进行了三组实验. 实验1分析了论文提出的算法DegreeSAD在各个实验配置下的准确率与召回率; 实验2将DegreeSAD方法与以已有的托攻击检测算法在10 %的攻击规模下的F值进行对比, 从而得到各种类型检测算法的特点; 实验3对现实中可能存在的攻击情况进行探讨, 分析了混合攻击模型以及选择项目数量对于流行攻击的影响, 并且在流行攻击模型下分析论文提出的检测指标与传统的托攻击分类特征融合对于检测效果的影响. 为了分析混淆技术情况下的检测效果, 论文使用目标偏移与噪声注入技术进行处理,从而分析算法在受到混淆技术干扰时的检测效果及对算法的适用范围进行了界定.3.2.1 DegreeSAD方法效果分析实验的参数包括三个: 装填规模、攻击规模及攻击模型, 其中, 装填率Pf ill取3 %、6 %、9 %、12 %、15 %和20 %,攻击强度Patt取3 %、5 %、7 %、10 %和12 %,攻击模型选择随机攻击、均值攻击、流行攻击与分段攻击的推攻击. 将这三个参数进行组合, 每一种组合对应一个实验设置, 其中选择80 %的数据样本作为训练集, 20 % 的数据样本作为测试样本, 通过在训练样本中训练一棵决策树, 然后再在测试集上计算算法的准确率与召回率, 并将每一个独立的实验进行100次后, 统计得到最终的结果.表2»表5中是DegreeSAD算法的检测结果,从中可以发现, DegreeSAD 算法对于随机攻击与平均攻击在不同的装填率与攻击规模时, 均有较好检测效果, 而对于流行攻击与分段攻击由于选择项目的存在, 导致装填率Pf ill较小时, 检测率低于90 %,而随着装填项目数量的增多, DegreeSAD 算法均具有良好的检测效果. 通过实验可以发现DegreeSAD算法的召回率基本在95 %以上, 而准确率基本低于召回率, 说明算法对于攻击用户的检测比较严格, 从而导致对于正常用户的误判, 关于装填率对于算法的影响及误判问题的解决将在实验3讨论.3.2.2 DegreeSAD与其他检测方法对比为了对DegreeSAD算法的检测效果进行更为细致的分析, 将算法与Li等[17]提出的LFAMR及Mehta等[21]提出的PCA VarSelect方法及利用DegSim和RDMA进行托攻击检测的Rat-ingSAD 方法进行对比. 其中LFAMR与PCAVarSelect为无监督方法, DegreeSAD 方法为有监督方法. 由于DegreeSAD可以很容易与经典的无监督算法结合, 所以论文将这4种方法进行一起讨论, 并且着重与基于传统检测特征的RatingSAD方法进行比较. 在相同配置下的情况对这4种算法进行比较, 并且分析装填率Pf ill为10 %的时候, 4 种算法的检测效果, 实验结果如图11所示.表2 DegreeSAD检测随机攻击的准确率与召回率Table 2 Detection precision and recall for random attack modelPfill3 % 6 % 9 % 12 % 15 % 20 %Pattfpre frec fpre frec fpre frec fpre frec fpre frec fpre frec5 % 0.89 0.94 0.95 0.97 0.99 0.97 0.99 0.99 0.99 0.99 1.00 0.997 % 0.93 0.97 0.95 0.98 0.99 0.98 0.99 0.99 0.99 1.00 1.00 0.9910 % 0.95 0.98 0.96 0.99 0.99 0.99 0.99 0.99 1.00 0.99 1.00 0.9912 % 0.96 0.97 0.96 0.99 0.99 0.99 0.99 0.99 1.00 0.99 1.00 0.99表3 DegreeSAD检测平均攻击的准确率与召回率Table 3 Detection precision and recall for average attack modelPfill3 % 6 % 9 % 12 % 15 % 20 %Pattfpre frec fpre frec fpre frec fpre frec fpre frec fpre frec5 % 0.91 0.96 0.97 0.97 1.00 0.98 0.99 0.98 1.00 0.97 1.00 0.997 % 0.93 0.97 0.95 0.97 1.00 0.99 0.99 0.99 0.99 0.99 1.00 0.9910 % 0.95 0.98 0.96 0.99 0.99 0.99 0.99 0.99 1.00 0.99 1.00 0.9912 % 0.96 0.97 0.96 0.98 0.99 0.99 0.99 0.99 1.00 0.99 1.00 0.991572 自动化学报 41卷表4 DegreeSAD检测流行攻击的准确率与召回率Table 4 Detection precision and recall for bandwagon attack modelPfill3 % 6 % 9 % 12 % 15 % 20 %Pattfpre frec fpre frec fpre frec fpre frec fpre frec fpre frec5 % 0.89 0.93 0.90 0.99 0.90 0.96 0.90 0.99 0.90 0.99 0.90 0.997 % 0.93 0.96 0.93 0.97 0.93 0.97 0.93 0.99 0.93 0.99 0.93 1.0010 % 0.95 0.97 0.95 0.99 0.95 0.98 0.95 0.99 0.95 0.99 0.95 1.0012 % 0.96 0.98 0.96 0.99 0.96 0.99 0.96 0.99 0.96 1.00 0.96 1.00表5 DegreeSAD检测分段攻击的准确率与召回率Table 5 Detection precision and recall for segment attack modelPfill3 % 6 % 9 % 12 % 15 % 20 %Pattfpre frec fpre frec fpre frec fpre frec fpre frec fpre frec5 % 0.90 0.93 0.92 0.96 0.93 0.98 0.94 0.99 0.91 1.00 0.91 1.007 % 0.93 0.94 0.93 0.97 0.94 0.97 0.95 0.98 0.95 0.99 0.94 1.0010 % 0.95 0.96 0.95 0.96 0.97 0.98 0.96 0.99 0.95 0.99 0.95 1.0012 % 0.96 0.96 0.96 0.97 0.96 0.99 0.97 0.99 0.97 0.99 0.96 0.99图11 DegreeSAD与其他各种方法对比图Fig. 11 Comparison between DegreeSAD and other algorithms图11展示了4种方法对于不同攻击模型的检测效果. 与传统的有监督方法RatingSAD方法相比, 论文提出的DegreeSAD方法针对4种攻击均具有较优的检测性能, 并且由于不考虑评分特性,因此具有抗干扰特性. 而RatingSAD对于随机攻击、平均攻击与流行攻击均具有良好的检测效果, 但是对于分段攻击由于受到选择项目的影响, 效果并不理想, 并且随着装填项目的增加F值反而下降,说明RatingSAD对于分段攻击的检测不具有稳定性.另外, DegreeSAD 方法与RatingSAD方法相比需要更低的时间代价, RatingSAD 方法中RDMA特征的计算需要计算项目均值并统计用户评分数与项目评分数, 然后进一步计算出评分的偏差, 且DegSim的计算不仅涉及用户与用户间相似度的计算且涉及从用户的相似度向量中找到前面的若干个值(Top k), 涉及的计算量更大. 而基于流行度的DegreeSAD方法仅需要计算项目评分数与用户评分数, 并统计用户评分分布.设m为系统中用户的数目, n为系统中项目的数目, 传统方法的计算代价O(RatingSAD)为RDMA代价、DegSim代价、分类器训练代价之和, 包括: 1) 项目均值代价、项目评分数计算代价、用户评分数计算代价、RDMA计算代价之和;2)用户相似度计算代价、取前若干个相似度值代价、DegSim计算代价之和; 3) 分类器计算代价. 由9期李文涛等: 一种基于流行度分类特征的托攻击检测算法 1573于项目评分数计算代价、用户评分数计算代价、项目评分均值计算代价及用户评分频率统计代价等均为O(m£n),所有用户相似度的计算为O(m£m£n)= O(n£m2), 所有用户RDMA计算中代价消耗为O(m£n). 因此O(RatingSAD) = O(n£m+n£m2)+O(classifier) =O(n£m2) +O(classifier)(10)而论文提出的方法计算代价O(DegreeSAD)包括: 1) 项目评分数计算代价、用户评分数代价、用户评分频率统计代价; 2) 分类器代价. 因此O(DegreeSAD) = O(n£m) + O(classifier)(11)所以从时间复杂度上分析, 改进方法至少比传统方法在分类特征的计算上快m倍, 更适合于实际的系统.与无监督方法LFAMR及PCA VarSelect相比, PCA VarSelect 在随机攻击、平均攻击以及流行攻击的检测上具有最好的检测效果, 但是却无法检测分段攻击, 而LFAMR方法在填充率提高时检测效果较好, 并且对于各类攻击均具有良好的检测效果,但是在装填率较低时检测效果不佳. DegreeSAD方法在不同的填充率与攻击模型下均具有较好的检测效果.结合以上对比实验可以发现基于流行度分类特征的托攻击检测算法不仅在受到混淆技术干扰时,比传统具有更好的托攻击检测性能, 并且具有优于传统方法的计算时间. 与最新的无监督检测方法相比, 对于不同装填率与攻击模型均具有较稳定的检测效果.3.2.3 混合攻击及特征融合对于检测效果分析为了模拟真实环境下的攻击, 首先, 将De-greeSAD 算法用于混合攻击, 并且分析选择项目数量对于算法检测效果的影响从而得到提出的算法的适用范围, 最后, 分析论文提出的基于流行度的分类特征与传统的基于评分的分类特征融合对于托攻击检测的影响. 论文对真实环境下的各种攻击进行了初步探索, 并且着重流行攻击模型下的检测.1)混合攻击下DegreeSAD的检测效果真实环境中的推荐系统受到不同用户不同方式的攻击, 因此讨论混合攻击模型下算法的准确度具有更为重要的意义, 考虑到随机攻击与流行攻击用户概貌的构建, 使用两种典型的项目选择方式, 因此分析DegreeSAD对随机攻击与流行攻击同时存在的情况下的混合攻击, 按照实验设计的装填率,对混合攻击的攻击强度进行实验, 得到表6中攻击强度分别为3 % + 3 %以及6 % + 6 %时的检测效果.表6 DegreeSAD检测混合攻击的F值Table 6 F-measure of DegreeSAD for detecting mixtureattack modelRandom : bandwagon 3 % 6 % 9 % 12 % 15 % 20 %3 %+3 % 0.89 0.97 0.98 0.98 1.00 0.996 %+6 % 0.93 0.98 0.98 0.99 1.00 1.00可以发现, 当两种形式的攻击模型同时存在时,算法的F值在绝大多数情况下高于90 %, 说明论文提出的三个托攻击检测特征MUD、RUD以及QUD对于混合情况仍然具有很好的检测效果, 从而能够胜任更为真实的情况.2)选择率与装填率比值对于DegreeSAD的检测效果影响分析论文实验中选择率均设定为1 %,真实环境中由于选择项目的选择不同, 会导致虚假用户流行度分布发生变化. 论文第二部分已经对不同比例下的MUD、RUD进行了分析, 但是为了分析选择率与装填率的比Ratio =Pselect=P¯ll对于实验结果的影响, 实验在不同的比例配置下进行效果分析. 以流行攻击为例, 分析ratio 为0.2, 0.5, 1以及2时, 使用三个托攻击检测特征MUD、RUD以及QUD中的某一个以及全部使用时的检测效果,以Pf ill取5 %,Patt取10 %为例, 得到表7的结果.表7 选择项目与装填项目数量比对实验结果影响Table 7 E®ect of ratio on experimental result0.2 0.5 1 2MUD 0.54 0.32 0.52 0.70RUD 0.74 0.79 0.84 0.87QUD 0.93 0.90 0.91 0.85ALL 0.97 0.96 0.99 0.97从表7可以发现, MUD 特征在选择项目与装填项目数量比例发生变化时呈现波动, 且检测效果均不佳, 原因是随着选择项目数量的波动, 用户平均流行度发生变化, 造成正常用户与虚假用户难以区分, 而RUD与QUD在选择项目数量变化时仍然有较好的检测效果, 说明这两个特征对于正常用户与异常用户具有一定的区分度. 同时可以发现, 单纯使用某一个分类特征对于攻击的检测效果均不佳, 且1574 自动化学报 41卷实际中的攻击可能经过混合, 所以所用全部的三个特征进行检测具有较好的效果.3)特征融合对于托攻击检测效果影响分析单纯的基于流行度的分类特征对于项目随机选择具有很好的效果, 但是从混合攻击与选择项目数量变化可以发现, 实际中的项目选择存在着差异性,如果将多种不同攻击模型进行混合并且刻意对项目进行检测, 就会造成对论文方法依赖的两个假设的破坏, 这时候方法就会失效. 但是论文提出的方法可以让虚假用户耗费更多的代价进行攻击, 这从另一个层面提高了系统的稳定性. 同时考虑到De-greeSAD方法对于正常用户存在误判现象, 因此论文将基于流行度的分类特征MUD、RUD和QUD与基于评分度分类特征Degsim和RDMA进行融合, 并且以5 %和10 %攻击强度下的流行攻击为例, 对于DegreeSAD方法与特征融合后的方法EnDegSAD得到图12的结果.(a) Bandwagon attack : attack size = 5 %(b) Bandwagon attack: attack size = 10 %图12 特征融合对于流行攻击检测的影响Fig. 12 E®ect of features combination ondetection results图12 (a)所示为5 %攻击强度下DegreeSAD算法与EnDegSAD算法的对比, 图12 (b)为其在10 %攻击强度下的对比. 从两幅图可以发现使用特征融合后的方法在对流行攻击进行检测时, 检测效果得到一定的改善, 且在不同的装填率下均能得到理想的检测效果, 因此从不同角度进行托攻击检测并且进行特征之间的融合具有合理性.4 结论本文给出了项目流行度服从幂律分布以及两类用户流行度分布情况存在差异这两个假设, 进而提出了三个基于流行度的特征: MUD (用户流行度均值)、RUD (用户流行度极差)及QUD (用户流行度上分位数),最后把这三个特征作为决策树算法的分类特征得到托攻击检测算法. 在推荐系统中, 虚假用户能够获得的先验知识是十分有限的, 而且为了降低攻击的代价, 因此常见的攻击模型中用户概貌的构造均包含大量随机选择的项目, 所以正常用户与虚假用户可以看成从项目流行度总体中采用不同方式抽样, 从而造成两类用户概貌中项目的流行度分布情况存在差异, 这是论文提出算法的基础. 论文提出的算法能够克服现有攻击检测方法容易受到混淆方式干扰的问题并降低检测的计算代价. 下一步工作将对不同角度的托攻击检测特征提出更为有效的融合手段, 并进一步对项目流行度服从的分布进行分析, 得到长尾效应的更多应用.References1 Borr¶as J, Moreno A, Valls A. Intelligent tourism recom-mender systems: a survey.Expert Systems with Applica-tions, 2014, 41(16): 7370¡73892 Qu M, Zhu H S, Liu J M, Liu G N, Xiong H. A cost-e®ectiverecommender system for taxi drivers. In: Proceedings of the20th ACM SIGKDD International Conference on Knowl-edge Discovery and Data Mining. New York: ACM, 2014.45¡543 Chung N, Koo C, Kim J K. Extrinsic and intrinsic moti-vation for using a booth recommender system service onexhibition attendees0unplanned visit behavior.Computersin Human Behavior, 2014, 30: 59¡684 Gao M, Wu Z F, Jiang F. Userrank for item-based collabora-tive ¯ltering recommendation.Information Processing Let-ters, 2011, 111(9): 440¡4465 Li Cong, Luo Zhi-Gang. A metadata-enhanced variationalbayesian matrix factorization model for robust collabora-tive recommendation.Acta Automatica Sinica, 2011, 37(9):1067¡1076(李聪, 骆志刚. 用于鲁棒协同推荐的元信息增强变分贝叶斯矩阵分解模型. 自动化学报, 2011, 37(9): 1067¡1076)6 Li C, Luo Z G. Detection of shilling attacks in collabora-tive ¯ltering recommender systems. In: Proceedings of the2011 International Conference of Soft Computing and Pat-tern Recognition (SoCPaR). Dalian, China: IEEE, 2011.190¡1939期李文涛等: 一种基于流行度分类特征的托攻击检测算法 15757 Mobasher B, Burke R, Williams C, Bhaumik R. Analysisand detection of segment-focused attacks against collabo-rative recommendation. In: Proceeding of the 7th Inter-national Workshop on Knowledge Discovery on the Web,Advances in Web Mining and Web Usage Analysis. Berlin,Heidelberg: Springer, 2006. 96¡1188 Seminario C E, Wilson D C. Attacking item-based recom-mender systems with power items. In: Proceedings of the8th ACM Conference on Recommender Systems. New York:ACM, 2014. 57¡649 Xia H, Fang B, Gao M, Ma H, Tang Y Y, Wen J. A novelitem anomaly detection approach against shilling attacks incollaborative recommendation systems using the dynamictime interval segmentation technique.Information Sciences,2015,306: 150¡16510 Zhang Z, Kulkarni S R. Detection of shilling attacks in rec-ommender systems via spectral clustering. In: Proceedingsof the 17th International Conference on Information Fusion(FUSION). Salamanca: IEEE, 2014. 1¡811 Gunes I, Kaleli C, Bilge A, Polat H. Shilling attacks againstrecommender systems: a comprehensive survey. Arti¯cialIntelligence Review, 2014, 42(4): 767¡79912 Wu Zhi-Ang, Wang You-Quan, Cao Jie. A survey on shillingattack models and detection techniques for recommendersystems. Chinese Science Bulletin, 2014, 59(7): 551¡560(伍之昂, 王有权, 曹杰. 推荐系统托攻击模型与检测技术. 科学通报, 2014, 59(7): 551¡560)13 Wu Zhi-Ang, Zhuang Yi, Wang You-Quan, Cao Jie. Shillingattack detection based on feature selection for recom-mendation systems.Acta Electronica Sinica, 2012, 40(8):1687¡1693(伍之昂, 庄毅, 王有权, 曹杰. 基于特征选择的推荐系统托攻击检测算法. 电子学报, 2012, 40(8): 1687¡1693)14 Lam S K, Riedl J. Shilling recommender systems for fun andpro¯t. In: Proceedings of the 13th International Conferenceon World Wide Web. New York: ACM, 2004. 393¡40215 Oestreicher-Singer G, Sundararajan A. Recommendationnetworks and the long tail of electronic commerce. MISQuarterly, 2012, 36(1): 65¡8416 Yin H Z, Cui B, Li J, Yao J J, Chen C. Challenging thelong tail recommendation. Proceedings of the VLDB En-dowment, 2012, 5(9): 896¡90717 Li Cong, Luo Zhi-Gang. Detecting shilling attacks in recom-mender systems based on non-random-missing mechanism.Acta Automatica Sinica, 2013, 39(10): 1681¡1690(李聪, 骆志刚. 基于数据非随机缺失机制的推荐系统托攻击探测.自动化学报, 2013, 39(10): 1681¡1690)18 Li Cong, Luo Zhi-Gang, Shi Jin-Long. An unsupervised al-gorithm for detecting shilling attacks on recommender sys-tems. Acta Automatica Sinica, 2011, 37(2): 160¡167(李聪, 骆志刚, 石金龙. 一种探测推荐系统托攻击的无监督算法. 自动化学报, 2011, 37(2): 160¡167)19 Chirita P A, Nejdl W, Zam¯r C. Preventing shilling attacksin online recommender systems. In: Proceedings of the 7thAnnual ACM International Workshop on Web Informationand Data Management. New York: ACM, 2005. 67¡7420 Burke R, Mobasher B, Williams C, Bhaumik R. Classi¯-cation features for attack detection in collaborative recom-mender systems. In: Proceedings of the 12th ACM SIGKDDInternational Conference on Knowledge Discovery and DataMining. New York: ACM, 2006. 542¡54721 Mehta B, Nejdl W. Unsupervised strategies for shilling de-tection and robust collaborative ¯ltering.User Modeling andUser-Adapted Interaction, 2009, 19(1¡2): 65¡9722 Wu Z, Wu J J, Cao J, Tao D C. HySAD: a semi-supervisedhybrid shilling attack detector for trustworthy product rec-ommendation. In: Proceedings of the 18th ACM SIGKDDInternational Conference on Knowledge Discovery and DataMining. New York: ACM, 2012. 985¡99323 Zipf G K. Selected studies of the principle of relative fre-quency in language.Language, 1932, 9(1): 89¡9224 Zhou Tao, Han Xiao-Pu, Yan Xiao-Yong, Yang Zi-Mo, ZhaoZhi-Dan, Wang Bing-Hong. Statistical mechanics on tempo-ral and spatial activities of human.Journal of University ofElectronic Science and Technology of China, 2013, 42(4):481¡540(周涛, 韩筱璞, 闫小勇, 杨紫陌, 赵志丹, 汪秉宏. 人类行为时空特性的统计力学. 电子科技大学学报, 2013, 42(4): 481¡540)25 Lv L, Zhang Z K, Zhou T. Zipf0s law leads to heaps0law: an-alyzing their relation in ¯nite-size systems.PloS One, 2010,5(12): e1413926 Mobasher B, Burke R, Bhaumik R, Sandvig J J. Attacks andremedies in collaborative recommendation. IEEE IntelligentSystems, 2007, 22(3): 56¡6327 Chen J, Luo D L, Mu F X. An improved ID3 decision treealgorithm. In: Proceedings of the 4th International Confer-ence on Computer Science & Education. Nanning: IEEE,2009. 127¡130李文涛重庆大学计算机学院硕士研究生. 主要研究方向为个性化推荐与数据挖掘. E-mail: livent@126.com(LI Wen-Tao Master student at theComputer College, Chongqing Univer-sity. His research interest covers per-sonal recommendation and data min-ing.)高旻重庆大学软件学院副教授. 主要研究方向为个性化推荐, 服务计算, 数据挖掘. 本文通信作者.E-mail: mingaoo@gmail.com(GAO Min Associate professor atthe School of Software Engineering,Chongqing University. Her research in-terest covers recommendation system,1576 自动化学报 41卷service computing, and data mining. Corresponding au-thor of this paper.)李华重庆大学计算机学院副教授. 主要研究方向为计算机网络, 数据挖掘与大数据. E-mail: LH@cqu.edu.cn(LI Hua Associate professor atthe College of Computer Science,Chongqing University. Her research in-terest covers computer network, datamining, and big data.)熊庆宇重庆大学软件学院教授. 主要研究方向为人工神经网络, 量子神经计算及其应用.E-mail: xiong03@cqu.edu.cn(XIONG Qing-Yu Professor atthe School of Software Engineering,Chongqing University. His research in-terest covers arti¯cial neural networks,quantum neural computing and its applications.)文俊浩重庆大学软件学院教授. 主要研究方向为计算智能及服务计算.E-mail: jhwen@cqu.edu.cn(WEN Jun-Hao Professor atthe School of Software Engineering,Chongqing University. His research in-terest covers computational intelligenceand service computing)凌斌英国朴茨茅次大学电子工程学院研究员. 主要研究方向为信息共享, 项目管理, 推荐系统.E-mail: bin.ling@myport.ac.uk(LING Bin Professor at theSchool of Engineering, University ofPortsmouth, UK. His research inter-est covers information sharing, projectmanagement, and recommendation system.)

[返回]

上一篇：多模态数据流的无线传感器网络异常检测
下一篇：EI被镇压的期刊目录