欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
计算机论文
当前位置:首页 > 计算机论文
基于机器学习的SPIT可疑度评估方法
来源:一起赢论文网     日期:2015-12-24     浏览数:5347     【 字体:

 第41卷 增刊Ⅱ2013年 12月 华中科技大学学报(自然科学版)J.Huazhong Univ.of Sci.& Tech.(Natural Science Edition)Vol.41Sup.Ⅱ Dec. 2013收稿日期 2013-07-25.作者简介 双 锴(1977-),男,副教授,E-mail:shuangk@bupt.edu.cn.基金项目 国家重点基础研究发展计划资助项目(2009CB320504);国家自然科学基金资助项目(61121061);新一代宽带无线移动通信网科技重大专项资助项目(2011ZX03002-002-01);北京邮电大学青年科研创新计划专项课题资助项目(2013RC1102).基于机器学习的SPIT可疑度评估方法双 锴 马 姣(北京邮电大学网络与交换技术国家重点实验室,北京100876)摘要 结合社会网络分析技术与信誉评估技术,提出一种基于机器学习的互联网电话垃圾邮件(SPIT)可疑度评估方法(MLBRE).该方法依据用户的历史行为建立通信行为网络模型,使用社会网络分析方法半自动化地对部分用户进行可疑度评估,产生相应的训练集,再使用支持向量机(SVM)的机器学习方法全自动化地对全体用户进行可疑度评估.实验结果表明:本方法在保持较高准确率(93.98%)的同时,具有较低的漏报率(0.95%).关键词 互联网电话垃圾邮件;可疑度评估;社会网络分析;机器学习中图分类号 TP393  文献标志码 A  文章编号 1671-4512(2013)S2-0014-04Machine learning based reputation evaluation for SPIT detectionShuang Kai Ma Jiao(State Key Laboratory of Networking and Switching Technology,BeijingUniversity of Posts and Telecommunications,Beijing 100876,China)Abstract A novel scheme called machine learning based reputation evaluation(MLBRE)was proposed,combining with social network analysis and reputation evaluation.MLBRE first constructs acommunication network model,then evaluates reputation of part of users in the network semi-automatically based on social network analysis to generate a training set,and finally evaluates reputationof all users in the whole network automatically based on support vector machine(SVM).The experiment results show that MLBRE can detect SPIT callers with true positive rate of 93.98%and falsepositive rate of 0.95%.Key words spam over Internet telephony(SPIT);reputation evaluation;social network analysis;machine learning  随着VoIP的发展及其广泛应用,VoIP网络中的垃圾语音问题成为倍受关注的重要安全问题.SPIT是一种类似于传统垃圾电子邮件的非预期的语音发送行为[1].根据相关组织及机构预测,SPIT将成为未来VoIP网络中最为棘手的安全隐患[2].对抗SPIT的技术可以分综合检测与防范模型技术、实体认证技术、行为分析技术[3]、信誉评估技术[4-5]、资源消耗技术[2,6]等,已有成果分别从不同角度出发来检测SPIT,并产生了较好的效果,但都具有一定的不足.本研究结合社会网络分析技术与信誉评估技术提出一种基于机器学习的SPIT可疑度评估方法(MLBRE).MLBRE依据用户的历史行为特征,使用机器学习的方法计算用户的可疑度评估值.1 用户通信行为网络模型采用社会网络分析方法识别SPIT用户的优DOI:10.13245/j.hust.2013.s2.058势在于无须了解用户的通信内容,只须建立相应的用户通信行为网络模型对用户的通信行为特征进行分析.该模型依据用户的历史行为对特定的指标进行统计并完成垃圾用户的识别,由于该模型使用基于长期的用户的历史行为数据而不是基于用户反馈的信誉评估方法,因此摒除了垃圾用户相互好评以提高信誉值的可能性,提高了本方法的客观性与实用性.1.1 语音垃圾用户的类型目前的语音垃圾用户按照话单特征主要分为以下两种:a.垃圾用户主动高强度呼叫任意号码,但被叫号码的有效率比较低,其主要目的是窥探被叫号码的有效性;b.垃圾用户主动呼叫正常用户,意在传播垃圾信息,例如推销产品、发送违法广告等.本研究依据各种类型的垃圾用户的行为特征从不同角度构建用户通信行为网络模型.1.2 用户通信行为网络模型用户通信行为网络模型是包含节点属性和关系属性的带权有向网络模型.在选择节点属性和关系属性时,主要考虑正常用户和垃圾用户在该属性上的差异.差异值越大,越能显著地标志垃圾用户的异常行为.同时由于垃圾用户的多样性,建立单一属性的行为网络模型不能对所有用户进行准确的评估,因此建立了多节点属性、多关系属性的用户行为网络模型.用户通信行为网络模型可表示为U=(N,E,Re,Wn),其中:N={n}为用户节点n的集合;E 为有向边集合;Re为用户关系属性向量的集合,可表示为Re={rij|eij ∈E},rij=(rij1,rij2,…,rijp);eij∈E 为主叫节点ni呼叫过被叫节点nj;Wn为节点属性向量的集合,Wn={wi|ni∈N},wi=(wi1,wi2,…,wim).1.3 用户通信行为网络模型的用户关系属性用户关系属性反映用户之间的通信关系由三维向量rij=(Aij,Bij,Dij)描述,其中:Aij为通信次数,即主叫i与被叫j 语音通信的总次数;Bij为双向通信情况,描述eij与eji是否同时存在;Dij为通话时长,即主叫i与被叫j 语音通信的总时间.使用这些可以度量用户之间关系紧密程度的属性,可得知用户之间的通信关系特征.在本方法中,双向通信存在、通信次数大于1或通话时长超过30s均被认为用户之间具有紧密的通信关系.1.4 用户通信行为网络模型的用户节点属性用户节点属性用来反映用户自身的通信行为特征.节点属性是由一个九维向量wi=(Ci,pi,bi,si,di,oi,vi,ti,Ri)来描述的.其中各个维度的定义如下.a.局部聚类系数Ci:其在无权无向图中的定义是节点i的邻域之间的连接数与节点i 的邻域间所有可能存在连接的数量的比值.Barrat等将该定义扩展到带权无向图中[7],定义为Ci = 1si(ki-1)Σj,h(wij +wih)2 aijaihajh,(1)其中:si=ΣNj=1aijwij;ki=Σjaij表示节点的度.若用户i与j 之间通信关系紧密,则权重wij=1,不紧密时wij=0.5.局部聚类系数综合地反映用户与网络中其他用户关系的紧密程度,垃圾用户具有很低的聚类系数.b.三角形节点率pi:节点i的邻域节点中具有邻域间通信的节点的数量与用户i 的总邻域大小之比.c.双向通信率bi:与节点i具有双向通信的邻域和节点i 的总邻域大小之比.垃圾用户的话单大多都是拨出话单,因此其双向通信率一般比正常用户小.d.节点的邻域数量si:由于正常用户更多地与特定的一些人通话,而垃圾用户一般会随机拨打用户,因此垃圾用户的邻域数量一般比平均邻域数量大.e.重复呼叫率di:与节点i有重复呼叫的邻域和节点i的总邻域大小之比.垃圾用户一般不会重复呼叫一个用户,因此其重复呼叫率很小.f.拨打/接听率oi:节点i拨打电话的次数与节点i被拨打电话的次数之比.垃圾用户一般只是拨出,很少有人给垃圾用户拨打电话,因此其拨打/接听率很大.g.有效通信率vi:节点i呼叫的号码存在的呼叫个数与节点i 拨打电话总次数之比.意在窥探号码有效性的垃圾用户拨打空号的可能性很大,因此有效通信率很低.h.平均通话持续时长ti:节点i作为主叫的所有呼叫的通话时长的算数平均值.由于垃圾用户具有很强的主动性,往往会拨打大量电话,在成功通话之后,当被叫发现主叫是垃圾用户时会很快挂断,因此垃圾用户的平均通话持续时长明显低于正常用户.i.拨打被拒率Ri∈[0,1]:节点i拨打电话且被叫拒绝接听或电话接通后被叫主动挂断的次数占节点i拨打电话次数的比例.该属性能够在一定程度上反映垃圾用户的特征.一般情况下意在使传播垃圾信息的垃圾用户的拨打被拒率高于普通用户.基于上述属性,可以为每个用户建立其通信增刊Ⅱ   双锴,等:基于机器学习的SPIT可疑度评估方法    ·15·行为特征数据集,按照局部聚类系数和三角形节点率对用户进行粗粒度的可疑度评估,然后使用K-means聚类算法按照其他的属性对用户进行细粒度的可疑度划分,并使用支持向量机机器学习方法进行可疑度的学习和全自动化预测.2 SPIT可疑度评估方法结合社会网络分析技术与信誉评估技术,使用机器学习的方法评估用户可疑度.该方法由三个阶段组成:建立用户通信行为网络模型,建立完备的恰当的训练集,评估用户可疑度.2.1 建立用户通信行为网络模型从话务数据中提取用户通信行为特征数据集,建立如上一部分中所描述的通信行为网络模型,完成从原始数据到社会网络属性的转换.2.2 建立全面的合理的高质量的训练集建立训练集的流程如下.a.粗粒度划分.根据用户的局部聚类系数Ci和三角形节点率pi使用阈值划分方法,将可疑用户划分为若干个粗粒度等级.其中,阈值的选取应该使得用户均匀地分布到每个粗粒度等级中.局部聚类系数的优先级高于三角形节点率,因为局部聚类系数同时考虑用户之间的双向通信存在性、通信次数和通话时长三个属性,而三角形节点率只考虑邻域之间的通信存在性,所以局部聚类系数更能体现用户之间联系的紧密程度.b.细粒度化分.对于每个粗粒度等级,根据用户的基本属性使用一种传统的、简单且高效的无监督聚类算法K-means[8]进行聚类,然后将聚类结果按照基本属性的加权和进行排序,得到若干个细粒度等级.其中,每个属性的权重根据要评估的垃圾用户类型的不同而不同.针对特定类型的垃圾用户,越能区分其与正常用户的属性权重越大.例如,评估窥探号码存在性的垃圾用户时,可增加有效通信率、双向通信率、拨打接听比和平均呼叫时长的权重,因为这类垃圾用户具有主动随机呼叫大量号码、短时通话等特征,他们在这些属性上与正常用户存在较大的差异.c.训练集的完善.训练集须满足全面性、合理性和高质量性.全面性是指训练集中的用户应该覆盖每个等级,合理性是指各个等级中的用户数量应该大致相等,高质量性是指每个等级的用户应该具有典型性和代表性.因此首先选取用户部分话单,确保每个等级具有足够多的用户;然后选取K-means聚类算法中距离聚类中心最近的数据作为该等级的训练集.选取数量的不同会直接影响机器学习的准确率和漏报率,因此在完善的过程中可以通过调整训练集的数量来平衡机器学习的准确率和漏报率.2.3 评估用户可疑度该阶段的功能主要体现在调整训练集和自动化预测新数据两个方面.调整训练集时使用支持向量机(SVM)机器学习方法对训练集本身进行预测,通过调整训练集的数量来平衡机器学习的准确率和漏报率;依据建立的训练集,采用SVM机器学习方法实现自动化评估用户可疑度,实现对新数据的预测.3 实验与分析为了对MLBRE方法的有效性进行评估,搭建仿真环境进行实验与分析,并与文献[3]中的LTD方法进行对比.3.1 建立用户通信行为网络模型基于真实的话单和垃圾用户的特征生成用户的通信行为数据.在真实的话单中,正常用户的通信行为数据具备极强的社交网络社团化特征,因此在数据中引入了簇的概念.对于一个簇内的用户,其与该簇内其他用户的通信次数大于他们与该簇外用户之间的通信次数.簇的大小为10~60,每个用户平均每天通话10次,目标数据集合为一周的通话记录.垃圾用户随机拨打任意号码,同时假设正常用户均反感垃圾用户,表现为拒接或通话时长很短.垃圾用户占正常用户的1%,其中包括两种具有典型特征的垃圾用户.正常用户数量为1×106,垃圾用户数量为1×104,通话记录总数为7.07×107,平均局部聚类系数为0.562 5,平均三角形节点率为0.853 6.仿真中计算机的配置信息:机型LenovoV480,CPU主频Intel Core i5-3210M2.5GHz,内存大小4.0GB,内存频率DDR3 1 600MHz.3.2 实验结果分析实验中,在粗粒度划分阶段,所有用户被划分为4个等级,其中局部聚类系数的阈值分别为Ct1=0.66和Ct2=0.56,三角形节点率的阈值为pt=0.62.等级4的用户满足Ci<Ct2和pi<pt,等级3的用户满足Ci<Ct2和pi>pt,等级2的用户满足Ct2≤Ci<Ct1,等级1的用户满足Ci≥Ct1.显然等级4的用户最可疑,因为其局部聚类系数和三角形节点率最低.阈值是依据局部聚类系数以及三角形节点率的分布来选取的,保证阈值划·16·    华中科技大学学报(自然科学版)  第41卷分之后,每个等级都有一定数量的用户.细粒度划分阶段将每个粗粒度等级分别划分为3,3,2,2个细粒度等级,总共划分为10个细粒度等级.训练集中正常用户选取的数量为2 100,垃圾用户选取的数量为900.将MLBRE方法与文献[3]中的LTD方法进行对比,实验结果如表1所示.表1 MLBRE与LTD方法实验结果对比 %方法准确率漏报率MLBRE 93.98 0.95LTD 95.26 51.92图1为各用户可疑度等级指标平均值,显示出每个可疑度等级的用户在9个指标上的平均值与总加权值.可以看出8~10三个等级的用户行为极为异常,在聚类系数、三角形节点率等指标上明显低于其他等级,而在联系人数量以及拨打接听比等指标上明显高于其他等级的用户,因此将8~10等级的用户判别为垃圾用户,其余等级的用户判别为正常用户. 1—双向通信率;2—联系人数量;3—重复呼叫率;4—平均通话时长;5—拨打/接听率;6—被拒率;7—有效通信率;8—聚类系数;9—三角形节点率;10—加权和.图1 各用户可疑度等级指标平均值通过表1 可以看出:LTD 的漏报率高于MLBRE;这是由于LTD方法只考虑通话持续时长因素,但由于窥探用户号码是否有效的垃圾用户缺失该属性,因此LTD 方法无法识别该类垃圾用户,而MLBRE方法不是单一地考虑通话持续时长因素,而是综合考虑了用户的多种通信行为因素,这些因素能够描述多种类型的垃圾用户,因此具有较低的漏报率.在准确率指标上,LTD单一地考虑通话持续时长属性,而主动性很强的意在传播垃圾信息的垃圾用户在该属性上与正常用户有很大的区别,LTD不会受到其他因素的影响,从而有较高的准确率;MLBRE方法的准确率和漏报率也可以通过调整划分等级的阈值以及训练集中样本的挑选来平衡.MLBRE与LTD 方法的运行时间分别为15 792s和4 159s.MLBRE需要更多时间,因为MLBRE不是单一地考虑通话持续时长特征,还考虑了其他8种属性特征.同时,MLBRE的输出结果是用户可疑度排行榜,而LTD的输出结果为是否是垃圾用户.而且评估时间会随着计算环境的提高而逐渐缩减.综上所述,MLBRE在保持准确率的同时,较大程度地降低了漏报率,但是该方法须消耗更多的时间,因此在进行非实时的可疑度评估时,采用MLBRE可获得更优的结果.4 结论结合社会网络分析技术与信誉评估技术提出一种基于机器学习的可疑度评估方法.仿真结果表明,该方法能够有效评估用户的可疑度.在实际应用中,随着训练集不断充实,其预测结果的准确度也将再次得到提高.同时该方法具有很强的扩展性,可以通过选取特定类型的训练集评估特定类型的正常用户,使运营商发现话单中潜在的可利用价值,例如大客户发现、潜在大客户预测、异常客户发现、新业务预测等.参考文献[1]Ajmal M A,Ricardo M.Mitigating SPIT with socialstrength[C]∥Proceedings of the 11th InternationalConference on Trust,Security and Privacy in Computing and Communications (TrustCom-2012).Liverpool:IEEE Computer Society,2012:1393-1398.[2]He Guangyu,Wen Yingyou,Zhao Hong.SPIT prevention method based on resource challenge for FMCnetwork[J].Chinese Journal of Computers,2012,35(1):38-45.[3]Bokharaei H K,Sahraei A,Ganjali A.You canSPIT,but you can’t hide:spammer identification intelephony networks[C]∥Proceedings of the International Conference on Computer Communications(IEEE INFOCOM 2011).Shanghai:Institute ofElectrical and Electronics Engineers Inc,2011:41-45.[4]Wang Fei,Mo Yijun,Huang Benxiong.Reputationbased filtering model for P2P-VoIP spam[J].Journalof Huazhong University of Science And Technology:Natural Science Edition,2008,36(8):62-65.[5]Chaisamran N,Okuda T,Blanc G,et al.Trustbased VoIP spam detection based on call duration andhuman relationships[C]∥Proceedings of the 11thIEEE/IPSJ International (下转第47页)增刊Ⅱ   双锴,等:基于机器学习的SPIT可疑度评估方法    ·17·ing.Washington:IEEE Computer Society,2012:259-268.[8]Ge Weiyi,Chen Jianfeng,Hu Wei,et al.Object linkstructure in the semantic Web[C]∥7th Extended Semantic Web Conference.Berlin:Springer,2010:257-271.[9]Bader D A,Madduri K.SNAP,small-world networkanalysis and partitioning:an open-source parallelgraph framework for the exploration of large-scalenetworks[C]∥Proceedings of the IEEE InternationalSymposium on Parallel & Distributed Processing.Washington:IEEE Computer Society,2008:1-12.[10]Karypis G,Kumar V.A fast and high quality multilevel scheme for partitioning irregular graphs[J].SIAM Journal on Scientific Computing,1998,20(1):359-392.[11]Karypis G,Kumar V.Multilevel k-way partitioningscheme for irregular graphs[J].Journal of Paralleland Distributed Computing,1998,48(1):96-129.[12]Abou-Rjeili A,Karypis G.Multilevel algorithms forpartitioning power-law graphs,05-034[R].Minneapolis:Department of Computer Science and Engineering,University of Minnesota,2005.[13]Urbani J,van Harmelen F,Schlobach S,et al.QueryPIE:backward reasoning for owl horst oververy large knowledge bases[C]∥Proceedings of10th International Semantic Web Conference.Berlin:Springer,2011:檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪730-745.(上接第17页)  Symposium on Applications and the Internet(SAINT2011).Bavaria:IEEE Computer Society,2011:451-456.[6]Banerjee N,Saklikar S,Saha S.Anti-vamming trustenforcement in peer-to-peer VoIP networks[C]∥Proceedings of the2006International Wireless Communications and Mobile Computing Conference(IWCMC06).Vancouver:Association for Computing Machinery,2006:201-206.[7]Barrat A,Barthelemy M,Pastor-Satorras R,et al.Modeling the evolution of weighted networks[J].Physical Review E-Statistical,Nonlinear,and SoftMatter Physics,2004,70(62):066149/1-066149/12.[8]MacQueen J B.Some methods for classification and analysis of multivariate observations[C]∥Proceedingsof 5th Berkeley Symposium on Mathematical Statistics and Probability.Berkeley:University of California Press,1967:281-297.增刊Ⅱ   孟庆义,等:面向海量RDF数据的术语集冗余划分方法   ·47·

[返回]
上一篇:基于全向结构光的深度测量方法
下一篇: 贝叶斯机器学习前沿进展综述