欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
基于证据理论的多关系网络重要节点挖掘方法
来源:一起赢论文网     日期:2022-01-30     浏览数:815     【 字体:

 第43 第12 2020 年12月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol.43No.12Dec.2020基于证据理论的多关系网络重要节点挖掘方法罗 浩 闰光辉 张 萌 包峻波 李俊成 刘 婷( 兰州交通大学电子与信息工程学院 兰州 730070)摘 要 多关系网络作为现实世界建模的典型形式, 已成为当前网络科学领域研究的热点. 挖掘网络中的重要节点作为复杂网络分析领域的基本问题, 是理解复杂网络结构和动力学特性的有效方式. 关于单关系复杂网络中重要节点的研究已经形成了较为完备的方法框架, 但对于多关系网络中重要节点研究缺乏系统性的研究成果, 尝试推广已有的重要节点挖掘方法到多关系网络已成为当前研究的热点问题之一. 本文综合考虑中心性和传递性对节点重要程度的影响, 对无权无向多关系网络中的重要节点挖掘问题进行了系统研究. 首先, 通过建立多层网络模型对多关系网络进行描述, 并构造多层邻接矩阵对其进行表示. 其次, 按照多层网络节点局部聚集系数的概念, 给出了刻画网络传递性的多关系网络节点局部聚集系数的计算方法. 在此基础上, 结合多关系网络节点的度中心性,推广单关系网络的ClusterRank 重要节点度量指标到多关系网络, 提出了多重ClustedRankMultiplexCluSterRank, MCR) 指标. 考虑到多关系网络耦合信息和传递机制的差异性会对节点重要程度的度量产生影响, 多重ClusterRank指标在规模较大的网络中可能会存在计算误差, 从而影响度量重要节点的准确性, 因此引人D-S证据理论对多重ClusterRank 进行改进, 将节点的度中心性和局部聚集系数进行融合, 提出了更为高效的多重证据中心性(MultiplexEvidentialCentmli ty, MEC)重要节点挖掘方法.最后, 在4个真实数据集上进行了大量实验, 并从鲁棒性和脆弱性、 传播动力学特性两方面对所提出的方法进行了评价. 实验结果表明, 多重证据中心性所得到重要节点度量结果要优于只关注网络结构的度中心性和特征向量中心性所得到的重要节点度量结果, 而多重Cluster-Rank在规模较大的网络中确实会存在计算误差, 难以准确挖掘网络中的重要节点. 实验验证了多重证据中心性可以有效消除多关系网络耦合信息和传递机制在重要节点挖掘中的影响, 能够更准确地挖掘网络中的重要节点. 此外, 通过分析各方法的时间复杂度并统计各方法的实际运行时间, 验证了相对于多重Cl usterRank, 改进后的多重证据中心性具有更低的时间复杂度.本文所做工作对多关系网络重要节点挖掘问题提供了新的思想方法, 并进一步拓展了D-S证据理论的应用场景.关键词 多关系网络; 多重网络; 重要节点; 中心性; 传递性; 局部聚集系数; 证据理论中图法分类号TP181DOI10.1 1897/SP.J.1016.2020.02398IdentifyingImportantNodesinMulti-RelationalNetworksBasedonEvidenceTheoryLUOHaoYANGuang-HuiZHANGMengBAOJun-BoLIJun-ChengLIUTi ng(. School ofEl ect ronicandInformationEngineeringLanzhouJiaotongUniversi tyLanzhou730070)AbstractAstypicalmodeloftherealworld,themul ti-relationalnetworkhasbecomeoneofhottopicsi nthefiel dofnetworksci ence.Identi fyi ngi mportantnodesi soneofthefundamentalprobl emofnetworkanalysis,whichisessentialtounderstandthestructureanddynamiccharac?teri sticsofthecomplexnetworks.Lotsofexcel lentstudiescarriedonthei mportanceofnodesi nsi ngle-relati onalnetwork,buttheresearchoni mportantnodesi nmulti-relationalnetworks收稿日期:2019-09 05; 在线发布日期:2020-02-16. 本课题得到国家自然科学基金( 62062049) 、教育部人文社会科学研究青年基金( 20YJCZH2 12) 和甘肃省自然科学基金( 20JR5RA390) 资助. 罗 浩, 博士研究生, 中国计算机学会(CCF) 会员, 主要研究方向为数据挖掘和复杂网络分析. E-mail:l uoh382@foxmail.com.闫光辉( 通信作者), 博士, 教授, 中国计算机学会( CCF) 会员, 主要研究领域为数据库理论与系统、物联网工程与应用、 数据挖掘、复杂网络分析等. E-mail :yanghacademic@163. com. 张 萌, 硕士,主要研究方向为数据挖掘和复杂网络分析. 包峻波, 硕士, 主要研究方向为数据挖掘和复杂网络分析. 李俊成, 硕士, 主要研究方向为数据挖掘和复杂网络分析.刘 婷, 硕士, 主要研究方向为数据挖掘和信息安全.12 期罗 浩等: 基于证据理论的多关系网络重要节点挖掘方法2399lackssystematicresearch.Tryingtoexploreandextendtheexi sti ngmethodsi nsi ngl enetworkstomul ti-relati onalnetworkshasbecomeoneofthehotissues.Formul ti-relational networks,thispaperfocusedonthestudyoftheidentifyi ngi mportancenodesconsi deri ngtheinfl uenceofcentrali tyandtransitivi ty.Wecreatedthemul tilayernetworkmodeltodescribemulti-relationalnetworkandusedthemultilayeradjacencymatri xtorepresentit.Toquantifythetransi tivityi nmul ti-relationalnetworks,weproposedmethodforcalculati ngthel ocalcl usteringcoefficientaccordingtothenotionofclusteri ngcoefficientformul ti layernetworks.Ul teriorly,weproposedmultiplexClusterRankcombi ni ngthemultiplexdegreecentral ityandextendi ngClusterRankinsi ngl e-relationalnetworkstomulti-relati onalnetworks.Consideringthei nfluenceofcoupli ngi nformati onandthedi fferenceoftransmi ssionmechani smformul ti-relati onalnetworkonvi tali nformati onofnodes,mul tiplexCl usterRankmayhavecal culati onerrorsi nl arge-scalemul ti-relationalnetworks,whichmayaffecttheaccuracyofmeasuri ngessentialnodes.Therefore,i nthi sworkweimprovedmultiplexClusterRankandproposedanothermoreefficientmethodtoi denti fyvi talnodesformulti-relationalnetworksnamedmultiplexevi dentialcentral ity,whi chfusedthenodedegreecentralityandlocalcl usteri ngcoefficientbytheDempster-Shaferevidencetheory.Numerousexperimentswerecarriedoutonfourrealnetworks.Theproposedmethodiseval uatedfromtwoaspects:robustnessandvulnerabi l i ty*transmi ssiondynami cscharacteri sti cs.Experimentalresul tsshowthatmul tipl exevi dentialcentral itycangetbetterresul tsthanmul tiplexdegreecentralityandmul tipl exeigenvectorcentralitywhichonlyfocusonthestructureofmul tiplexnetworksandmultipl exCl usterRankdoeshavecal culati onerrorsinl arge-scalenetworks,maki ngi tdifficul ttoi dentifyimportantnodes.Theexperimentalresultsverifiedmul tiplexevidentialcentralitycaneffecti velyeli mi natethei nfl uenceofthecoupli nginformationandthetransmi ssionmechani smi nmulti-relati onal networks,andhaslowerti mecomplexitythanmultiplexCl usterRank.Inthispaper , wenotonlyprovi denewi deasandmethodsfori dentifyi ngcriti calnodesformulti-relati onalnetworksbutalsoexpandstheapplicationofi nformati onfusi ontechnology.Keywordsmulti-rel ationalnetwork;mul tipl exnetwork;i mportantnodes;central ity;transi ti vi ty;localcl usteri ngcoeffi ci ent;evi dencetheoryi 引 言近年来, 随着复杂网络分析技术的迅猛发展, 人们对现实世界中广泛存在的复杂系统已经有了从宏观到微观的递进认识. 节点作为微观层面的基本单元, 在现实网络中往往扮演着不同角色[1 2], 挖掘网络中的重要节点已成为复杂网络分析的基本问题之一. 迄今发展起来的理论框架主要是面向单个网络结构. 单个网络结构是一种简化的网络科学研究模型, 而现实世界中相互关联、彼此依存的复杂系统普遍存在, 刻画此类复杂系统的网络结构称之为网络的网络( NetworksofNetworks, NoN) . 相伴大数据时代的到来, NoN逐渐成为网络科学领域富有挑战性的前沿课题[3]. 多关系网络( mul ti-relati onalnetworks) 作为NoN的一种典型形态, 从复杂网络分析的角度出发, 尝试发展理论框架来研究多关系网络, 并大量推广已有复杂网络分析方法到多关系网络具有重大理论意义和现实意义.现阶段, 国内外学者针对多关系网络的研究进行了一些探索, 对于多关系网络的建模和表示, 相对理想的方法是建立多层网络模型. 国外学者已针对多层网络模型, 提出了相关度量指标和分析方法, 形成了较为完整的理论框架, 为多关系网络的研究奠定了理论基础. 但在实际应用层面, 面向多关系网络进行重要节点挖掘尚缺少成熟的方法框架. 因此, 针对多关系网络的结构和动力学特点, 设计相应的重要节点挖掘方法已成为当前节点重要性研究的重要任务.本文针对无权无向多关系网络重要节点挖掘问题, 通过建立多层网络模型对其进行表示, 综合考虑节点中心性和传递性, 提出了多重ClusterRank2400 计 算机 学 报 2020( MultiplexCl usterRank, MCR) 指标. 考虑到多关系网络传递机制和关系间信息的差异性, 引人D-S证据理论将多关系网络节点的度中心性和局部聚集系数进行信息融合, 提出了多重证据中心性(Mul tiplexEvidentialCentral i ty, MEC) . 通过个真实网络的实验结果表明, 由于多层网络传递机制差异性较强,节点的中心性和传递性不具备相关性, 采用传统ClusterRank方法简单融合的多重Cl usterRank, 会造成节点部分信息的损失. 而采用D-S证据理论进行融合的多重证据中心性可以有效消除节点传递机制对节点重要程度造成的影响, 相比于只考虑结构中心性的度中心性方法而言, 能够更加准确地挖掘多关系网络中的重要节点, 特别是在大规模网络的重要节点挖掘中, 其准确度高于其它方法.本文的主要贡献如下:(1) 参考多层网络局部聚集系数的概念和计算方法, 对多关系网络进行了抽象和简化, 给出了多关系网络局部聚集系数的计算方法;(2) 针对无权无向多关系网络, 统筹考虑节点的中心性和传递性, 提出了多重ClusterRank度量方法, 并对多关系网络节点的度中心性和局部聚集系数的相关关系进行了研究, 验证了由于受多层网络传递机制和层间信息的影响, 二者不具备相关性,若直接扩展单层网络Cl usterRank的思想方法到多关系网络, 会对重要节点度量指标的准确度造成影响 的猜想;(3) 针对多重ClusterRank存在的缺陷, 进一步引人D-S证据理论, 将节点的度中心性和局部聚集系数融合, 提出了节点多重证据中心性的度量方法,实验结果表明, 该方法可以消除多层网络传递机制和层间信息差异性对测量节点重要程度的影响, 相比于单纯关注中心性的度中心性, 综合考虑中心性和传递性的多重证据中心性能够更加精准地挖掘多关系网络中的重要节点, 使得多层网络的度量指标和D-S证据理论在挖掘重要节点的实际应用中得以扩展.2 相关工作2.1多关系网络的表示对多关系网络开展研究, 首要问题是建立合适的模型和表示方法. 鉴于目前在单个网络上已经建立了较为成熟的分析框架, 对多关系网络的简单处理思路是采用降维思想, 围绕特定领域网络, 运用社会学、可拓学等其它学科的理论, 通过构建加权网络的方式将多关系网络转化为单关系网络[4 5]; 或是借助矩阵分解、多子网复合等理论方法对已有网络进行时间划分或快照处理, 对单个网络分别研究后再进行复合[6 7]. 然而, 通过降维转化为单关系网络的处理方法, 会丧失原始数据中所含的特定结构信息, 以及不同类型关系之间的关联信息, 不利于后续研究的开展. 此外, 还有一些研究围绕全连通网, 运用超图理论展开分析W, 该类研究虽能够对网络进行融合, 保留了信息的完整性, 但超图型通常只适用于刻画全连通网络, 局限性较强.在计算机科学和计算机线性代数领域, 研究者们运用张量分解( tensordecomposition)[8_9]和多路数据(mul ti waydata) 分析[1 °]的方法研究了不同类型的多层网络. 在物理学领域, 物理学家们围绕多层网络( multi layernetworks、 网络的网络( NetworksofNetworks,NoN)[1 5-1 6]和节点着色网络( nodecolorednetworks) , 已经做了许多重要的基础性工作. Boccaletti 等人[17]于2014年首次提出了多层网络的基本数学定义, 该定义统一了迄今文献上关于多层网络的不同提法. 经过近几年的发展,多层网络模型已逐渐成熟, 形成了一些符合复杂网络基本特征和动力学机制的理论方法, 为后续研究提供了理论工具. 针对多关系网络, 可将每一类关系映射到一个网络层上, 同时考虑各类关系间的交互信息, 构建多层网络开展研究. 因此, 多层网络模型是表示多关系网络的理想形式, 将多层网络模型运用到多关系网络中, 在应用层面进行拓展, 是值得深人研究的一个问题.2. 2 重要节点度量指标结构中心性和传递性是衡量节点重要程度的重要因素. 在单个网络的重要节点研究方面, 已经有了较完备和丰富的度量指标方法挖掘网络中的重要节点[1 8]. 根据网络的局部特性划分, 可分为全局中心性、局部中心性、半局部中心性3 类. 全局中心性的经典指标有介数中心性( BetweennessCentrali ty,BC)[I 9]、 接近中心性(ClosenessCentrali ty, CC)〔2。]、特征向量中心性(EigenvectorCentrality,EC)[21]等, 局部中心性有度中心性( DegreeCentrality,DC)[21]. 为平衡全局中心性的复杂度和局部中心性因素的单一性, Chen等人「 %提出了一种半局部中心性( Semi-LocalCentral i ty, SLC) , 通过考虑节点12期 罗 浩等: 基于证据理论的多关系网络重要节点挖掘方法 2401的4 阶邻居信息来度量节点重要程度, Gao等人23在其基础上通过引入D-S 证据理论, 提出了一种证据半局部中心性( EvidentialSemi-l ocalCentrality,esc) , 但两者都只关注了中心性, 而忽略r传递性在度量重要节点中的关键作用. Chen 等人&综合考虑了二阶邻居和局部集聚特性, 提出了Cl usterRank指标. 该指标在运行效率和准确度上都要优于前者.2.3多层网络的度量指标面向多层网络, 如何借用已有的物理量去描述其基本拓扑结构和性质还面临巨大的挑战, 将单个网络中已有的成熟工具和方法扩展到多层网络领域成为当前复杂网络研究的一大热门方向. 最初的做法是将不同网络层的节点和连边以不同权重的方式进行合并, 从而将多层网络转化成为单层网络, 再利用传统物理量分析网络的各种结构属性. 这种方法虽然简单, 但存在很多问题, 因为在将多层网络合并成单层网络时,一些不同网络层之间的重要信息会全部丢失, 同时还存在如何设定各种权重的H题M. 因此, 发现一套适合多层网络理论框架的必要性开始凸显, 国内外学者围绕设计多层网络的度量指标做了大量研究工作, 也取得了一些成果, 多层网络的中心性、 路径长度、 聚集系数等概念被相继提出, 为后续研究奠定了基础. 与单层网络的度量指标不同, 多层网络的一些度M指标是在特定条件和应用场景下提出的, 尚未形成像单层网络众多经典方法一样的公认指标. 值得一提的是, Battiston等人>]在向量的基础上提出的多层网络节点度(degree)、 节点强度( strength) 以及C〇ZZ〇等人[27基于多层网络的传递性提出的多层网络聚集系数的概念都是从多层网络的基本性质和动力学特性出发的, 具有一定的普适性, 成为目前比较经典的多层网络度量方法. 特别是在节点的传递性方面, 在实际数据集上的实验分析表明, 在社会网络和交通网络中层内聚集性和层间聚集性的差异是不同的, 这实际上反映了在这些网络中节点传递性的起源机制大不一样. 他们提供的聚集系数定义表达式为不同类型的网络传递性研究提供了新的思路.3 基本概念3. 1多关系网络的矩阵表示按照Boccaletti 等人[1 7]提出的多层网络定义,多关系网络可用一种特殊的多层网络进行构建, 称之为多重网络( Mul t iplexNetwork), 其唯一的层间连接模式是来自不同层对应节点之间的连接.图1 描述了具有10个节点, 3 个网络层的多层网络和多重网络示意图.一般地, 对于N个节点, JW层的无权无向多关系网络, 可用MJVXiWN的邻接矩阵进行表示, 这对于计算算法的实现是十分有用的. 进一步, 可根据连接方式的不同将多关系网络分解为层内网络和层间网络, 分别用层内邻接矩阵和层间邻接矩阵进行表示:28], 定义如下.定义1. 层内邻接矩阵. 多关系网络第^类关系所对应的层内连接可由一个邻接矩阵来表示,记为 , 则多关系网络的层内邻接矩阵定义为AM,?AMeRMV>< MN(1 )i-l1.2L3( a ) 多层网络 (b) 多重网络L21*11多W网络 ̄多fi 网络原理图定义2. 层间邻接矩阵. 多关系网络所对应的层间连接可由一个加权邻接矩阵来表示, 记为州6KMX M, 取单位矩阵/、 , (.'则多关系网络的层间邻接矩阵定义为wMC=vyt-?iMcmm,vxmv(2)根据层内邻接矩阵和层间邻接矩阵.可以很方便地得到多关系网络的邻接矩阵.定义3. 多关系网络的邻接矩阵. 令AM, 为多关系网络层内邻接矩阵, 为层间邻接矩阵, 则多关系网络的邻接矩阵:(3)3. 2 多关系网络的度中心性根据Battiston等人[26]提出的多层网络节点度和节点强度的概念, 可得到多关系网络节点的度中心性( Multipl exDegreeCentrality, MDC) 定义.定义4. 多关系网络节点的度中心性. 假设多关系网络GM(V, £M) 包含M种关系, 节点数为JV, 则节点从ev(i=l,2,, N)的度中心性向量可表示为: 《,=( /<:;1], 尺;2:,一, 尺严), 其中]<::°]为节点%在层a 中的度, 定义为2402计 算机 学 报2020 年⑷i>进一步, 我们可以在多关系网络上得到相应的节点度、平均度、 度的二阶矩的定义.节点度( nodedegree):K,=2K,U(5)平均度( meandegree) :〈/0=十( 6)度的二阶矩( t hesecondmomentofthedegree) :2( 氏)2(7)3. 3 多关系网络的局部聚集系数Cozzo 等人[27]从路径和环的概念出发, 提出了多层网络局部聚集系数和全局聚集系数的概念. 在单层网络中, 可用邻接矩阵来计算网络中路径和环的数量[29-抝类似地, 将多层网络中的行走称之为“超行走( supra-wal k), 并通过层内邻接矩阵和层间邻接矩阵来计算多层网络的聚集系数. 按照C〇ZZ〇 等人提出的多层网络聚集系数的计算方法,本文给出了多关系网络局部聚集系数( Mul tipl exLocalClusteri ngCoefficient , MLCC) 的概念和计算方法. 由3.1节?知, 本文运用多rR网络模铟来表示多关系网络, 则在多关系网络1丨1, 通过超行走得到的三元闭环有且仅有阁2 所示的5 种基本形式, 其中较大节点代灰闭环的起始W点, S内路径用实线表示, 层间路径用虚线表示, 较机实线代表层内第二步行走路径. 通H“超行走所构成的三元闭环可通过将各网络层聚合到一层得到, 由此可得到多关系网络节点聚集系数的定义.( a)III(b)//C/C(c)/CHC(d)ICICI( e) ICICIC图2 多关系网络基本闭环结构示意图定义5. 多关系网络的局部聚集系数. 令M,J, C分别表示多关系网络的邻接矩阵、 层内邻接矩阵、层间邻接矩阵,12=i//,IICIC,ICIIC,ICICI,ICICIC}为多关系网络中基本三元闭环结构集合,¥ 为集合■ 0 中的元素,0={//'/.IFCIC,ICFIC.1CFCI.1CFCIC}为在构成基本?: 允闭环结构的超行走过程中, 层内第2 步发生在一个完全图上的闭环结构集合. 其网络的邻接矩阵d表示h屮的元桌. 则多关系网络节点a的局部聚集系数可定义为㈦?(4)“Cm.,=—(8)I>c: (心"een式( 8) 中,&和%代表超行走分别跨越1 层、2 层和3 层所占的贡献, 在无特定背景情况下,一般COf3. 4I)-S证据理论Dempst er 和Shafer 建立的D-S证据理论, 是在概率论基础上扩展的1 套数学理论, 适用于人工智能、 模式识别等领域的实际问题. D-S证据理论涉及确定辨识框架( frameofdiscernment)? 计算基本概率指派( BasicProbabilityAssignment.BPA) 以及证据合成等基本流程. 本节简要介绍其基本概念和合成方法[31].定义6.辨识框架. 在D-S 证据理论中, 所考察判断的事物( 或对象)的全体可用一个由」V个两两互斥元素组成的有限完备集合来表示, 称之为辨识框架( 或称为假设空间). 记为平={01,办,,0.V}?少的幂集2'"记为2^{ 0 ,, 如, ,? ", 平)?定义7. 基本概率指派. 设少为辨识框架, 少的幂集2"构成命题集合, 对于 少, 若函数2'^?[0, 1]满足以下两个条件:(m(0)( 9)y]/w(A)则称m为基本概率指派, wz(A) 为命题A的基本概率数, 被视为准确分配给A的信度.罗 浩等: 基于证据理论的多关系网络重要节点挖掘方法 2403 1 2 期定义8.Dempster-Shafer 组合规则. 设;? 和所2 为2 组基本概率指派, 对应的命题分别为AmA2,,At 和 丨, ,?_ ?, 战, 用?w表示所丨 和;?z2 组合后的新证据, 则Dempster-Shafer组合规则为f m(0)=〇,m(A):A^Bi=AX)mAAi)m2(Bi)(1 0)其中, 々=叫(A) 叫( 战) 称为冲突系数, 用于Ai.nBi=0衡量证据焦元间的冲突程度, 々 越大, 则冲突越大.由式(10) 可知々关1, 当々=1 时, 组合规则无法使用, 即BPA存在矛盾.4 多重证据中心性4. 1多重ClnsterRank度量指标中心性和传递性作为影响节点重要性的主要因素, 可分别用节点的度中心性和局部聚集系数进行度量, 其中节点的度中心性与节点的重要程度呈正相关、节点的局部聚集系数与其重要程度呈负相关.在单个网络中, Chen等人M提出的Cl usterRank算法同时考虑了中心性和传递性对节点的影响, 取得了较好的度量效果. 根据ClusterRank算法的思想, 在多关系网络上进行推广, 首先提出了多重Cl usterRankC Mul tiplexClusterRank,MCR) .定义9. 多重Cl usterRank. 在多关系网络Gm(V, EM)中, 记?为节点%的度中心性、 CM?为节点%的局部聚集系数, 令/(<^, ,)1 0夂为(^., 的非线性负相关函数, 则节点切的多重ClusterRank 度量值为其中,=^L(KL^1)1(12)为层《 内, 节点%的二阶邻居节点的连接强度, r, 为节点 二阶邻居节点的集合.4. 2 多重证据中心性考虑到多关系网络传递机制和层间信息的差异, 猜想节点的中心性和传递性之间可能不具备相关性, 会对多重Cl usterRank的计算结果造成误差,从而降低评估节点重要程度的准确性.鉴于此, 运用D-S证据理论[233 2]对多重Cl uster-Rank指标进行改进, 对节点的度中心性和局部聚集系数进行信息融合, 进而得到多重证据中心性( MultiplexEvidentialCentrality, MEC)? 根据3.D-S证据理论基本流程, 给出多重证据中心性的计算步骤:①计算相关指标计算节点度中心性向量K和局部聚集系数向量CM, 记 和 分别为K和CM中对应第£ 个位置的元素值, 即节点〃, 的度中心性和局部聚集系数.分别计算/(CM,, )1(T? , 所得结果向量记为F.统计K和F的最大值和最小值, 分别为Km, K,? ,Fm, jF?,. 通常, 关K,? 、Fm关F?,.②确定节点的辨识框架少简单而言, 网络中的节点要么重要, 要么不重要, 可定义辨识框架平={I , NI}, 其中I 表示节点重要, NI 表示节点不重要, 二者互斥且少为有限完备集合.③构造基本概率指派函数令wK.丨 (i) 和wK, N, 分别为在下节点要和不重要的概率, 和mF. N,(i) 分别代表在/(CM.,_) 下节点%重要和不重要的概率. 在无特定条件情况下, 通常约定该概率指派服从均匀分布, 则BPA函数可分别定义为mK. , \k,-k, ?\(13)Km ̄K?,2^mK, Nl( 〇■\k-km\(14)KM—Km+2jutfnF., d)=(15)FM—Fm2X■FM ̄Fm2X(16);?和》 的取值对节点排序没有影响, 通常取(〇 >1) .④进行D-S证据组合首先定义一个新的指标, 记为M(〇{ 7n[( 〇(17)根据式(10), 可分别计算?w丨(i) 、mN1(i) 、7^(£) .其中w,(Z_)表示节点重要的概率, mni(0表示节点不重要的概率, 0表示节点重要或者不重要的概率.⑤计算MEC.根据贝叶斯理论, 在无其它先验知识的情况下, 将 的值等可能分配给叫(£) 和mNI(0, 进一步修正节点认重要的概率MKG和不重要的概率Mm( i) , 即, mv(£)M,( 〇=m1(£) +^—( 18)2404 计 算机 学 报2020A^Tn]i( f)—/?zNj( f)m^{i)(1 9)由式(18) 和式(19) 可得, M,( £ ) 越大, 或者MN1(i) 越小, 均说明节点^越重要. 鉴于此, 定义节点认的多重证据中心性为MYCi)—MNI ( £)m](z)mNI(z)(20)进一步归一化处理可得:^MEC.i^MEC.mi n +^MEyME[.. min(21)4. 3 时空复杂度分析多关系网络中, 记节点数为tz , 关系数为m.(1) 时间复杂度分析多关系网络度中心性的时间复杂度为〇( m?) ,节点的局部聚集系数时间复杂度为〇( w3?3). 在已知节点度中心性和局部聚集系数的情况下, 多重Cl usterRank 和多重证据中心性由于综合考虑了中心性和传递性, 故二者的时间复杂度均依赖于度中心性和局部聚集系数, 其中多重Cl usterRank 由于考虑了节点的一阶邻居信息, 其时间复杂度为0( m?〈K> ), 而多重证据中心性将层间信息通过D-S证据理论进行了信息融合, 仅关注了节点本身,故其时间复杂度为〇( n) . 综合考虑节点度中心性和节点聚集系数的时间复杂度后, 二者的时间复杂度均为O(W) .(2) 空间复杂度分析鉴于通过构建 的邻接矩阵对多关系网络进行表征, 故其空间复杂度为〇( m?Xm?) . 在具体实现过程中, 考虑到邻接矩阵的稀疏性, 采用稀疏矩阵对其进行处理, 可以有效降低多关系网络的空间复杂度.5 实验与讨论相比于单关系网络, 目前适用于无权无向多关系网络的重要节点挖掘方法相对较少, 多层网络的度中心性是目前公认度比较高的适用于无权无向多关系网络重要节点的经典度量指标.为从运行时间和重要节点度量准确性两方面评测所提出的方法, 验证4.2节提出的由于受多关系网络传递机制的差异, 节点的中心性和传递性间不具备相关性, 会造成多重Cl usterRank 的计算误差,从而降低评估节点重要程度的准确性 的猜想, 以及与只关注节点结构的度中心性相比, 融合节点传递性的多重证据中心性更能准确识别网络中的重要节点, 选取了网络类别、网络规模、关系数量、关系类别各不相同的4 个真实网络数据集进行了5 组不同实验, 运用重要节点挖掘研究中最常采用的SIR传播模型以及鲁棒性和脆弱性方法进行评价. 同时, 除选择多层度中心性作为对比方法外, 另外选取了适用于无权无向网络的多重特征向量中心性(Mul tiplexEigenvectorCentrality, MEVC) 作为对比, 用以说明提出算法的有效性. 多重特征向量中心性定义为[33]Mi;?0ia=Xl 0J^(22)^MEVC. i 0;om°(23)其中 为多层邻接张量, A, 为最大特征值, 0, 。为对应的特征向量, 为元素全为1 的向量.实验平台为IntelCorei9-9900K3.6GHz, 64GBRAM, 操作系统为Wi ndows10, 代码由Python实现.选取数据集分别为CKMPhysiciansInnovation[3 4]、CSAarhus[35\EUAirTransportation1 -361,MoscowAthletics201 3[37], 数据集的基本统计信息如表1所示.表1 实验数据集基本统计倍息数据集名称 层数 节点数 边数 网络类型 平均度 度的二阶距CKMPhysiciansI nnovat ion  246 1 55 1 社会网络 18.60405.40CSAarhus 61 620 社会网络 40.33 1752.20EuAirTransport ation37 450 3588 交通网络 1347.94 1.8X106MoscowAthl etics2013  88 804 210250 社会网络 10.69 3 286.235. 1 运行时间评价通过统计4个真实网络数据集上各算法的实际运行时间, 来比较提出方法的运行速率. 记tK, k,^MCU^MEC 分别为多关系网络中计算度中心性、 局部聚集系数、多重ClusterRank、 多重证据中心性和特征向量中心性的运行时间. 根据4.3 节对各算法的时间复杂度分析可知, 多重ClusterRank和多重证据中心性的运行时间依赖于k和L, 即^MCR_之K+k+fMCH(24)^MEC—(K+,L +丨MEC(25)其中, 4cR和心C分别为单独计算多重ClusterRank和多重证据中心性的运行时间.罗 浩等: 基于证据理论的多关系网络重要节点挖掘方法 240512 期由于4 个网络规模不同, 我们通过统计各方法运行时间占总运行时间的比重, 来说明算法运行时间的长短, 即 ⑴(26)5 种方法在4个网络上的运行时间统计结果如图3 所示, 可以看出, 在整个运行过程中, 度中心性和特征向量中心性的计算时间很短, 基本可以忽略不计, 计算局部聚集系数的运行时间相对较长, 在计算多電Cl usterRank和多重证据中心性的过程中,主要时间消耗在计算局部聚集系数的环节上, 而总DataSetMet hod■MLCCMEVCMECMDCMCR图3 各方法运行时间统计图体运行时间和局部聚集系数的运算时间差异不大.图4 显示了4 个网络中以^和.的运行时间统计, 可以看到, 在单独计算二者的运行时间上, 多重证据中心性要比多重Cl usterRank 用时少得多.综上, 实验结果与4. 2 节中时间复杂度的分析结论是一致的, 在运行时间上, 多重证据中心性要优于多Cl usterRank.DataSet图4MCR和MEC运行时间统计图5. 2 度量准确性评价表2 列出了在4 个真实网络数据集中, 运用4 种方法分别对节点重要程度进行度量, 各自得到重要程度最高的10 个节点的标号.表24 种方法得到前丨 0 个重要节点标号CKMPhysici ansI nnovationCSAarhusEUAi rTransportati onMoscowAthl eti cs201 3MDC MEVC MCR MEC MDC MEVC MCR MEC MDC MEVC MCR MEC MDC MEVC MCR MECvl22v41 vl 5 vl 22 v44 v51 v7 v44 vl 5 vl v50 vl 5v22v29 604 vl3892 v22v29v47v98v29v51vl 9v44v51v50 v26vl 5v50 v727v29616vl2858v727vl41 vl23v93 vl4 1 v23v53v34v23v38 v2 v40v38 v7v29 605v74738 v7v36v49v29v36 v34 v56 v2 1 v7v40vl4v38v40 v42v29 609 v25936 v42v216 vl 29v36 v55 v7 v58 v51v34 v2 v50v2 v2 v605 v8 vl78 17 v605vlOOv205v8vlOO v46 v50v26 v46v252 v74 v83 v252 vl7 v29611vl9867 vl 7v46 vl 3 1 v24v46 v26v7v3 1v26v64 v366 v7 vl 2 v9 v29878 vl2942v9vl91v21 1v46 v31v31 vl 8 vl9 v31 v83 v293 vl66 v64v810v29 803 vl9882 v810v55 vl 25vl l v94 v33v54 vl3vl3vl2 v62v64 v83v315v24 3v46251 v31 5v231 v44 v28 v27 vl3v6v46v8 v7 v43 9vl 2 v7 v327v30047 v51112 v327为验证4.2 节中的猜想, 首先对度中心性和局部聚集系数的相关性进行了讨论, 通过计算4 个网络中度中心性向量和局部聚集系数向量的Kendal l相关系数[22]来说明二者的相关性, 计算结果统一取4 位有效数字, 如表3 所示. 可以看出, 在MoscowAthl etics2013中, 度中心性与局部聚集系数之间呈现出较弱相关性外, 在其它3 个数据集上, 二者均未呈现出明显的相关关系, 所得结论与4.2 节中猜想—■致?表3 度与局部系数相关性数据集 Kendal l 相关系数CKMPhysici ansInnovat ion 0.0175CSAarhus-0.2650EUAirTransport at ion 0. 2 958MoscowAt hl et ics2013 0.5278通常, 对重要节点挖掘方法的评价一般采用基于网络的传播动力学模型和基于网络的鲁棒性和脆弱性2 种方法[3S]. 分别在4 个数据集上进行了5 组不同实验, 从网络的传播特性和鲁棒性及脆弱性2406 计 算机 学 报 20202个方面对所提出的方法进行了全面评价.前4 组实验从网络的传播特性方面对所提出方法进行了评价. 基于网络的传播动力学模型对重要节点度量方法评价, 常采用SIR传播模型. 在SIR模型1 738_'|1]中, 对重要节点的评判标准一般有2 项:一种为传播速率, 可从传播初始阶段感染态/ (/) 和恢复态i?(f) 的数量和达到稳态时所用时间两方面来评判, 数M越大、 所用时间越小, 说明该节点越重要; 另一种为节点的平均传播范围, 即达到稳态时感染态/(? ) 和恢复态 的数量之和, 数量越大, 说明该节点越重要. 为方便说明, 令第/ 个时问迭代步时,感染态和恢复态的数童之和记为F(0, 感染态的平均数量记为F, (z), 达到稳态时的数量记为F(〇.由于网络规模不同, SIR模型的传染概率和恢釔概率依赖于各层层内网络的拓扑结构. 通常, 传染概率的设置依赖于各层内网络的渐近传播阈值°:. 渐进传播阈值为传播过程中应取的最小传播概率[38], 定义为丨。] =_^_(27)〈 ( K-——〈 K:”根据贝叶斯理论和条件概率, 各层传染概率设置为Ai 冲]^vT(28)其中A, 为放大系数 为多关系网络的关系数. 恢复概率通常依赖于各层的平均度, 类似地, 各层恢复概率设置为由于传播过程是依概率进行感染传播, 即使2 组实验条件完全相N,M终得到的结果也会存在一定差异. 为此, 特选取1 〇〇次独立实验所得结果的期望值作为评价结果.实验1.本实验主要通过观测各节点传播初期的FG)与各方法测量值之间的相关关系, 来说明节点的传播能力. 本实验设置《1〇. 在理想状态下, FG) 与对应的测量值应呈现正相关关系.在4 个数据集上的实验结果如图5 所示. 图5CKMPhysi ciansInnovation CKMPhysi ci ansI nnovation CKMPhysi ciansInnovation CKMPhysi ci ansI nnovationMEVC( b)CSAarhusMDC(e)FXIAi rTransportat i on KU八i r Transportati on1 0°CSAarhus CSAarhus(g)EUAi rTransportat ion EUAi rTransportat ion( k)(1 )图5/=10 时, FU)与各方法测量值间的相关关系12 期 罗 浩等: 基于证据理论的多关系网络重要节点挖掘方法 2407中, 每行子图分别对应同一数据集下的不同方法, 坐标轴采用双对数坐标, 横轴表示每一种方法下各节点的测量值, 纵轴表示各节点作为传染源节点时, 所对应的F( f) ( r=10).MoscowAthletics201 3由于规模较大, 故选取各方法得到的前1 000 个节点作为实验节点.实验结果表明: 在4 个网络中, 多层度中心和多重证据中心性都能呈现出较好的正相关关系,多重证据中心性要优于多层度中心性, 特别是在规模较大的MoscowAthletics2013 中, 优势更加明显; 多重Cl usterRank在规模较小的3 个网络中, 能够呈现出较好的正相关关系, 但在规模较大MoscowAthletics2013网络中, F( 〇与多重Cl usterRank 没有呈现出相关关系,一些测量值较低的节点反而FU) 越大; 相比于其它3 种方法,多层特征向量中心性总体表现最差, 除在CSAarhus和CKMPhysiciansInnovati on 中呈现出较弱的正相关关系外, 在其它网络中均没有呈现出明显的相关关系.实验2.为了进一步验证各方法的性能, 本实验研究了按不同度量方法对节点的重要程度进行排序后, 节点排序与所对应的平均感染数量〈F(O>( i=10 ) 之间的关系. 性能较好的度量指标, 其图像应该呈现递减关系, 即随着节点重要程度的降低, 对应的受感染节点的平均数会减少. 为了对比. 本实验特意增加了随机排序这种极端情况. 实验结果如图6 所示, 其中横轴代表各节点排序, 纵轴代表对应的受感染节点平均数量. 类似地, 在MoscowAthletics2013中, 分别选取排序前1000 名的节点作为实验节点.CKMPhysiciansInnovati on CSAarhus( b)MoscowAt hleti cs2013R(v)( d)6 通过5种方法得到的节点排序对应/=1 0时的平均感染度显然, 随机排序的情况最差? 在CSAarhus 和CKMPhysici ansInnovation中,4种方法均能呈现出递减趋势, 从传播范围上分析, 多重ClusterRank得到的结果要优于其它3 种方法, 特别是在CKMPhysiciansInnovati on 中, 其它3 种方法者P表现出了幅度较大的波动, 而多重Cl usterRank呈现出的波动较小? 在MoscowAthleti cs2013 中, 多重证据中心性和多层度中心性能够呈现出较理想的递减趋势, 而其它两种方法表现较差. 从传播范围上分析, 多重证据中心性要优于多层度中心性. 在EUAirTransportation中, 多层特征向量中心性表现最差, 其它三种方法表现相当, 都能够呈现出较好的递减趋势.2408 计 算机 学 报 2020实验3.本实验通过观测传播达到稳态时所用的时间和FU), 从传播速率和传播范围两方面来评测各方法的测量性能. 在4 个网络中, 按照各方法对节点的重要程度进行排序, 分别选取前1%的节点作为初始传染源节点, 统计1 00 个时间迭代步的FG), 并绘制SIR时间增长曲线, 其中横轴代表时间迭代步数, 纵轴代表对应的F) , 结果如图7 所示.4 个网络上的实验结果显示: 无论是传播时间还是传播范围,MEC都能表现出较好结果, 特别是在大规模网络中尤为明显; MCR在规模较小的网络中表现较为理想, 但在规模较大的MoscowAt hletics201 3 数据集中, 其得到的结果M差, 从而进一步验证了之前的猜想; 多层度中心性在规模较小的网络屮所得到的结果较好, 但在大规模网络中, 与MEC的差距明显增大, 从而说明考虑网络传递性因素是非常必要的.1*17 前1 %的节点作为初始传染源节点时的SIR传播曲线实验4.本实验通过比较节点在SIR模型上的传播能力与各测量值之间的相关关系, 来评测各方法的性能.我们对各节点在SIR 模型中得到的稳态值F( U进行排序, 并计算了其与各方法之间的肯德尔相关系数(r). 图8 描述了在4 个网络中, 各节点在SIR模型中的传播能力与4 种重要节点测量方法间的相关关系, 图中每一行子图对应同一数据集的不同方法, 坐标轴采用双对数坐标, 横轴表示各节点在对应方法下的测量值, 纵轴表示各节点在SIR模型中得到的稳态值Fa) , 每一个数据点代表网络中的一个节点, 节点的灰度表示在传播过程中, 1〇 时的传播能力, 即F(10), 图中标识的r 值即为相应的肯德尔相关系数值. 在CSAarhus 和CKMPhysici ansInnovati on中, 四种方法与节点传播能力之间表现出的相关性都较弱, 多重Cl usterRank 和多重证据中心性要优于其它2 种方法. 在MoscowAthleti cs2013 中, 多重证据中心性和多层度中心性能够呈现出较好的相关关系, 多重证据中心性仍然表现最好,而其它两种方法呈现出的相关性较弱. 在EUAi rTransportation 中, 除多层特征中心性夕卜 , 其它3 种方法都能呈现出较强的相关性.罗 浩等: 基于证据理论的多关系网络重要节点挖掘方法 2409 12 期ocSo101CKMPhysi ci ansI nnovati on CKMPhysiciansInnovationr=0.0906r=0.05FCt)■ 60ho■20jjjFit)1 6014 0■20?. .1 0° . 丄I101MDC( a )CSAarhus1021 01MEVC( b)CSAarhus10210( c)CSAarhus(d)CSAarhusr=0. 131 6t=0.0876 r=0.271 5 t=0. 1981FC O■l'. ??? .2^00??,F( t )Fi t ) F( n' 'i.10°100"210°11.10MDC( e )EUAi rTransportati on10MEVC( f)10EUAi rTransportati onMCR(g)EUAi rTransportation10MEC( h)EUAi rTransportati onMDC( i )t=0. 8228FCt)IfMCR( k)MoscowAt hleti cs201 310' 102MEC( 1 )MoscowAthleti cs2013图8 节点测M?值与SIR传播能力间的相关关系实验5.本实验从网络的鲁棒性和脆弱性方面对所提方法进行了评价. 着重考察网络中一部分节点被移除后, 网络结构发生变化情况, 变化越大, 说明移除的节点越重要. 用各重要节点挖掘方法将网络中所有节点按重要性进行降序排序, 将一部分节点从网络中移除, 用C( i/iV) 表示移除i/N比例的节点后, 网络中最大连通集(largestcomponent ) 的节点数目的比例, 通过绘制“f/IV—( i/N)”曲线,对节点移除的影响进行分析. 图9 显示了在4 个数据集上使用4 种重要节点挖掘方法对节点排序后,移除一定比例重要节点后, 对网络最大连通集的影响. 实验表明, 在4 个数据集上, 通过多重证据中心性和多重度中心性得到的节点排序, 当移除部分节点后, 网络结构变化最大, 特别是在移除前1/4 后,多電证倨屮心性呈观出的变化趋势要比多重度中心性更为明显. 而多重Cl usterRank方法, 在前3 个规模较小的数据集中, 也能呈现出明显的变化趋势, 但在规模较大的MoscowAthl etics201 3 数据集中, 变化趋势缓慢, 而多重证据中心性和多重度中心性呈现出瞬间下降的趋势? 图 1〇 显示了在MoscowAthletics2013 数据集中, 移除前1000 个节点, 网络最大连通集的变化趋势. 结果表明, 在大规模网络中, 通过多重证据中心性和多重度中心移除极少数重要节点, 便能引起网络结构的分裂, 多重证据中心性所得到的结采要优于多重度中心性, 而多重Clust erRank 和多重特征向量中心性所得到的结果变化趋势不明显, 进一步说明了多重证据中心性的有效性和多重Cl usterRank方法不适用于大规模网络的局限性.MoscowAthletics201 3中, 网络中心性和传递性间的矛盾更加突出, 导致多重Cl usterRank度量重要节点有效性的降低. 多重度中心性和多重特征向量中心性由于只考虑了单方面因素, 虽然在算法复杂度上具有优势, 但相比于综合考虑中心性和传递性的多重证据中心性, 在度量效果上缺乏精准性.〇. 10. 0030. 0060.009i/N图10 移除前1000 个节点的网络连通变化趋势通过上述5 组实验可以得出, 由于D-S 证据理论是基于概率论的处理不确定问题的信息融合方法, 在融合节点中心性和传递性信息的过程中? 用概率来刻画节点重要程度的大小, 能够有效消除由于多关系网络耦合信息和传递机制的差异性对度量节点重要信息的影响, 所提出的多重证据中心性能够更加精准有效地挖掘网络中的重要节点, 而多重Cl usterRank采用的是相关性融合的确定方法, 但由于多关系网络耦合信息和传递机制的差异性, 节点的传递性和中心性之间不具备相关性, 因此无法准确挖掘网络中的重要节点. 特别是在大规模网络6 结束语本文针对无权无向多关系网络重要节点挖掘问题进行了研究分析, 综合考虑多关系网络的中心性和传递性对节点重要程度的影响, 提出了多重ClusterRank重要节点度量指标, 并针对其存在问题引入D-S证据理论进行改进, 进一步提出了多重证据中心性重要节点挖掘方法. 在4 个真实网络数据集上的实验结果表明:(1) 在多关系网络中, 由于受耦合信息和传递机制差异性的影响, 节点的度中心性和局部聚集系数不具备相关性, 对二者进行直接融合的多重Cl usterRank会造成计算结果误差, 降低重要节点挖掘的准确性, 特别是在大规模网络中, 无法有效识别网络中的重要节点;0.25 0.50i/N( c)0.75 1.00 0.25 0.50i/N( d)0.75 1. 00图9移除节点比例和网络最大连通集规模的关系EU

[返回]
上一篇:云计算中DDoS攻防技术研究综述_岳猛
下一篇:基于区块链的网络安全体系结构与关键技术研究进展