欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
社区环境下基于节点交互和主题的影响力计算模型_王大刚
来源:一起赢论文网     日期:2021-02-16     浏览数:1889     【 字体:

 社区环境下基于节点交互和主题的影响力计算模型王大刚1,钟锦12,吴昊1( 1. 合肥师范学院计算机学院,安徽合肥230601; 2. 中国科学技术大学计算机学院,安徽合肥230600)摘要: 为解决现有算法对社交网络节点影响力计算准确度不高的问题,本文整合节点不同维度信息,综合考虑节点在多个主题社区上的主题分布向量,提出一种新的节点影响力计算模型. 模型首先将主题相关性作为先验信息; 然后利用混合隶属度随机块( Mixed Membership Stochastic Block) 模型表达节点间的交互关系,用主题模型学习主题内容; 最后结合全局拓扑关系迭代计算节点的全局影响力. 本文选取社交网络数据,以P@ NMAP 等作为评价指标同现有主流算法进行比较. 实验结果显示,本文算法有效提升了影响力节点识别的准确度和排名的有效性.关键词: 主题; 影响力; 混合隶属度随机块; 先验中图分类号: TP311 文献标识码: A 文章编号: 0372-2112 ( 2020) 03-0582-08电子学报UL: http: / /wwwejournalorgcn DOI: 103969 /jissn0372-2112202003023Influence Calculation Model Based on Node Interactionand Topic in Community EnvironmentWANG Da-gang1ZHONG Jin12WU Hao1( 1. School of Computer Science and TechnologyHefei Normal UniversityHefeiAnhui 230601China;2. School of Computer Science and TechnologyUniversity of Science and Technology of China HefeiAnhui 230600China)Abstract: To solve the accuracy problems of the existing algorithms in calculating the influence of social networknodesby integrating different dimension information of nodesand considering the topic distribution vector of nodes on multiplecommunitiesa new model is proposedIt first regards the correlation between topics as the prior informationthen usesthe mixed membership stochastic block ( MMSB) model to express the interaction among nodeslearns topic contents usingtopic modeland finallyiteratively calculates the global influence of nodes with global topological relationshipWe select datafrom social networksuse P@ NMAPetc. ,as the evaluation indicatorsand compare the proposed algorithm with the existingmainstream algorithmsThe experimental results show that our algorithm significantly improves the identification accuracyof influential nodes and the validity of rankingKey words: topic; influence; mixed membership stochastic block; prior1 引言社交网络的分析和研究中,影响力计算具有非常重要的地位. 影响力计算模型中,Pageank 算法是比较有代表性的方法,Pageank 将网页看成是个有向图结构,利用图的整体拓扑结构,用链接关系衡量网页影响力大小. 基于用户的Pageank 分析用户影响力,扩展出许多基于拓扑结构的模型,比较典型的算法有Leader-ank1]算法,模型从利用拓扑结构出发,从整体拓扑结构层面刻画节点的影响力. Li2]等人在Leaderank 基础上,考虑中心节点的权威性,通过简单加权对多种信息源进行整合,结合Pageank 计算节点的影响力. 由于Pageank 的拓扑结构算法模型只考虑节点的链接属性,忽略了主题相关性,导致结果的相关性和主题性减少. 但是社会网络不仅有用户间的链接关系,还有用户发布的各种基于主题的内容,而主题内容是影响力传第3 期王大刚: 社区环境下基于节点交互和主题的影响力计算模型播的载体,同时也是背后的本质的机理.本文在社交节点主题内容的基础上,考虑主题的社区相关性,把节点在社区中的交互关系和节点的主题属性结合,设计贝叶斯模型,动态生成用户的主题分布向量,在主题分布向量基础上,重新定义节点相似性,计算出转移概率,最后结合网络拓扑属性,计算模型的基于主题的全局影响力. 本文的主要贡献包括:( 1) 将主题的相关性信息引入模型先验,利用相关性表达主题间影响力的相互影响.( 2) 利用交互关系和主题内容学习节点的主题分布向量.( 3) 提出统一的概率框架表达社区节点间的交互关系、主题分布,利用数据学习节点的联合后验分布概率. 同时把学习到的关系与拓扑结构结合,共同表达基于主题的全局影响力.2 相关工作在模型中结合用户的信息内容有助于对影响力计算做更精确的分析. 从用户主题的角度看,社会网络中人们都在不同的话题空间交流和通信. 研究者发现在不同的主题上影响力是不同的. 利用机器学习技术度量基于话题的影响力成为比较有代表性的研究方向.Barbieri3]等证明用户主题偏好可以影响用户的社交地位、权威和信任,因此提出基于主题的影响力级联模型TIC ( Topic based Independent Cascade) ,在此基础上进一步提出一种基于相似性的方法来研究基于主题的影响力最大化问题. Chen4]等提出线上线下分离策略来解决基于主题的影响力传播问题,其思想是在离线环节为每个主题筛选出备用节点集,然后在在线环节从备用节点集中选取种子节点,结果显示基于主题的信息传播模型的影响质量和影响效果均优于未考虑主题因素的信息传播模型. 文献[5]将网络主题基于邻接矩阵的网络边缘关系和Pageank 结合计算社交网站节点间影响力,能够大幅提升用户排名的有效性. 这些基于LDA( Latent Dirichlet Allocation ) 主题分析的影响力模型本质上都基于主题是独立性的假设,而且忽略用户行为对主题的影响.Weng6]等人综合Twitter 上用户关注网络的拓扑结构和用户之间的兴趣相似度,在Pageank 的基础上提出Twitterank 模型以度量用户在不同话题上的影响力. 该模型将基于LDA 主题模型计算出的相似度与结构相似度进行线性加权,计算出总体影响力. Dietz7]等人综合利用用户所发信息的文本内容和用户拓扑结构,分别提出了Copycat Model( CM) Citation InfluenceModel( CIM) 模型,通过Gibbs 采样迭代计算文本内容的来源及其对应的概率,该模型把影响力作为一个概率分布的采样值,利用概率图模型学习出具体的值来衡量影响力. 这些算法只是把用户行为用于静态的拓扑结构研究. 为此文献[8]引入用户行为特征度量,通过区分用户转发行为挖掘微博中与主题相关的专家,提出概率生成模型EMTM,可以对微博主题语义和主题中用户被转发概率分布同时进行建模,并且通过区分微博用户的“主题相关转发”和“跟随转发”两种转发行为,实现了微博中与主题相关的专家的挖掘发现. 模型认为在每个主题内对用户的点击、关注等行为服从独立的伯努利分布,分别对主题和行为建立概率分布,但模型没有考虑到行为和主题的相互作用. 文献[9]提出UIank 算法采用层次分析法对用户行为、内容主题等4项评价特征进行分析; 文献[10]把用户的行为进行细化,定义四种用户关系,提出基于多关系的主题层次影响力模型Multiank; 文献[11]基于Pageank 算法,设计MFP 模型从结构、行为、情感三个方面按照一定的权重结合,对用户的影响力进行综合度量. 这些算法利用线性加权进行多维特征融合,但由于各特征数据的维度、特征和作用等不同,权重系数其实很复杂、很难确定,且算法整体缺少动态的观点和可解释性.3 基于交互关系和主题的全局影响力计算模型3. 1 利用交互关系进行影响力建模上文分析看出用户间的影响力由于受到多方面因素的影响,计算非常复杂,需要考虑用户属性、用户之间交互活动以及网络整体拓扑的影响. 为此本文选择基于主题的相似度计算方法,从统计学意义上考虑用户间的主题相似性. 社区中影响力较大的人对被影响的人造成影响,会一定程度上改变被影响人的社区主题属性,当然被影响人也以一定概率接受其它主题兴趣;另一方面在某个社区主题内部有较高影响力的节点,如果该主题在整个社区中的规模很小,基于全局拓扑结构计算出来的值可能并不高. 所以基于局部性的主题分析与全局结构视图的拓扑结构融合在一起,会比较完整反映节点的全局影响力属性. 据此本文采用的概率框架将用户的主题因素、节点的交互关系和整个网络的拓扑结构统一到同一个模型中,算法分成两个阶段: 第一个阶段利用改进的基于LDA 的主题模型,计算出节点的主题分布; 第二个阶段利用主题分布向量计算节点间的转移概率,然后结合全局拓扑关系,借鉴Pageank 的算法思想,利用整个网络图结构迭代计算节点的全局影响力.模型首先考虑交互关系对主题的影响,并进一步构造结合节点间交互关系的主题分布向量. 研究表明用户之间的的关注、转发、评论等关系是用户相似性的强烈指583电子学报2020 年示.客观世界中,每个人的后天兴趣构成可以看成是这个人的先天本性、周围的环境和朋友影响综合而形成的. 在模型中给先天本性赋予一个先验分布,节点与周围环境的交互用节点间链接关系来表达,每个用户的兴趣分布可以通过训练数据来学习,试图利用模型来反映随着用户链接交互不断发生,用户间的主题产生动态变化. 假设节点i 与节点j 发生链接关系,i 是关注节点,j 是被关注节点.通过好友、关注等交互活动之后,节点j 以一定的概率接受节点i 的主题.在这之后节点j 的主题内容由之前的自身属性和受影响获得的属性共同构成了节点j 的新的主题属性. 社区环境下节点i 和节点j 发生交互关系,节点j 的主题内容由之前的先验α 和节点i 的主题θi构成新的主题θj,通过主题模型和概率图结构,节点j 的主题内容从主题向量中重新采样形成新的主题词汇word.其关系可以用图1 表达.假定i 是发送节点( 社交网络中被关注节点) j 是接受节点( 关注节点) . 如果j 关注i,用eij反映节点间的链接关系,对链接关系进行二值采样. 如果bellnolli( eij )1,说明接受j 关注节点i 的兴趣推荐,受到其影响j节点的的内容词汇w 通过i 节点的主题向量θi 采样,使用主题θi 与词汇分布向量β 产生词汇w; 否则节点j 虽然关注了节点i,但仍然坚持自己的兴趣爱好( 没受到影响) ,内容词汇仍然由( θj,β) 生成. 把这个过程与LDA 模型结合,经过概率图迭代,得到文档-主题共现矩阵. 接下来针对每个用户节点对( ij) ,计算cos( θi,θj )= θi·θj| θi |·| θj |,利用该余弦值作为衡量节点i 和节点j 的主题相似性大小. 上述过程即算法的第一阶段. 在第一个阶段的假设下,交互越多的节点,共享主题越多,节点的主题越相似,所以定义p( ij) = cos( θi,θj ) 作为i j在拓扑上的转移概率,这样主题越相似的节点,转移概率越大,转移概率越大的节点间,接下来链接的可能性越大. 然后利用网络的拓扑结构,定义ri]作为节点i的影响力: ri= β' 1N + ( 1 - β') Σjrip( ij) ,其中N 是拓扑图上节点数,β'是初始权重. 在整个拓扑图上迭代求解得到影响力计算值.3. 2 主题内容相关性建模考虑在建立模型中,需要给用户节点先天兴趣一个初始分布. 基于LDA MMSB12]的模型先验都假定建立在Dirichlet 分布基础上,Dirichlet 过程假定数据具有简单的性质,如可交换性或者条件独立等. 但客观世界中的数据往往具有非常复杂的结构关系和依赖关系,比如影视娱乐主题和体育主题的相关性要强于娱乐和教育科研主题的相关性,一个在体育社区有影响力的人相比教育科研主题,更有可能在影视娱乐主题具有一定的影响力. 对于关系数据而言,对象可以承载多个潜在角色或影响其与其它人的关系的集群成员资格,关系数据的“混合成员方法”允许我们描述扮演多个角色的对象之间的交互. 所以在考虑实际数据关系时必须把数据间的依赖性考虑在内,相关主题模型CTM13( Corelation Topic Model) 由美国卡内基梅隆大学MBlei 等人2005 年提出的模型,是对主题模型进行扩充,用于文本的关联主题挖掘. CTM 不使用Dirichlet,而是从多元高斯中抽取一个实值的随机向量,然后将其映射到单纯形以获得多项式参数. 本文借鉴相关主题模型中的思想,把主题间的相关性引入到主题社区的发现过程,本文认为将这种“主题社区内关联”作为先验信息并入影响力模型是很重要的. 本文通过贝叶网络的先验把相关性带入到影响力模型,模型能够捕获基于主题影响力计算时的主题间相关性,并在此基础上开发变分推理算法对参数求解. 主题向量要从多元正态分布的映射中来,所以定义ηd 从高斯均值为μ 和协方差为Σ 的正态分布采样,向量ηiN( μ,Σ) ,对ηd进行从自然参数到平均参数的映射来产生主题向量θi= f( ηik ) = exp{ η}Σkexp{ ηk },进而方便对θi 进行多项式采样Zmul( θ) ,然后定义β 为词分布向量,抽样出主题词汇w∝βZ 和节点的链接指示sij ( 链接从i 节点发出到节点j 的成员指示) rij ( 链接从j 节点发出到节点i 的成员指示) . 这样通过相关主题可以模拟节点的潜在属性与每个子群主题分布间的关系,多元正态分布参数由μ和Σ 构成,μ 是k 维多元高斯均值,Σ 是k* k 协方差,协方差矩阵Σ 一定程度上诱导了社区内容不同主题间的相关性.3. 3 ICMNT 模型社交网络中朋友圈的关注、微博的转发、评论、点赞等都视为网络中节点间存在的交互关系. 模型把交互关系对应到概率图中的节点间存在边的关系,定义eij表示节点的交互,( sijrji ) 分别为节点间的链接指示,定义交互eij取决于社区成员指示变量sijrij的交互价值. 交互的价值取决于两个相应的社区k l 的兼容性. 假定( sij = krij = l) ,交互的价值由脚色匹配矩阵Wkl决定.模型中W 矩阵是节点间的匹配关系矩阵,Wkl beta( λ1,λ2 ) ,假设W 矩阵一个具体的实现如表1 5843 期王大刚: 社区环境下基于节点交互和主题的影响力计算模型示,如果节点i 来自潜在主题社区2,即sij = 2,节点j 来自潜在主题社区3,即rji = 3,那么根据表1eij是我们观察到的节点间交互,服从bernolli( Wsijrji ) 分布.bernolli( Wsijrji ) = bernolli( W23 ) = bernolli( 02) .表1 匹配关系向量02 091 0103 02 05… … … …04 02 001 02社区中节点比喻成文档,由隐含特征导致的相关因素决定文档在社区中的主题. 模型由引入相关性的LDA 建模主题,构建相关主题向量. 模型中交互关系定义为二进制变量eij,每对交互节点一个. 这些二进制变量分配取决于生成每个构成文档的主题. 由于这种依赖性,文档的内容在统计上与它们之间的交互链接关系相关,利概率图模型学习主题和交互关系的联合后验分布概率,每个节点的混合成员都取决于节点的主题内容以及交互的关系,反过来其成员资格相似的节点将更有可能在模型下交互. 模型在MMSB 块和LDA的基础上,把节点的主题内容和节点的交互结合在一起,引入多元正态分布作为相关性,利用概率图模型统一起来,利用概率关系学习节点的联合后验pr( eijw1w2 | rest) ,通过数据训练模型得到特征最优化的主题向量,设计如图2 所示的概率图模型,本文称为ICMNT 算法( Influences Computing Model Based on Node Interactionand Topic) . 图2 中θj 对应的主题词汇w2,对交互关系eij进行bernolli 采样,如果eij = 0,从θj 采样词汇标志Zjk,说明节点以一定概率接收主题θj ; 或者eij = 1,则从θi 采样,表示节点虽然和其它节点发生交互,但维持原来的主题不变.图2 的概率图模型对应似然函数:pr( eijw1w2 | λ1,λ2,γ,μ,Σ) ( 1)模型包含的隐变量包含: ( β,θi,θjz'( sijrji ) 1ijNWZikZjk ) ,由于先验从正态高斯采样,与多项式分布不共轭,所以利用变分EM 对模型中的隐变量进行推理.3. 4 模型参数的推理由生成模型得到隐变量在给定观测条件下的最大联合后验分布表示如式( 2) :pr( β,θi,θjz'( sijrji ) 1ijNWZikZjk | rest) ( 2)( 2) 没明确的解析解,又因θ 是从一个高维高斯中采样的向量,由于多维高斯空间的稀疏性,利用MCMC 方法不太现实,因此只能利用变分EM 对参数进行近似求解,变分贝叶斯算法是利用简单的q 分布去逼近复杂的p 分布的计算过程. 假设p( Χ,Ζ) 是联合分布,在相关文献中已证明等式ln( qi ( Ζi ) ) = Εijln( p( Χ,Ζ) ) ]成立的情况下,可以用对数似然函数的下界L 来近似式( 1) . 设:q( β,θi,θjz'( sijrji ) 1ijNWZikZjk )= q( W| ρ) * q( β | ρ') * q( θi | λ,ν2 )* q( θi | λ',ν'2 ) * q( z'( sijrji ) | δi - > j,δj - > i )* q( Zik | φik ) * q( Zjk | φ'jk )( 3)q 分布初始化为Gamma( ) 分布. 利用q 分布对复杂分布p 进行解耦,需要进行变分推导近似逼近最大似然的下界L:L =Eln p( β,θi,θjz'( sijrji ) 1ijNWZikZjkeijw1w2)]-Eln q( β,θi,θjz'( sijrji ) 1ijNWZikZjk )( 4)其中:Eln p( β,θi,θjz'( sijrji ) 1ijNWZikZjkeijw1w2) = Eln p( θi | μ,Σ) + Eln p( θj | μ,Σ) + Eln p( sij | θi) + Eln p( rji | θj) + Eln p( eij | ( sijrji ) W) + Eln p( Zik | θi) + Eln p( Zjk | θi,θj) + Eln p( β | γ) + Eln p( w1 | β,Zik) + Eln p( w2 | β,Zjk ) ( 5)得到似然下界L 之后,目标就是极大化这个下界,从而得到后验概率分布的近似分布q( E-step) ,然后固定变分参数,极大化超参数( M-step) . 在( E-step) 阶段,依次对每个用于解耦的隐变量参数求偏导并令结果等于零,依次对参数的偏导等式求解. 在( M-step) 阶段,基于整个训练集中全部节点求和,分别从L 提取包含参数的项,得到更新后的超参数更新公式.μ = 1DΣDd = 1μdΣ = 1D(ΣDd = 1diag ( Σ) 2 +ΣDd = 1( μd - μ) ( μd - μ) Tλ1 = λ2 =Σij( 1 eij ) * (Σhδi - > hδj - > h )Σij Σhδi - > hδj - > h585电子学报2020 年γik ∝ΣDd = 1ΣNn = 1( φdniwk1dn + φ'dniwk2dn )其中wk1dn表示d 文档中的n 字是词汇表中的wk1字. 本文算法的时间开销主要来源于两大部分: 变分求解参数和拓扑迭代.变分求参数又分为E-step M-step 两个阶段,考虑ICMNT 算法中的D 个社区中N 个节点产生N( N 1) /2 个交互的节点对,需要对N2 数量级的节点对处理,每对节点是关于K 主题上的更新,主题向量有V 个词汇,针对每对节点和主题K,变分计算φ 需要时间复杂度O( DN2K) ,计算主题向量θ和词汇向量β 的复杂度共O( N2D + DKV) ,保持数据的预期对数似然的平均变化小于0. 001%时,我们停止在网络训练集上进行训练,假设每一次迭代收敛平均需要常数L,那么E-step 阶段时间复杂度O( LDN2 + LDN2K) .在隐变量收敛后,M-step 最大化阶段需要对整个数据集全部节点的超参数求最大,通过梯度下降法迭代经过T 次收敛,需要复杂度O( TDK +TDV) .得到概率图参数后,根据社区拓扑结构,需要对N个节点迭代,利用稀疏矩阵的特征值分解计算方法,每次迭代可以在线性时间O( MN) 时间完成,N 个节点需要O( MN2 ) .因为K << V,所以本文算法的总复杂度为:O( LDN2K) + O( TDV) + O( MN2 ) 4 实验结果与实验分析4. 1 模型效用评估4. 1. 1 模型先验本实验利用人工合成数据研究模型先验参数的有效性. 实验使用社区节点个数n = 30,因此社区间的交互是30 × 30 构成的不对称二元矩阵. 设置参数使得30个节点被划分为4 个子组,每个子组分别具有16842 个节点. 生成的合成数据形成一个块对角矩阵,通过设置二元矩阵中某些异常值来体现节点交互时的多属性特点. 对相互作用的节点对采用5 倍交叉验证,算法中协方差矩阵的和角色匹配矩阵初始向量设置为:Σ =091 005 01 00 092 02 0005 01 090 0005 005 0 0æçççèö÷÷÷ø90W =096 0 0 0050 096 005 00 005 096 0005 005 005 0æçççèö÷÷÷ø96实验分别选择MMSB LDAEMTM 同本文的ICMNT模型在社区内节点间关系的发现上进行对比. LDA 模型的工作假设每个节点都有一个潜在变量来直接指示其社区成员资格,由社区的单一分布决定. 社区的主题分布建立在独立同分布的基础上,然而在许多社交网络环境中,这种表示可能无法很好地捕获节点之间的复杂交互,某个节点可以扮演多个角色身份. 图3 反应的是节点交互关系的后验预测.其中图3( b) LDA 模型在给定的数据基础上得到后验的训练结果,可以看到节点的所有属性来自社区,节点之间交互关系完全由所在的子群决定.EMTM 是一种基于主题模型的影响力计算模型,在潜在特征模型中考虑来自两个节点的所有关联社区,图3( c)反映的是EMTM 算法的结果,可以看到节点具有多个属性,从概率上隶属于多个社区. 不同节点的交互,从概率上考虑节点其所属所有社区间的交互,图3( c) 可以看到条状的分布图像,因为EMTM 基于向量间的计算,虽然一定程度上体现了节点和社区间的一对多交互,但是仍然无法捕捉对随机点间的交互. MMSB ICMNT 模型为了促进节点和社区之间的一对多关系,每个节点都有自己的“混合成员分布“,然而MMSB 模型针对于每对节点成员指标对是独立抽样的,一定程度上限制了成员指标的分配.从图3( d) 3( e) 可以看出,本模型由于在先验中引入了子群之间的相关性,同时在概率图中结合了MMSB 模型建模交互关系,导致随机点检测和子群间的交互关系的发现上最终都优于MMSB 模型.4. 1. 2 有效性分析实验从stanford 官网下载Twitter 2009 1 月第1周的数据,从中取出约10%的用户数据量,对于每个公开推文,可以获得以下信息: 作者、时间、内容. 通过Haewoon Kwak 等人提供的数据库获得用户的社交交互关系. 考虑到算法的时间复杂度,为降低问题规模,对关注或者被关注少5 条的边进行过滤,仅包含具有一定影响值的边. 数据集包含用户数目17069,推文数量476553 ,链接关系181611 对,用户标签数量49293 个,从数据集中能够获得关注的内容总和,点评的内容数目. 分别从设定的主题中选择若干个起始种子用户,种子用户的类型包括知名人士、机构及普通用户,对关系网络进行拓展,从数据集中抽取2000 Twitter 用户的数据. 设置主题个数等于15Pageank 迭代终止条件<5863 期王大刚: 社区环境下基于节点交互和主题的影响力计算模型0001%,阻尼系数= 085CM 算法参数设置为: α = 001,αγ = 1. 0,αθ = 01CIM: α = 001,αθ = αψ = 01,αγ = 1. 0ICMNT: λ1 = λ2 = 01,μT =0101…]. 其中μ 是由15 维向量构成.实验运行ICMNT 算法得到推文中主题内的TOP-5影响力人物,主题内的关键字和发表该主题的最具影响力的推特人物列表,结果分别如表2 和表3 所示. 模型不但能够识别出主题内的影响力人物,还可识别出相应的主题,通过分析主题的关键词可以进一步理解社区.表2 主题内的关键字Topic #1 The slums Topic #2 AIDS Topic #3 Football Topic #4 ockviolence world Player fashionpeace HIV Team member characterCivilian Prevention Match programBrazil Cure Star Film… … … …表3 top-5 影响力人物表Topic#1 Topic #2 Topic #301. Brail 01. Codename 01. Eric02. Thunder_. . 02. xeno225 02. Joshua03. mokey 03. Glosi 03. Korba104. Chanse 04. David Heck 04. Xinzhang05. Carole A GOBLE 05. udistudr 05. PhilippeSmets… … …利用文献[14]给出的相关性测量标准τ. τ 取值范围为[- 11]. 如果两个列表完全相同,则τ = 1; 如果一个列表与另一个列表相反,则τ = 1. 对于该范围内的其它值,τ 值越大意味着两个列表之间的一致性越高. 对上述算法分别得到的推荐结果列表进行分析,得到如表4 和表5 的比较结果.表4 相关关系数值大小#1 #2 #3 #4ICMNT VS CIM 06810 06800 05899 05790ICMNT VS Pageank 05534 05779 05560 05440CIM VS Pageank 04887 04765 04600 04654CM VS Pageank 04001 04200 04089 04500ICMNT VS CM 06681 05800 06802 058005 主题间的相似性LDAICMNT#1 #2 #3 #4#1 0881 0281 0081 0123#2 0153 0851 0077 0181#3 0188 0276 0760 0656#4 0156 0145 0170 0761CM CIM 是基于主题的模型,Pageank 主要考虑节点的链接结构,ICMNT 同时考虑主题和链接结构. 从实验结果可以看到τ≠1 且τ≥0,表4 说明本文算法与其它算法产生的推荐列表存在正相关,但是可以看到ICMNT 与其它算法相比,比它们相互之间存在更多的相关性,所有算法中ICMNT CIM 的相关性最高,说明对于本数据集,辅助数据库的精准性和完整性不够,导致主题的内容比节点间的关系贡献了更多信息. 表5 是主题间影响力人物列表的相似值,从表5 的结果来看,由于ICMNT 采用了混合成员分布建模社区关系,相比LDA 能够发现更准确的基于主题的社区分类.由于很难对相互之间的转发与评论数目进行准确统计,手动统计3 个主题中影响力用户转发内容和评论内容,经验表明大概不到1 /10 的粉丝会持续关注,受到最终实际影响,所以生成转移概率时,随机抽取1 /10 的粉丝数和实际转发参与计算.运行算法分别进行实验对比,表6 所示为只考虑节点链接关系的Pageank 与本文的ICMNT 影响力计算排名在3 个主题上的对比结果.表6 影响力计算结果TopicInfulenetwitterICMNT排名Pageank排名1 /10 粉丝数+转发数消息内容个数#101 2 29 85 1702 13 25 105 2803 15 38 212 1504 19 40 46 1705 25 46 94 1#201 1 3 1027 1902 4 19 405 2503 7 15 512 1704 18 20 346 605 20 21 294 3#301 14 14 188 702 21 34 120 03 25 45 30 404 40 48 77 505 45 50 6 16 中的3 个主题top-5 节点的影响力排名均在Pageank 50 之内,一定程度上反应了本算法的有效性. 主题2 top-5 节点的排序基本同主题内的关系数成正相关,说明主题2 是当前比较流行的热点主题,参与主题讨论的人数较多,主题2 内部节点0102 对主题转发的内容较多,其中02 号节点的转移概率较大,计算出来的ICMNT 的影响力比Pageank 的值有明显的提高. 主题1 内的top-5 节点在主题内经过计算都具备较587电子学报2020 年高的主题内转移概率,整体上top-5 节点在主题社区内相比Pageank 有所提升,由于节点有比较多的内容输出,但是转发量不够,主题在整个社交数据集中是不太大众的社区讨论主题,社区规模较小,Pageank 中的整体排名比较靠后; 可以解释在当前阶段主题还没有扩散开来,一旦在社区中传播开,整体影响力是比较大的.所以通过ICMNT 计算的社区主题影响比Pageank 的排序更能够反应节点的全局影响力. 主题3 top-5 节点由于微博输出内容不够,节点也没有足够的粉丝和转发数,主题3 在社区内没有形一个比较有影响力的传播中心,相应节点在Pageank 中计算的值都比较靠后.4. 2 模型性能分析选取PageankMFPEMTM 同本文ICMNT 算法在上文的Twitter 数据集上进行模型的定量评估. 由于用户影响力研究缺少标准数据集,因此本文通过人工判定的结果去评价用户影响力的好坏,实验中由工作人员利用Twitter 博可视化分析工具的自定义图表功能,结合用户所发全部帖子内容以及用户的活跃度、受关注度和影响力覆盖度3 个指标来人为判定某用户是否为TOP-5 节点,并对节点进行标定. 按照四个等级的分数( 321 0) 被手动标记为名人专长型、专长、一般专长,以及普通用户型. 在传统的推荐算法中,准确率只是考虑了推荐结果中物品个数,而没有考虑物品之间的排序. 本文的影响力排名推荐结果必然是有序的,主题内影响力大的用户排序越靠前越好,因此引入平均准确率MAP 反应全局性能的综合指标. 选择相应算法与本文算法在P@ NMAP 方面性能进行比较,前N 个结果中的准确率P@ N:P@ N =N 个结果中人工判定为影响力人物个数N其中AP 定义为平均准确率,MAP 定义在准确率的基础上考虑到影响力排名大小,所有主题所有用户平均准确率取平均值即为MAPMAP =ΣuAP( u)| U | AP( u) =Σnuk = 1p@ k( u)| |R 为主题内推荐列表长度,nu 表示主题u 内用户推荐列表中所有排序后的影响力用户. MAP 对于排序位置敏感,其值越大,排序越靠前,算法整体性能越好.图4 是比较p@ 5p@ 10p@ 15 的实验结果. 对用户而言,往往仅仅关注前几个推荐的标签,所以N 较小时的推荐质量更重要,从图中看到p@5 效果最好,随着影响力人物候选集的增加,从多个特征维度得到的交集集合元素变少,各算法结果整体出现正确率下降趋势,在4 组算法的比较中看出ICMNT 比采用Pageank算法的精度分别提高了10. 5% 6. 5%5. 4%. 从图5上看出,利用单一的指标MAP 来反映模型的综合性能,ICMNT 的平均准确率均高于其他算法.5 结论为进一步提高准确度,本文提出了影响力计算模型ICMNTICMNT 模型利用相关性建模主题间的相互关系,利用节点的交互关系和主题内容重新学习节点的主题向量,设计统一的概率图框架,把节点的内容、交互关系统一起来,并结合社区的拓扑结构,计算节点基于主题的全局影响力,最后通过实验验证了模型的有效性. 进一步的工作需要增加数据量,验证数据在大规模,多样性的数据集上稳定性和精确度方面进行评价.另外本文考虑的数据是静态的数据分析,未来需要进一步研究在线的,动态的数据演化规律对影响力的影响,并对现有计算算法作出改进,降低模型时间复杂度,找出更有效的适合大规模实用网络的计算算法.

[返回]
上一篇:一种基于用户评论自动分析的APP维护和演化方法_肖建茂
下一篇:盲百万富翁问题的高效解决方案_李顺东