基于随机化矩阵分解的网络嵌入方法 |
来源:一起赢论文网 日期:2021-11-25 浏览数:1008 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第44 卷 第3 期2021 年3 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No. 3Mar. 2021基于随机化矩阵分解的网络嵌入方法谢雨洋 冯 栩 喻文健 唐 杰(清华大学计算机科学与技术系 北京 10008 4)(北京信息科学与技术国家研究中心 北京 100 08 4)摘 要 随着互联网的普及, 越来越多的问题以社交网络这样的网络形式出现. 网络通常用图数据表示, 由于图数据处理的挑战性, 如何从图中学习到重要的信息是当前被广泛关注的问题. 网络嵌人就是通过分析图数据得到反映网络结构的特征向量, 利用它们进而实现各种数据挖掘任务, 例如边预测、节点分类、网络重构、标签推荐和异常检测. 最近, 基于矩阵分解的网络嵌人方法NetMF被提出, 它在理论上统一了多种网络嵌人方法, 并且在处理实际数据时表现出很好的效果.然而, 在处理大规模网络时, NetMF需要极大的时间和空间开销. 本文使用快速随机化特征值分解和单遍历奇异值分解技术对NetMF进行改进, 提出一种高效率、且内存用量小的矩阵分解网络嵌人算法eNetMF. 首先, 我们提出了适合于对称稀疏矩阵的随机化特征值分解算法freigs, 它在处理实际的归一化网络矩阵时比传统的截断特征值分解算法快近10 倍, 且几乎不损失准确度. 其次, 我们提出使用单遍历奇异值分解处理NetMF方法中高次近似矩阵从而避免稠密矩阵存储的技术, 它大大减少了网络嵌人所需的内存用量.最后, 我们提出一种简洁的、 且保证分解结果对称的随机化单遍历奇异值分解算法, 将它与上述技术结合得到eNetMF算法. 基于5 个实际的网络数据集, 我们评估了eNetMF学习到的网络低维表示在多标签节点分类和边预测上的有效性.实验结果表明, 使用eNetMF替代NetMF后在后续得到的多标签分类性能指标上几乎没有损失, 但在处理大规模数据时有超过40倍的加速与内存用量节省. 在一台32 核的机器上, eNetMF 仅需约1.3h即可对含一百多万节点的YouTube 数据学习到网络嵌人, 内存用量仅为120GB, 并得到较高质量的分类结果. 此外, 最近被提出的网络嵌人算法NetSMF 由于图稀疏化过程的内存需求太大, 无法在256GB内存的机器上处理两个较大的网络数据, 而ProNE算法则在多标签分类的结果上表现不稳定, 得到的Macro FI 值都比较差.因此,eNetMF算法在结果质量上明显优于NetSMF和ProNE算法. 在边预测任务上,eNetMF算法也表现出与其它方法差不多甚至更好的性能.关键词 网络嵌人; 网络表示学习; 随机化特征值分解; 单遍历奇异值分解; 多标签节点分类中图法分类号TP18DOI号10.11897/SP.J.1016 .2021. 00447LearningNetworkEmbeddingwithRandomizedMatrixFactorizationXIEYu YangFENGXuYUWenJi anTANGJi e{ DeparLmenLofComputerSci enceandTechnology? TsinghuaUniversi ty? Beiji ng1000 84)(BeijingNationalResearchCent erforInformationSci enceandTechnology? Tsi nghuaUni versity?Beiji ng1000 84)AbstractWiththepopularityoftheInternet ,moreandmoreprobl emsappearintheformofnetworkssuchassocialnetworks. Networksareoftenorganizedbygraphdataanditiswi del yacceptedthatgraphdataissophisticatedandchal l engi ngtodealwith.Therefore,howtol earni mportanti nformati onfromthegraphiscurrentl yawidespreadconcern.Networkembeddi ng,whichai mstol earnl atentrepresentati onsfornetworks,isanimportantfiel di ndatamini ng. Theresul tofnetworkembeddi ngshoul dpreservenetworkstructureandcanbeusedasthefeaturesforfurtherappl i cationsondatamini ngtasksl i kel i nkpredi cti on,nodecl assifi cati on,networkreconstructi on,tagrecommendati onandanomal ydetecti on.Skip grambasedalgorithmsli ke收稿日期:20 20 03 20; 在线发布日期:2020 08 23 . 本课题得到科技创新2030“新一代人工智能”重大项目(2020AAA0103502) 及国家自然科学基金( 618 7220 6) 资助. 谢雨洋, 博士研究生, 主要研究方向为数据挖掘、 矩阵算法. Email: xyyl8@mailS.tsinghua.edu.cn.冯 栩, 博士研究生, 主要研究方向为矩阵算法. 喻文健( 通信作者) , 博士, 副教授, 中国计算机学会( CCF) 会员, 主要研究方向为集成电路计算机辅助设计、 矩阵算法. Email :yuwj @tsi nghua.edu.cn. 唐 杰, 博士, 教授, 中国计算机学会(CCF) 会员, 主要研究领域为社交网络挖掘与学术知识图谱.448 计 算机 学 报 2021年DeepWal k,LINE,node2vechavebeencommonl yconsi deredaspowerfulbenchmarksol uti onsforeval uati ngnetworkembeddi ngresearch.Recentl y,networkembeddingasmatri xfactorizati on(NetMF)wasproposed. ItshowsthatDeepWal ki sactual lyi mpl i ci tl yfactori zi nganetwork’snormal izedLaplaci anmatrix,andLINE,i ntheory,isaspecialcaseofDeepWal k.NetMFtheoreti cal l yunifi esseveralnetworkembeddi ngmethodsandshowsi tssuperi ori tywhenprocessi ngtherealnetworkdata.However,theexcessi veruntimeandstorageofNetMFl imi tsi tsusageonl arge scal edata.Inthi swork,weusefastrandomi zedeigenval uedecomposition( EVD)andsi ngl epasssi ngul arval uedecomposi ti on(SVD)toi mproveNetMFandpresentaneffici entrandomi zedmatri xfactori zationbasednetworkembeddi ngalgori thm( eNetMF).Firstly,weproposeafastrandomizedEVDalgorithm( freigs)forsparsematri x.Itisabout10Xfasterthantradi ti onaltruncatedEVDalgorithmsforthenormal i zednetworkmatri x,whi lekeepi ngaccuracy. Secondly,weproposetousesingl e passSVDapproachtoprocesshigh orderproxi mi tymatri xintheNetMF,sothatwecanavoidstoringthelargedensematri xandlargelyreducethememorycostfornetworkembedding. Thirdl y,weproposeasi mplified,randomi zedsi ngl epassSVDalgorithmthatguaranteesasymmetricdecompositionresult. Combi ni ngtheabovetechniques,wefinal lyobtaintheeNetMFalgorithm.Withfi verealnetworkdatasets, weeval uatetheefficiencyandeffecti venessoftheeNetMFalgorithmonmul til abelnodeclassi ficati onandli nkpredicti on,commonl yusedtasksfornetworkembeddi ngeval uati on.Experi mentalresul tsshowthati ntermsofthemetricsMacr〇 FlandMicroFl,theembeddi nggeneratedbyeNetMFhasthesameperformanceasNetMFi nmul til abelnodecl assi ficati on. Foral arge scal egraphdata,eNetMFexhi bitsmorethan40Xaccel erati onandmemoryusagesavingoverNetMF.Onamachinewith32cores,eNetMFtakesonl y1.3 hand120 GBmemorytol earnagoodnetworkembeddi ngforthel argesttestdata(YouTube)whichhasmorethanonemil li onnodes.Inadditi on,duetothememorycostofspectralsparsi fication,therecentl yproposednetworkembeddi ngalgorithmNetSMFcannothandl etwol argenetworkdataonamachi newi th256GBmemory,whi l etheProNEalgori thmproducesunstabl eresul tsofmulti l abelnodecl assifi cati on. Tobepreci se,Macr〇Flobtai nedwi thProNEi sgeneral l ypoor. Therefore,theeNetMFalgori thmi sadvantageoustotheNetSMFandProNEalgorithmsintermsofperformance. Inthel i nkpredicti ontask,theeNetMFalgori thmachi evesbetterorcomparabl eperformancewhencomparedtootherbasel i nes.Keywordsnetworkembeddi ng;networkrepresentati onl earni ng;randomi zedeigenval uedecomposi ti on;si ngl epasssi ngul arval uedecomposi ti on;mul ti l abelnodecl assifi cati oni 引 言社交网络等大规模复杂网络的挖掘与智能分析是当前的研究热点. 这种网络包括微信、微博用户之间通过好友关系和互相联动形成的在线社交网络、学术论文之间的引用关系形成的网络[ 1 ]等等. 进行图数据挖掘主要有图卷积网络和网络嵌人两种方法. 网络嵌人一般不考虑节点的属性, 侧重于学习节点的拓扑结构, 而图卷积网络可以将节点的属性作为特征一起学习, 对于属性敏感的实验数据, 图卷积网络的效果要更好, 但由于很多网络数据缺少节点属性特征, 图卷积网络对此类数据节点拓扑结构的学习不如网络嵌人, 因此网络嵌人在图数据挖掘中占有很重要的地位. 应用网络嵌人的方法对网络进行分析, 首先要将网络用图的邻接矩阵表示. 接下来, 还要将网络中的每个节点映射到一个低维稠密实数向量上, 这样可以很好地保存节点的拓扑结构信息, 同时有利于使用机器学习等智能处理方法进行后续分析. 因此网络嵌人的目标就是将网络映射到潜在的低维空间, 得到网络节点的低维表示[ 2 ]. 研究表明, 网络嵌人技术可以促进各种网络分析与应用[3], 例如边预测、节点分类、 网络重构、标签推荐和异常检测. 通常, 基于传统拓扑的网络表示直接使用谢雨洋等: 基于随机化矩阵分解的网络嵌人方法 4493 期对应图的邻接矩阵, 但这可能包含噪声或冗余信息.若使用网络嵌人技术, 每个节点都由包含潜在信息的向量表示, 因此许多网络分析中的迭代或组合的问题可以通过计算映射函数, 距离度量或嵌人向量运算的方式解决, 从而避免了高复杂度.主要的网络嵌人方法包括DeepWalk?、LINE[4]、node2vec[5]、metapath2vec[6]等, 它们都是基于skipgram的模型 ? 最近, 文献 [7]指出DeepWal k和LINE都可以看成是基于矩阵分解的技术, 并提出了一种基于矩阵分解的网络嵌人方法NetMF, 基于它在后续进行网络节点多标签分类时表现出比使用DeepWal k和LINE更好的性能. 然而, NetMF在处理超大规模网络时需要巨大的内存开销和计算成本, 这主要是由于它得到的高次近似矩阵是稠密的. 后续, 人们基于谱图稀疏化理论对NetMF进行了改进, 得到了利用谱图稀疏化理论和稀疏矩阵分解的网络嵌人方法NetSMF[8]和Pr〇NE[9], 这使得处理超大规模网络成为可能. 但是, 稀疏化矩阵的过程仍然需要大量的内存, 这使得NetSMF的应用受到一定的限制, 而ProNE得到的网络嵌人在应用时的效果也存在不稳定的问题.另一方面, 牺牲少量准确度的随机化低秩矩阵分解方法由于其适用于现代计算机体系结构和某些大数据应用场景正得到越来越多的关注[1"1 1]. 本文将随机化矩阵分解技术与网络嵌人方法NetMF相结合, 提出了一种快速、 节省内存、 且保证准确度的网络嵌人算法eNetMF. 具体的创新点如下:(1) 提出使用单遍历奇异值分解处理NetMF方法中高次近似矩阵从而避免存储此稠密矩阵的思路, 显著减少了NetMF方法所需的内存开销.(2) 提出针对稀疏对称矩阵的随机化特征值分解算法, 并调节需进行特征值分解的归一化网络矩阵奇异值衰减速度, 从而在保证准确性的同时显著加快了NetMF方法中高次近似矩阵的构造.(3) 提出一种简洁的且保证分解结果对称的随机化单遍历奇异值分解算法, 将它用于NetMF算法中减少了计算时间、 又保证了网络嵌人的质量.实验结果表明, 在相对较大的真实数据集上, 随机化特征值分解算法比传统截断特征值分解算法快10 倍, 且几乎没有误差. 而进行网络嵌人后再做节点多标签分类和边预测的实验中, eNetMF算法在保持NetMF结果质量的同时大大减少了其计算时间与内存用量. 例如, 对Flickr 数据eNetMF的运行时间和内存用量分别为NetMF的1/41 和1/46, 而对于节点数超过1 百万、NetMF与NetSMF由于内存需求太大无法处理的YouTube 数据, eNetMF只需1.3 h和120GB 内存开销即可得到网络嵌人, 并取得很好的多标签分类结果.2 相关工作近年来兴起的网络嵌人的研究起源于自然语言处理领域的表示学习[ 1 2 ], 该类问题的研究可以追溯到谱图理论[1 3], 社交维度学习[1 4]等研究. 随着该领域的发展, 很多网络嵌人的方法都旨在建模节点的相似性. 谱网络嵌人方法和谱降维方法相关, 例如快速近似谱聚类方法[1 5]和拉普拉斯特征映射方法[1 6].受word2vec模型[1 2]的启发,一类基于skip gram模型的方法被提出, 并有很好的性能, 例如DeepWal k?、LINE[ 4]、node2vec[ 5 ]、 metapath2vec[ 6 ]等模型. 最近,受词嵌人问题转化为矩阵分解的启发[ 1 7 ], 文献[7]指出基于skip gram这一类的方法可以转化成矩阵分解问题. 通过将随机游走的过程建模成矩阵的乘法, 然后在近似的高阶矩阵上做奇异值分解, 可以得到网络节点的低维表示. 并且, 其中提出的NetMF方法在设置较大窗口大小参数时可以得到高质量的网络嵌人, 基于它再做网络节点多标签分类时表现出比使用DeepWal k和LINE更好的性能?除了文献[7]的NetMF方法外, 其它基于矩阵分解的网络嵌人模型还包括GraRep[ 1 8 ]、HOPE[ 19 ]、TTADW[ 2 <^tIDHPE[ 2 1 ], 其中GraRep模型考虑整合高次相似度矩阵来获取节点的相似度信息, 但巨大的计算量和内存开销限制了其在大规模网络上的应用, HOPE模型可以应用于有向图的场景, TADW模型可以应用于节点带有特征信息的数据, DHPE模型可以应用于动态网络的场景. 最近, 也有几个NetMF方法的改进算法被提出. NetSMF[8]通过引人谱图稀疏化方法使得模型可以运行得较快, 不过仍然需要较大的运行内存. Pr〇NE[ 9 ]方法通过交换随机游走和矩阵分解的过程, 先对稀疏矩阵分解得到节点的低维表示, 然后再对节点的低维表示做信息传播增强, 这样大大降低了整体的计算复杂度. 然而, 在后续使用节点低维表示的应用任务(如多标签分类) 中, ProNE的性能很不稳定, 往往比NetMF的结果差.3 技术背景在本文中, 为了方便描述算法, 我们采用Matl ab450 计 算机 学 报 2021年所使用的方法来指定矩阵的部分元素.3. 1 奇异值分解和特征值分解矩阵AeR?x"的奇异值分解(SVD) 可以表示为A=USVT(1)其中[/=[M!, M2,…]和V=[W!, ,…]是分别包含左右奇异向量的正交矩阵. 对角矩阵z包含了矩阵A的奇异值(的, 内,…) ? 设队和1分别是[/ 和V的前々 列, 对角矩阵厶包含矩阵A的前& 个最大的奇异值, 矩阵A的截断SVD可以表示为人, 即A^At=UkSkVl(2)其中At也是初始矩阵A的最佳秩& 近似[ 2 2 ].若A为对称矩阵, 它存在如下形式的特征值分解( EVD) :A=UAUt(3)其中yi 为对角阵, 其对角元为A的特征值, 正交矩阵[/ 的各列是A的特征向量. 由于实对称阵的特征值均为实数, 只需将式( 3) 中A的负对角元取相反数、 然后将C/T的相应行也取相反数, 式(3) 即可变成A的奇异值分解, 其中[/ 的各列是A的左奇异向量.类似于截断奇异值分解, 由式(3) 也可以得到截断特征值分解:=UhAhUTh(4)其中对角阵儿为Zl X 的对角阵, 对角元为/! 个绝对值最大或代数值最大的特征值, 队为[/中与这些特征值相应的特征向量组成的矩阵. 计算截断特征值分解的传统算法为ARPACK算法[2 3], 其具体实现包括Matl ab中的eigs 命令和Python 的eigs、elgsh命令等, 它们特别适合处理稀疏矩阵.3. 2 基于矩阵分解的网络表示本文的主要目的是提出一种NetMF算法的改进版本, 它能够显著减少NetMF算法的内存用量和计算时间. 由于NetMF算法是针对无向图的网络嵌人方法, 我们提出的方法也只考虑无向图即对称稀疏矩阵. 我们用G=(y, E, A) 表示一个无向网络, 其中V表示顶点集, E表示边的集合, A表示G的邻接矩阵.网络嵌人的目标是学习到一个投影, 该投影可以映射每一个顶点到一个々 维向量( 々■<<?) ,使得可以保存它的结构属性信息, 进而这种网络表示被提供给后续的网络分析使用, 例如边预测和节点分类等.最近, 基于矩阵分解的网络嵌人显示出它在网络表示上的优越性. DeepWal k 是一个近年来被广泛承认的网络嵌人模型, 随机游走的长度对DeepWal k模型的实验结果有影响. 该参数越大, 随机游走得越远且更多较远的点也会被认为是当前节点相似的节点, 但一定程度上也相当于放宽相似性约束, 可能会引人一些噪声, 因此如何设置这个参数使得实验结果更好并没有普遍适用的结论. 文献[7]揭示了当DeepWal k里的随机游走的长度达到无穷大时, 它相当于是对矩阵trunc_l og° (V〇[(qG)(D^AYD1j( 5)作分解, 其中1:]: 11 11£;_1 (^°表示矩阵的每个元素和1取最大值后再取l og, 即trunc_l og〇( :r)=l og( max(l , :r) )( 6)式(5) 的参数D为邻接矩阵A生成的对角阵, 其对角元I , tW(G)二D, 而参数g和参数6 分别表示窗口大小和sklp gram模型里负采样的大小. 在下面的工作里, 我们考虑带有较大的窗口大小的情况, 比如DeepWal k 默认的情况下<7=10.文献[7]提出的NetMF给基于skip gram的网络嵌人方法奠定了理论基础, 使得网络嵌人模型有更强的可解释性. 算法1 描述了处理较大窗口的NetMF算法[ 7 ]_算法1.NetMF.输人: 邻接矩阵Aei rx", 特征值截断参数fe, 奇异值截断参数h窗口大小g输出: 网络嵌人BeR-x*1.截断特征值分解: £>2. 构造矩阵M=D"21/*(公71: ;)1/加"2r13. 计算M=trunc log。(V〇|^G)jVf)4. 截断奇异值分解: M?队ur5.返回£=仏对/2然而,当直接应用NetMF算法到大规模的数据集上时存在一些问题. 首先, 在算法1 第1 步, 对矩阵ir1 / 2AIT1 / 2做截断特征值分解, 但直接计算特征值分解需要很长的时间. 算法1 的第2、4 步也需要花费较多的时间, 且第2 步存储大的稠密矩阵M是很有挑战性的. 比如, 当网络节点数《为110 万时, 稠密矩阵M的存储量超过8 TB, 这使得该算法很难应用到大型网络分析当中.3. 3 随机化奇异值分解有关技术基础的随机化奇异值分解算法[ 1 °]可以用来计算近似的截断SVD, 该算法如算法2 所示.算法2. 基础随机化奇异值分解.输人: 矩阵Aei irx ", 奇异值截断参数I幂迭代参数户, 过采样参数^谢雨洋等: 基于随机化矩阵分解的网络嵌人方法 45 13 期输出:1. X2=randn(n,々 +s)2.g=orth(AX2)3. FORf=1,2,…,>DO4. G=orth(ATg)5. g=orth(AG)6. ENDFOR7. B=QrA8. [ U, U]=svd(B)9. U=QU10.U=U( t at k) ,S=S(l t kAt k),V=V( t y l t k)在算法2 中, 12 是一个高斯随机矩阵, 参数s使得采样矩阵12 超过& 列以获得更好的计算结果. 矩阵2的列包含了A列空间的主要基, 因此A?2B=22ta, 然后对一个a+dXw大小的矩阵b使用SVD, 就可以得到矩阵A的近似截断SVD. 算法1的第3?6 步为幂迭代技术[1 °], 应用它之后相当于计算矩阵C4AT)1的奇异向量, 由于C4AT) 1的奇异值衰减比原始矩阵A快得多, 使用幂迭代后再做随机化奇异值分解可以使结果更接近最佳秩& 近似.幂迭代过程中的正交化〇rth( ) 可减轻浮点数计算的舍人误差影响, 这个正交化操作通过QR分解来实现. 随机化奇异值分解算法在很高概率下能保证:A QQTA=A USVT<( l +e)A At(7)其中At是矩阵A的最佳秩々 近似,e 是一个误差阈值.对于实对称阵AeR"x", 对算法2 稍作修改就可以得到截断特征值分解[ 1 °]. 此时算法2 中的矩阵2表示了A的行空间和列空间的主要基, 因此:A^QZQT=QQtAQQt(8)对实对称阵z=2TA2做截断特征值分解, 然后将分解结果代人式(8) 就可以得到矩阵A的近似截断特征值分解.应当指出, 由式( 8) 得到的算法相比基于A?22ta的算法其低秩近似效果差一些. 对于对称矩阵, Tr〇PP等人最近提出了基于22TA形式的近似、且保证结果仍为对称矩阵的方法[ 2 4], 它对原矩阵的近似程度更好. 基于算法2 得到的矩阵2、b, 即得到原矩阵A的近似矩阵A=2B, 文献[24]指出:Asym=^(A+AT)=^(QB+BtQt)(9)为对A近似程度更好的对称矩阵. 根据文献[25] ,Asym是A到所有《 阶实对称阵形成的凸集上的投影, 由于A本身也在这个凸集内, 则根据文献[26]^■定有:IA Asym| | f<IA AIF( 10)并且, 对Asym再做低秩近似得到的结果也比A的结果更准确[ 2 4].此外, 文献[27]提出了一种单遍历奇异值分解算法, 它在数学上与幂迭代参数f=〇 的算法2 等价, 但只需要对矩阵A访问一遍, 特别适合于在内存受限的情况下处理大型的稠密矩阵、 或者高效率地处理流数据. 针对大型稀疏矩阵, 文献[28]提出了高效率的随机化SVD算法, 它与算法2 在数学上等价, 但使用了多种加速技巧可使得对实际大型稀疏矩阵的处理时间缩小9 倍. 这些加速技巧主要包括:( 1) 利用特征值分解来快速计算细长条矩阵的SVD和QR分解, 即使用elgSVD算法[ 2 8 ].(2) 在幂迭代过程中, 每隔一次矩阵乘法之后再做正交化操作.( 3) 幂迭代中可使用LU分解替代QR分解.4 基于高效矩阵分解的网络嵌入方法在这一节, 我们首先给出利用随机化矩阵分解技术提高NetMF方法处理大型网络的效率的主要思路, 然后依次提出针对稀疏实对称阵的快速随机化特征值分解、矩阵M的高效率构造与隐式存储以及快速单遍历奇异值分解这三项技术, 最后给出算法eNetMF的完整描述, 并做计算量分析.4.1基本思想可粗略地将NetMF方法分为三个主要步骤:用截断特征值分解归一化网络矩阵来近似矩阵、 基于特征值分解构造高次近似矩阵M、计算M矩阵的截断奇异值分解. 对于大型网络, 第一步和第三步都无法使用传统的矩阵分解算法来实现, 它们需要巨大的运行时间, 而第二步不但有很大的计算量, 而且形成的稠密矩阵造成巨大的内存开销, 也给第三步的执行带来困难.首先我们可以使用随机化特征值分解算法来代替NetMF方法的第一个主要步骤, 在几乎不损失准确度的情况下减少其计算量. 其次, 为了解决大型稠密矩阵M或M给内存量带来的挑战, 我们提出高次近似矩阵的高效率构造方法以及不显式存储M和M, 然后采用单遍历随机化SVD算法近似计算奇异值分解的思路, 这样极大地减少了整个算法的内存用量.同时我们还提出快速、 准确的单遍历奇异值分解技术保证最终网络嵌人的结果有足够的准确度.45 2 计 算机 学 报 2021年本文提出的eNetMF算法的流程图如图1 所示, 图中上排实线框表示本文提出的eNetMF算法输入图G=(F, E, 』)At股主要步骤, 下排虚线框表示NetMF箕法的主要步骤?网络嵌入的结果#[0.321,0.771,-0.189]厲1eNetMP^_, 雜爾靡眞(下排虛线: 框; tNetMf算中相霞敵步4.2 针对稀疏实对称阵的快速随机化特征值分解我们将文献&8]: 輕出的适用于稀疏矩阵加速分解的技巧与文就[241提出的对称矩阵随机化特征值分解算法锫脅. , 餐到算法丄其中,l u表示对矩阵做LU分解.算法3.快速随机化特征值分解(frgigs>.:输人:艇阵A6: ,", 特狼值戴断参数是, ■迭 蠢数6过意導参数输坶5 c:ei r%灰£ ;4*1.randn(n,^ + 5)2.Y=AQ3.[Q,?,?]=eigSVD(Y)4.FORf =l,2,?? ?, 夕DO5.IFi<pTHEN6.[2,?]=lu(A(A?)7.ELSE8.[2,?,?]=eigSVD(A (A?)9.ENDFOR10.Z=lQ,AQ]11.[i>, T]=qrCZ)12. 乃, :r2 分别是矩阵:r的前6+5 列和后a+5 列13 .S=(T1t!-\-T2tD/214.[U, y]=eig(S>15 .ind为A中A 个最大的特征值的位置索引集合16.U= PlK:yind),A=A(ind,ind)震鑛4的第:l〇?14#裹于如T推导* 斑于— —=Y(2B+BTQT?=yCS> BT][2TJai)如杲对二[232]做精简'的QR分解5[Q. B1]=Ptr!, T,J(12)其中P为列班交阵,[A,T2 ]为上三角方阵且T: 和1^维度一样, 则:-(PT.f--(PT1)T- yP(: t1 tJ+tz tDptas)记s (i?+r2if), 对s作特征值分解?苒代入式(13) 即得到 的值分解, 进而得到雇矩哞A的近似特怔值分解下面进行算法计算量微空间开销的分析. 设/=是+ “隸法3的第2步的浮.点运箕欲_是〇(:前*U)/),ww(A)为A中#零元素的数I根据文献[28], 第3^發步的浮戾运箅次纖、为0(左( ?z /2+_多(皮)i ,篇10 步蠻裏 +W锻U) D次浮逼: 貧雾, 簾11?16 步鄉需要 +?/2} 次浮点运算? 逋常情况下, /远小于网络顶点数 算法3 的浮点运算次数为0(扒《?元4) /+?产))? 考虑到幂迭代参数p与过采样参数s 均为不大时常数, 商由f大规模两络的稀疏性, wm(A)也本超过》 的某个常数倍| 箕法3的时间复杂度为〇( rt肢(A从-I-邊2),, 其中灸 为特怔值截断参数. 这与Matlab 中eigs命奢的复獻 卷,钽由于随机化算抜中的运算更适合于当前的计算机体系绪构, 算法3 的运行时间比eigs 显著缩短, 后面的实验结果将發证这一点, 此外,: 上述分析也表明算法3 的时间复杂度与矩阵规模呈线性关系.在全间复杂度方商, 矩阵A采用稀疏矩阵方式存储*而算法渉及的稠密矩阵维数都不超过 或所以算壤3_空间愈觀愈为〇(>??£(▲; )+喊),也与矩阵规模呈栽性关, 系.4. 3 矩阵M的高效率构造与隐式存储義NetMF#法中, D1 /2AD—1 /2的#征償范圈'在[1,1] 賴内w, 对于大型矩阵来说这意味着该谢雨洋等: 基于随机化矩阵分解的网络嵌人方法 45 33 期矩阵的奇异值衰减趋势比较缓慢. 随机化算法在处理奇异值衰减缓慢的矩阵时, 得到计算结果的近似误差较大. 为了缓解它给矩阵近似准确度带来的问题, 我们提出在保证算法1 第2 步矩阵M不变的同时修改计算截断特征值分解的矩阵, 通过对一个奇异值衰减较快的矩阵计算截断特征值提高准确度.具体地:qq(D^AYD1=D1 +aDA((D1A)r 1)D^D1 +ar1「1(14)其中 ( o,i). 如果对矩阵 执行截断特征值分解, 即DADa^GhHhGj( 15)将式(15) 代人式(14) 当中, 得X)(D^A) ^1^D1 +a(GhHhGj+r l1 +2 aG+…+GhHhGj-D^G.H.GDD1 ^q=D1 +aGhHh(YjKr^)GlD1 +a(16)r 1其中1 +2 aGAHA, 为一个AXA 矩阵. 由于/K<w, 计算矩阵K及( 16) 中它的各次幂花费的时间很少.因此, 可以将算法1 中的矩阵M替换为:qM=D1 +aGhHh(Kr1)GThD1 +a( 17)r1这样, 选择合适的《可使矩阵DiADi的奇异值衰减较快, 从而使用算法3 能比较高效、 准确地得到其截断特征值分解, 也不损失NetMF方法中矩阵M的准确度.为了避免存储稠密矩阵M或M, 我们提出一种隐式存储方案, 即考虑分解式M=FCFT, 其中_F=D1 +?GA , C=i^( f;ir〇, 然后分批计算出M的r 1行, 利用下面将介绍的单遍历SVD算法计算其截断奇异值分解, 由于它只访问矩阵M的元素一遍, 对计算出来的M的若干行处理后即可将其删除, 因此可大大节省内存用量. 而需要存储的矩阵FeR"XA,(^肢以^远小于两^肢^的规模.4. 4 快速准确的单遍历SVD算法我们首先提出一种简洁的单遍历SVD算法, 它与文献[27] 中的算法等价, 但构造 近似矩阵的操作更简洁, 运行效率更高, 如算法4 所示. 其中, A,表示输人矩阵A 的第z 行, 通过步骤4?7, 我们可以得到两个包含原始矩阵A信息的小矩阵Y和W,它们保存了矩阵A的行、 列空间的主要成分, 基于它们可以进一步计算A的奇异值分解.算法4.一种更简洁的单遍历SVD.输人: 矩阵Aeirx", 奇异值截断参数h过采样参数^输出:, vei rx*1.X2=randn(n,是+ 5)2.y=[ ]3.W=zeros(n^ + 5)4.FORz=1,2, ? * ?DO5.y= AQyy=[y;j]6.W=W\ AI'y7.ENDFOR8.[g, R]= qr〇〇9.B=RTWT10.[U, U]=sVd(B)11. U= QU12. U= U( t Atk),S=S(ltk,ltk), V= V( t yltk)在算法4 中, 步骤8?12 是具体计算矩阵A的奇异值分解的过程, 它不同于现有的单遍历SVD算法[2 7]. 定理1 表明算法4与不做幂迭代的算法20=〇) 在数学上是等价的.定理1.在算法4 中得到的2的各列是AX2列空间的单位正交基, b=2ta.证明. 根据算法4的第4?7 步, 我们得Y=AX2, 再根据第8 步, 对Y执行QR分解, 因此得到的2的各列是AX2 列空间的单位正交基.下面再证B=2TA, 由算法4 的第4?7 步, 有再根据第9 步,B=RTWT=Rt(AtA£2)t=RtQtAtA=(Af2J?^)TA.又因为 得 , 将2代人上式, 得B=QTA.证毕.文献[27]中的单遍历SVD算法与不做幂迭代的基础随机化SVD算法(算法2) 在数学上是等价的, 故定理1 也表明算法4 与文献[27]里的单遍历SVD算法也是等价的.对于实对称矩阵, 文献[24]提出的技术可以保证得到的低秩矩阵也是对称的, 从而提高结果的准确性. 将它与算法4 结合, 得到算法5.算法5. 针对实对称阵的单遍历SVD.输人: 矩阵M6R"x ", 奇异值截断参数h过采样参数^输出: t/eR"x*, 從R*x*R"x*1.n=ranAnin,k\s)2.y=[ ]3.Vy=zeros(n,是+ 5)454 计 算机 学 报 2021年4. FORz=1 , 2, ? * ? DO5. :y=MW, y=[yj]6. W=W\ Mjy7. ENDFOR8. [ 2, R]=qr 〇09. Z=lQ, WR1^10.[P, T]=qr(Z)11.Tut分别是矩阵T的前A+s 列和后A+ 5 列12.S=(I\ Tl \ T2 Tj')/213 .[&, A]=eig⑶14.i nd为A中&个绝对值最大的特征值的位置索引集合15 .r/=P&(:,i nd), S=abs(A(ind,ind) )16 .V= r/sign(A(ind, ind) )算法5 的第9 步是由于, 根据算法4 , 我们有B=RTWT, 则式( 12) 中的[2, BT]=[AWR1]? 第14?16 步与算法3 不同, 是由于这里要求奇异值分解,所以需保证Z的对角元非负.4.5eNetMF算法与相关分析结合算法1、3 和5, 我们得到基于高效矩阵分解的网络嵌人算法eNetMF, 如算法6 所示.算法6. 基于高效矩阵分解的网络嵌人方法(eNetMF) .输人: 矩阵AeiTx ", 特征值截断参数fe, 奇异值截断参数h批处理大小参数^过采样参数^归一化参数a输出: 网络嵌人BeR"'1. 用算法3 计算截断特征值分解2. ifMK=GlD1 +2"Gt Ht3.计算F=D1 +-G4以及C= fl*( f;iT”r14. >T3=randn(n,是+ s)5. y=[ ]6. W=zeros(n^ + 5)7. FORf=1,2,. . .,n/r?DO8. F} =F\^iv u+l:ivj:]9. M, fi=trunc log°(V〇|^G)F, CFT)10.y=M, n, Y=[Y;y^11.ENDFOR12. 执行算法5 的第8?1 5 步13.E=USm算法6 的第1 步使用算法3 实现, 对中小规模网络《可以取1 /2 , 对于大规模网络可以通过试验得到更合适的取值, 从而提高运行效率、减少近似误差. 第2?12 步实现了矩阵M和M的隐式构造, 并对M的行进行批处理的单遍访问, 为后续计算截断SVD做准备. 这里, 为了算法描述简洁、 且不失一般性, 只考虑了〃能被n整除的情况.下面分析算法6 的计算量和空间开销, 设/=々+二第1 步的时间复杂度为OC wwzUH+M2) , 空间复杂度均为0( wwzU) +舫) ? 算法6 的第2、3 步包含oc np) 次浮点运算, 第7?12 步包含ocva+z) )次浮点运算, 第13、14 步的浮点运算次数为0( nZ2+Z3) . 由于《远大于其它参数的值, 算法6 总的计算复杂度为〇(?2a+/) ) . 在空间开销方面, 第1 步需要的存储量是〇( wwz(A)+M) , 在后续计算步骤中,需要存储的矩阵尺寸都不超过wX/^wXZ 或wXw,考虑到矩阵A在后续不再使用, 算法6 的空间复杂度为0(w(/i+ Z+w) ).可以看出, eNetMF算法在空间复杂度方面大大优于NetMF算法. NetSMF算法[8]的空间复杂度为0(叫.期2〇4) ) , 其中£:一般取值1000 或者10000 ,因此我们的eNetMF算法在内存用量方面也显著小于NetSMF算法的内存用量. 由于eNetMF的时间复杂度仍为〇(?2a+/) ) , 它处理特别大的网络时会花费过多的计算时间, 将来可以考虑采用分布式并行计算等方式来加以改进.5 实 验本文算法均使用c语言编程实现, 其中用到的矩阵计算和QR分解、LU分解、SVD分解等算法通过调用IntelMKL的库函数进行实现, 同时采用OpenMP编程实现了多线程计算. 所有实验均运行于装有32核Intel( R)Xeon(R)CPU、256GB内存的Lmux工作站上, 实验结果中的时间均为32 线程并行计算的实测运行时间.下面我们首先介绍测试的网络数据, 然后验证第4.2 节提出的特征值分解算法freigs 的准确度与有效性, 最后通过多标签分类的实验验证eNetMF算法的优势, 并给出更多实验结果.5. 1 数据集我们选择如下5 个网络数据集来进行测试.( 1) PPI[ 2 9]. 该数据集是一个蛋白质和蛋白质交互的网络子图, 数据集里节点的标签是从标志性基因集获取的, 可以表示生物学状态.( 2)Bl 〇gCatal 〇g[ 3°]. 该数据集是一个线上博客主的社交关系的网络, 其中节点标签表示博客主的兴趣.( 3) DBLP[3 1]. 该数据集是一个学术引用网络,网络中的节点是作者, 标签是他们所活跃的会议.( 4)Fl 1 Ckr[ 3 °]. 该数据集是一个FHckr 网站上的谢雨洋等: 基于随机化矩阵分解的网络嵌人方法 45 5图25. 3eNetMF算法在多凇5. 3.1 实验参数设置与评价指标我们将本文提出的eNetMF网络嵌入方法与DeepWalk、NetMF、NetSMF、 ProNE四种方法进行对中给出的程序. 根据文献[7], 对于所有的方法在不额外说明的情况下都默认设置成窗口大小g=10、负采样参数 1 以及嵌入映射维度 128. 在200100 200 100 200Flickr200 400YouTube65遄4--eigs■■ ■■■ freigs嵙3#2、?10 100 200算塗软 Ugst函魏对归一化M翁雉阵酸_鑛斷特征偉聲觳_绪暴f、签分类问题上的效果比》 对比的程序是这四种方法的作者在文献Cl J邛]--eigs■■ …freigs3 期用戸黑相联系的网络, 标签代表了用.户的兴趣组.( 5)YouTube?. 读数据梟是一个视频分享网姑上的用户玄互网络, 用户的标签为他们喜致的视频的类型.其中*PPI 和BbgCatal og规模相对较/M旦是在网络嵌入方面的研究工作中被广泛使用* 而DBLP、Fl ickr 和Youfube的:规儀相对较: 大.这巻载摒集的一些具体倩息如表1 所示?表1 数据集的具体信息数据集名称 点个数 边个数 标签个数PPI3890 76 584 50BlogCatal og10312 333983 39DBLP 5 1264 127968 60Fli ckr 80513 5 899882 195YouTube 1 138 49929 90443 475.2 特征值分解算法freigs 的有效性计算截断奇异值分解的传统算法是ARPACK算法P3], Pyt: h_麗:&cipf 贈eigs、 eigsh涵敎慕基:于它t且使用Intel 的MKL实规的, 下面将我们的算法3( 即fmgs)与处理对称稀:疏矩阵的rigsli函数做比较, 后者也就是Ne'tMi*8中所使用的.测试的矩阵是由表1中^个数据梟鲁到的矩阵,除了对DBLP 和YmiTtAe 我们分别睫c?=d.r邦 d. 玆5 外, 对其它:数摒囊我们都设a值PPI为缺省的〇._?!齿了与后?面的网络嵌人实验保持一致, 对PPI、Blc^Cstsl 〇f、DmfnY轉 这4个数据集4寺征值截断参数6=256, 对Fli ckr 我们取々=512. 对于華迭代参数和过采祥参数餘了DBLP、Flickr 外都取多=IQ?s=5: 6.Fl ic. kf 对应:餘_障载稠密、 且特征植. 截断参数较大, 我们取f=8y=10(VDBLP对应的蔚一化网络矩阵特征值下降缓慢, 我们取f=16y=256. 我们的算法3( freigs箅法)与eigsh的运行时间列于表2中. . 从中可看出,随机化特征值分解算法在: 大数据.集上比传统算法快接近10 倍.表2算法3(freigs) 与ei获h 的运行时间比较 (单位: 5)数据集名称 eigsh freigs 加速比PPI 3. 0 0.7 4.3XBlogCatalog11. 01. 95.8XDBLP 81. 0 9. 0 9. OXFlickr 415. 079. 05.3XYouTube 1320.0 138.0 9.6X图2 显示了算法3 和eigsh 计算出的最大特征值曲线? 从中可以着:出, 两'者的结果几乎是不可区分的, 这反映出随机化待征値算法freigs有较圩的准确度?通过铃_多标:盤分类问题上的实验结果, 我们也可以看出freigs算法每到的截断特征值分解几乎不会影响网络嵌人的性能.DBLP BlogCatalogfft^.3.3..0. 8j.4l.o.o.o.456 计 算机 学 报 2021年NetMF和eNetMF算法中, 对归一化网络矩阵作截断特征值分解的参数/i 基本上都取值256, 只是对Flickr令512.对于DeepWal k算法, 我们按照文献[3]的作者建议的参数进行设置, 即随机游走的长度取40 , 每一个点的游走数量取80 以及窗口大小的参数取10.对于NetSMF算法, 需要设置网络稀疏化的非零元参数M. 我们和文献[8]保持一致, M的值几乎都是103X gXwwz(A) /2, 只有对Bl ogCatal og, M=104X,qX, nnz(A)/2.对于ProNE算法, 我们和文献[9]设置相同的参数, 即切比雪夫扩展次数为10, 拉普拉斯算子里的"=0.2,6=0.5.对于eNetMF方法, 除了在5.2 节已经介绍的.?参数和进行第一步快速随机化特征值分解所需要的幂迭代参数、过采样参数外, 还需要设置逐行遍历矩阵M的批处理参数W和最后单遍历奇异值分解中使用的过采样参数^批处理参数n影响内存开销和矩阵乘法的计算时间, 较大的?会使得矩阵乘法加快, 但也导致峰值内存用量较大. 我们对大多测例使用w=3200 , 而对于最大的YouTube 设置w=12800. 对最后的过采样参数, 统一取5=100.在上述各种方法得到网络嵌人后, 与文献[3,79]一样我们将其应用到多标签分类问题上, 通过分类的准确性来评价不同网络嵌人表示的性能. 对各个数据集, 我们随机采样一部分的带标签节点作为训练数据, 剩下的作为测试数据_ 对于PPI 和Bl ogCatal og,训练节点所占比例从10 %起每次增加10 %递增到90%, 总共进行9 组节点分类的实验. 对于DBLP、Flickr 和YouTube, 训练节点所占比例从1%起逐渐增到10%, 共进行10 组节点分类的实验. 在实验中, 我们使用由LIBLINEAR[3 2]库实现的一对多的逻辑回归模型进行多标签分类. 在测试阶段, 逻辑回归模型生成排序的标签、而不是确切的标签分配, 为了避免阈值效应, 我们假定对于测试数据, 标签的数量是给定的[ 3’33 ]. 对于每个实验, 我们重复预测10 次,然后观测不同网络嵌人方法得出的平均Ml cr〇 _Fl、平均MacroFI 指标[3 4]和准确率指标[3 5]. _F1 分数指标的定义为F12PRP+R(18)其中P表示精确率,i? 表示召回率. 计算Micro FI时, 先将所有类别的真正例数量( TP)、假正例数量(PT) 和假负例数量(FN) 相加得到总体的TF、TW、值以及总体精确率P和召回率犮.TP二 ̄TPelas;s l ̄ ̄I-TPda ss2  ̄ ̄I-.+TPclas s」 v( 19)FP:二FPchs; s l ̄ ̄I-FPdas s2 ̄ ̄I-? ? ?FPcl as sJ"v(20)¥n二二FN如;si+FNc\&^2+* ? ?+FNcla ssw(21)tpP== ̄=(22)TP+FP-fpR=__(23)TP+FN然后, 类似式(I8) 计算Micro FI:Mi cro FI2PRP+R(24)计算Macro FI 时, 则是分别计算每个类别的F1 分数, 然后求平均:Macro FI=FIclas sl ̄ ̄t-? ? ? ̄ ̄t-Flclass NN(25)在计算多标签分类的准确率时, 我们先计算一个节点的多标签准确率为预测正确的标签除以总共的标签数量, 然后取整体的分类准确率为所有节点的平均:AccMrac^=(26)nti| i,U> 5.I其中T, 表示正确的标签集, S, 表示预测的标签集.5.3.2 实验结果图3 和图4 显示了不同网络嵌人算法在5 个数据集上进行多标签节点分类的性能.其中, 由于所需内存超出了256GB, Net SMF对Fl i ckr和YouTube的实验结果无法获得, 而由于同样的原因NetMF对YouTube 的结果也无法获得. 从图3 和图4 可以看出, 无论是Macr〇_Fl还是Mi cro _F1, 使用eNetMF算法后的结果都与使用NetMF得到的一致(尤其在训练比例较大时) , 这说明本文提出的改进NetMF算法的技术并没有给网络嵌人的质量带来明显的影响. DeepWal k方法在PPI、Bl ogCatal og、DBLP和YouTube 上有和eNetMF差不多甚至更差的效果,仅在FUckr上要好于我们的方法. ProNE方法虽然在某些数据上得到的Ml cr〇Fl 值最好, 但在所有测试数据上其得到的Macro FI 值明显比其它方法的差, 这说明ProNE得到的嵌人表达没有包含图中足够的信息, 因此对一些标签较少的节点分类效果不够好.网络嵌人算法在多标签分类问题上的准确率结果列于表3 中. 我们记录当训练节点所占比例为60%时的PPI 和Bl ogCatal og 的准确率结果, 以及当训练节点所占比例为6%时的DBLP、 FUckr 和YouTube 的准确率结果. 从表3 的结果可以看出, 我们的方法和NetMF的效果差不多, 在所有数据集上与其它对比对象比较均有差不多或者更好的准确率.谢雨洋等: 基于随机化矩阵分解的网络嵌人方法 45 7 3 期训练比例/%Fl ickr YouTube图3 使用不同网络嵌人算法后进行节点多标签分类得到的Marco-Fl 值(横轴为训练数据所占的比例)PPI BloeCataloe^-DeepWalk-?-NetMF备NetSMF+ProNE ̄t—eNetMF20 4060训练比例/%8030L20DeepWalk夺NetMFNetSMF^ProNEeNetMF406080训练比例/%DBLP40Youtube^DeepWalk-?-NetMF各NetSMF斗ProNE十eNetMF4训练比例/%10-^DeepWalk-?-NetMF各NetSMF+ProNE ̄i—eNetMF46训练比例/%10训练比例A庫. 傳兩不■ 翬儀A#■翁嫌行节属_签#: _飼的MteiFl疸1猜轴为刺馨敷.腐古鋒比例)表3各种网络嵌入算法的多标签分类准确率(筚偉数据集名称 DeepWalk NetMF NetSMF ProNE eNetMFPPI17. 082 18. 02018.621 18. 985 18.148BlogCatalog40.14341.1 1839.36139. 529 40.958DBLP 58.280 59.9 19 59.287 55.527 58.352Fli ckr34.35 133.173 N. A.33.48533.080YouTube 98.247 N. A. N. A. 98. 289 98.256各种网络嵌人算法的运#时间列于表4 中, 所有算法对应的程序都是适含fl32 线程运行的并行程序?且对间包括了读取数据文件的时间? 从表.4可以看出,ProKE算:法的运行时间最親dNetMF算法在矩阵规模不大的时候, 速度也比较快. 在Flickr 数摈上其相对于NetMF 的加速比高达41 倍. 而MeflSlvIFS: 然在; 处理DBLP时也比NetMF耗时■?钽在处理更大例子时由于内存蕾求太大而无法运行. De仲Wal k算法是所有对比对象里运行时间最夂的,esMeBvIF算驗相对"于D?pW?ilk 算法翁每个数磨集上的加速比都要超过2〇倚.表4 各种网络嵌入算法的运行时间 (筚偉,.s)'数据:集舊猶DeepWft?Net?tN8I獅PJfljNE.eNe爾f 加速比PPI318 14 19 1.4 1.5 9.3XBlogCatalog816 84 1140 5.0 4.6 18.OXDBLP 4540 632 82 11. 039. 0 16. OXFlickr 79206120 N.A.72.7 150 . 041. OXYouTube 108015 N. A. N. A.194.3 4852. 0—458 计 算机 学 报 2021年对于NetMF、NetSMF、ProNE和eNetMF这四种算法的峰值内存用量列于表5. 从中可以看出,对Fl i ckr 数据eNetMF的内存用量仅为NetMF的1/46. 处理最大的YouTube 数据,eNetMF 只需120 GB内存即可算出网络嵌人, 并得到非常好的网络节点分类结果( 如图3、 图4). 虽然在运行时间和内存用量上, 本文的方法不如ProNE, 但是如前面所展示的, 本文方法在多标签分类结果的效果上更稳定、更好.表5 各种网络嵌入算法的峰值内存用量(单位: GB)数据集名称Net MFNetSMFProNEeNet MF 缩小倍数PPI0. 396. 860. 160. 291. 3XBlogCatalog2. 20135. 000. 460. 554. OXDBLP31. 0018. 200. 722. 0016. OXFlickr182. 00>2565. 504. 0046. OXYouTube>25 6>25 612. 00120. 00对eNetMF算法各部分的运行时间进行详细统计后发现, 第一步随机化特征值分解和最后的单遍历奇异值分解所花费时间占比例很小, 而两者之间的矩阵计算部分(算法6 的第7?12 步) 消耗时间最多. 例如, 对YouTube 数据, 矩阵计算部分花费的时间为4574 s, 占总运行时间90%以上, 而单遍历奇异值分解的时间仅为35s. 对于该数据, 我们还比较了算法6 中的单遍历奇异值分解与文献[27] 中的单遍历奇异值分解算法, 后者的运行时间为1434s, 可见我们提出的简洁单遍历算法与保证分解结果对称的技术显著加速了计算、也有很高的准确度.5.4eNetMF算法在边预测问题上的效果5. 4.1 实验设置与评价指标我们将本文提出的eNetMF 网络嵌人算法和DeepWal k、NetMF、NetSMF、 ProNE在网络的边预测问题上进行比较, 这些方法的参数设置和5.3 节所介绍的一致. 边预测问题旨在基于现有的网络结构来预测可能存在的边. 在我们的实验当中, 我们随机地抽取原始图30%的边作为测试集, 剩余70 %的边作为训练集. 首先将不同的算法在训练集上进行学习得到训练集的网络嵌人结果, 然后根据网络嵌人结果来计算每一个在测试集的点对(M, W) 上的相似度分数, 最后采用广泛使用的AUC指标[ 5 ]来评价边预测质量的好坏. 在上述过程中, 计算点对(M, W的相似度分数可以按照点对U, W对应的嵌人向量的内积、余弦距离或欧式距离来计算, 也可以使用边特征方法[ 5 ]来计算. 对于每个网络嵌人算法,我们选取使其AUC指标结果最好的相似度分数计算方法并记录AUC的结果.5.4.2 实验结果各种网络嵌人算法在边预测问题上的AUC指标的结果列于表6 中. 从表6 可以看出在PPI 和Flickr数据集上eNetMF算法比DeepWal k、ProNE要差, 但在数据集Bl ogCatal og、DBLP和YouTube上, eNetMF算法的结果比其它方法好或差不多. 整体来看, eNetMF的效果和NetMF的效果相比差不多甚至更好, 特别是在DBLP数据集上, eNetMF算法显著更好, 这是因为DBLP的归一化网络矩阵的特征值衰减非常缓慢, NetMF算法里的elgsh函数在不设置迭代次数的时候很难收敛, 而设置了迭代次数的特征值计算的结果有一定的误差, 故该数据集的结果也验证了本文第4.3 节提出的矩阵高效率构建方法的有效性. 边预测实验验证了eNetMF算法具有很好的推断预测的能力, 这得益于我们的模型和NetMF—样, 较好地保存了网络的结构信息.表6 各种网络嵌入算法在边预测问题上的AUC值数据集名称DeepWal kNet MFNetSMFProNEeNet MFPPI0. 7430. 7370. 7640. 7970. 735BlogCatalog0. 8800. 8780. 8830. 8860. 876DBLP0. 8480. 8570. 8480. 8450.916Flickr0. 9230. 879N.A. 0. 9260. 871YouTube0. 779N.A. N.A. 0. 8050. 8056 结论与展望本文在网络嵌人问题上, 提出了一个基于高效随机化矩阵分解的网络嵌人方法, 该方法显著减少了NetMF[7]模型的内存开销和运行时间. 本文首先提出了一种快速随机化特征值分解算法, 用以加速归一化网络矩阵求特征值分解的速度, 该算法展现出相比传统的稀疏矩阵截断特征值分解方法近十倍的加速, 且几乎不损失精度. 然后提出了一种简洁的且适用于对称矩阵的单遍历奇异值分解算法, 利用该算法避免了显式存储稠密矩阵, 使得算法的内存开销跟矩阵维度呈线性关系, 适合于处理大规模网络数据. 最后, 结合以上技术, 提出了基于高效随机化矩阵分解的网络嵌人算法eNetMF, 并将其应用于实际网络数据, 基于得到的低维嵌人进行多标签分类和边预测. 多标签分类的实验结果表明,eNetMF在各个数据集上的评测结果均与NetMF得到的结果差不多, 显著优于NetSMF和ProNE等其它网络嵌人方法, 而且eNetMF方法内存用量小、谢雨洋等: 基于随机化矩阵分解的网络嵌人方法 45 93 期运行速度快. 对于节点数超过1 百万、NetMF 与NetSMF由于内存需求太大无法处理的YouTube数据, eNetMF只需1.3 h 和120 GB 内存开销即可得到网络嵌人, 并进而获得很好的多标签分类结果.边预测的实验结果表明eNetMF算法也表现出与其它方法差不多甚至更好的性能.本文提出的方法, 虽然在运行时间上相比NetMF有显著的优势, 但其时间复杂度仍为〇cva+/) ) ,其中《为网络节点数目. 因此, 在它在处理特别大的网络时需要很长、 甚至不能忍受的时间. 后续我们将考虑用GPU并行计算或分布式计算对改算法进行加速, 使得它在保证准确的同时能够处理更大规模的网络数据. 其次, 本文通过随机化矩阵计算方法改进NetMF方法, 取得了一定的效果, 后续还可以研究随机化矩阵方法在其它大数据挖掘和处理问题上的应用, 期望在保证结果准确的同时减少算法的时间和内存开销. 此外, 对于本文实验中体现出的ProNE算法得到的网络嵌人结果不稳定的问题, 很可能是由于ProNE算法做了近似的信息传播增强, 导致在一些稀疏图数据上的表现较差. 这种信息传播过多导致的过度平滑问题最近也得到学术界的关注, 将来我们也计划针对该问题开展工作, 希望研究出既保证网络嵌人质量又具有非常低算法复杂度的网络嵌人方法.参 考 文 献[1]ZhangF,LiuX, TangJ, et al . OAG; Towardlinki nglargescaleheterogeneousentitygraphs//Proceedingsof t he25thACMSIGKDDInternat ionalConferenceonKnowledgeDiscoveryandDataMining( KDD) . Anchorage, USA,201 9;2585 2595[2]Hamilton WL?YingR,LeskovecJ. Represent at ion learni ngongraphs: Methodsandapplicat ions. IEEEData( base)EngineeringBul let in,2017 ,40 :52 74[3]PerozziB?Al RfouR?SkienaS. Deepwalk: Onli nelearni ngofsocialrepresent ations//Proceedingsofthe20thACMSIGKDDInt ernat ionalConferenceonKnowledgeDiscoveryandDataMining. NewYork, USA, 2014 :701 7 10[4]TangJ, QuM, WangM, etal. Line: Largescaleinf ormationnetworkembedding//Proceedi ngsofthe24thInt ernat ionalConferenceonWorldWideWeb. Florence? It aly,2015:1067 10 77[5]GroverA,LeskovecJ. Node2vec: Scalablefeat urelearni ngfornet works//Proceedingsof the22ndACMSIGKDDInt ernationalConferenceonKnowledgeDiscoveryandDat a[6]DongY, ChawlaNV, SwamiA. Met apath2vec: Scalablerepresentationlearningforhet erogeneousnet works//Proceedingsofthe23rdACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining. Hal ifax,Canada,20 17: 135 144[7]QiuJ , DongY, MaI I , etal. Networkembeddi ngasmat rixfactorization: Unifyingdeepwalk,line ,pte ,andnode2vec//Proceedingsofthe11thACMInt ernationalConferenceonWebSearchandDat aMi ning. MainaDelRey,USA,2018;459467[8]QiuJ , DongY, MaI I,etal . NetSMF: Largescale net workembeddingassparsemat rixfactorizat ion//Proceedingsofthe28t hInt ernat ionalConferenceonWorldWideWeb. SanFrancisco, USA, 2019: 150 9 1520[9]ZhangJ,DongY,WangY, etal. ProNE: Fast andscalablenet workrepresent ationlearning//Proceedingsoft he28t hInternat ionalJointConf erenceonArt if icialInt el ligence.Macao ,China,20 19; 4278 4 284[10]I l alkoN, Mart inssonPG, TroppJA. Findingst ructurewithrandomness: Probabilisticalgorithmsf orconst ruct ingapproximat emat rixdecompositions. SocietyforIndustri alandAppliedMat hemati csRevi ew, 20 11, 53 ( 2) : 217 288[11]DrineasP,MahoneyMW. RandNLA: Randomizednumericallinearalgebra. Communicat ionsoftheACM, 201 6,59(6):80 90[12]MikolovT, SutskeverI , ChenK, et al. Dist ribut edrepresentat ionsofwordsandphrasesandt heircompositi onali ty//AdvancesinNeuralInformationProcessingSyst ems. LakeTahoe, USA, 2013: 3111 3119[13]ChungFRK? GrahamFC. Spect ralgrapht heory. Providence ?RhodeIsland: AmericanMathemat icalSociety?1997[14]TangL, LiuI I . Relationallearningvia latentsocial dimensions//Proceedi ngsof t he15t hACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDat aMining. Paris,France, 200 9; 817 826[15]YanD, I l uangL,JordanMI. Fastapproximat espect ralclustering//Proceedingsofthe15 thACMSIGKDDInt ernationalConferenceonKnowledgeDiscoveryandDat aMining.Paris, France, 2009: 907 916[16]BelkinM, NiyogiP. Laplacianeigenmapsandspect raltechniquesf orembeddingandclust ering//AdvancesinNeuralInformat ionProcessingSystems. Vancouver ,Canada ,2002:585 591[17]Levy0, GoldbergY. Neuralwordembeddingasimplici tmatrixfactorizat ion// AdvancesinNeuralInformationProcessingSyst ems. Mont real , Canada,2014: 2177 2185[18]CaoS, LuW, XuQ. GraRep: Learninggraphrepresent ationswi thglobalst ructuralinformat ion//Proceedingsofthe24thACMInternationalonConferenceonInf ormat ionandKnowledgeManagement. Melbourne, Aust ralia, 2015: 891900 Mining. SanFrancisco , USA,2016: 855 864460 计 算机 学 报 2021年[19]OuM, CuiP, PeiJ ,etal. Asymmetri ctransitivitypreservinggraphembedding//Proceedingsofthe22ndACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.SanFrancisco,USA,201 6: 1105-1114[20]YangC,Li uZ,ZhaoD,etal. Networkrepresentationlearningwithrichtextinformation//Proceedingsofthe24 thInternationalJointConferenceonArtificialIntel ligence.BuenosAires,Argentina,2015:2111-2117[21]ZhuD,CuiP,ZhangZ,etal.I Iigh-orderproximity preservedembeddingfordynamicnetworks. IEEETransactionsonKnowledgeandDataEngineering,2018 ,30(11): 2134-2144[22]EckartC,YoungG. Theapproximationofonematrixbyanotheroflowerrank. Psychometrika,1936,1(3 ) :211-2 18[23]LehoucqRB,SorensenDC,YangC. ARPACKusers?guide:Solutionoflarge-scaleeigenvalueproblemswithimplicitlyrestartedArnoldi methods.Philadelphia :SocietyforIndustrialandAppliedMathemati cs,1998[24]Tropp JA,YurtseverA,UdellM,et al.Practi calsketchingalgorithmsforlow-rankmatrixapproximation. SIAMJournalonMatrixAnalysisandApplications,2017 ,38 (4) : 1454-148 5[25]I lighamNJ. Matrixnearnessproblemsandappli cations//ProceedingsoftheIMAConferenceonAppli cations of MatrixTheory. NewYork,USA,1989: 1-27[26]BoydS,VandenbergheL. ConvexOptimization.Cambridge,UK:CambridgeUniversityPress,2004(Section4.2.3)[27]YuW, GuY,LiJ. Si ngle-passPCAoflargehigh?dimensionaldata//Proceedingsof the 26thInternationalJoi ntConferenceonArtificialIntelligence. Melbourne,Australia,2017 : 3350-3356[28]FengX, Xi eY,SongM,etal. FastrandomizedPCAforsparsedata//Proceedingsofthe10thAsianConferenceonMachineLearning.Beijing,China,2018 :710-725[29]StarkC,Brei tkreutzBJ , Chatr-AryamontriA,etal. TheBioGRIDinteractiondatabase: 201 1update. Nucl eicAcidsResearch,2010,39(Suppl_l):D698-D704[30]Social-DimensionApproachtoClassificationinLarge-ScaleNetworks, http: //leitang.net/social_dimension, html,2010.7. 29[3 1]Tang J , Zhang J, YaoL, etal.Arnetmi ner:Extractionandminingofacademicsocialnetworks//Proceedi ngsofthe14thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.LasVegas?USA,2008: 990-998[32]FanRE,ChangKW?I lsi ehCJ,etal. LIBLINEAR:Ali braryforlargeli nearcl assifi cation. JournalofMachineLearningResearch, 2008 ,9 :1871-1874[33]TangL,RajanS, NarayananVK. Largescalemulti-l abelclassificationviametalabeler//Proceedi ngsofthe18thInter?nationalConferenceonWorldWideWeb. Madrid,Spain,2009: 211-220[34]YangY. Anevaluationofstatisticalapproachestotextcategorization. InformationRetri eval,1999,1(1-2): 69-90[35]GodboleS,SarawagiS. Di scriminativemethodsformul ti-labeledcl assifi cation//Pacific-AsiaConferenceonKnowledgeDiscoveryandDataMining. Berl in, Germany:Springer,2004:22-30XIEYu-Yang,Ph.D.candidate.Hisresearchinterestsincludedataminingandmatrixanalysis.FENGXu, Ph.D.candidate.Hisresearchinterestismatrixanalysis.YUWen-Jian, Ph.D. ,associateprofessor.Hisresearchinterestsincl udecomputeraideddesignofICandmatrixanalysis.TANGJie, Ph.D. ,professor.Hisresearchinterestsincludesocialnetworkminingandacademicknowledgegraph.BackgroundInordertoprocessnetworkdataeffectively,thechallengeistofindeffectivenetworkdatarepresentation.Thetraditionalnetworkdatarepresentationhasbecomeabottleneckinlarge-scal enetworkdatanowadays.Networkembedding,whichaimstolearnlow-di mensionalvectorrepresentationsfornetworknodesandeffectivelypreservethenetworkstructure,i sapromisingwayofnetworkrepresentation.Duringthepastfewyears ,thereisasurgeofresearchonnetworkembeddi ng.DeepWalk, LINEandnode2vecmodel swhi chareskip-grambasedhavebeenconsideredaspowerfulbenchmarksolutionsfornetworkembeddingresearch.GraRep, HOPE, NetMF, NetSMFandProNEmodelsarematri xfactorizationbasednetworkembeddingmethods.NetMFalgorithmtheoreticallyunifiesseveral networkembeddingmethodsandshowtheembeddingl earnedbyNetMFisaspowerfulasthosel earnedfromtheskip-grambasedmethods.Themajordi sadvantageofexi stingmethodswhi chisbasedonmatrixfactori zati onisthelargecoston谢雨洋等: 基于随机化矩阵分解的网络嵌人方法 46 13 期computationandmemory.Inthiswork, weusefastrandomizedeigenval uedecomposition(EVD)andsinglepasssingularvaluedecomposition(SVD)toimproveNetMFandpresentanefficientrandomizedmatrixfactorizationbasednetworkembeddi ngalgorithm(eNetMF). Firstly, weproposeafastrandomizedEVDalgorithm(freigs)forsparsematri x. Secondl y, weproposetousesingl epassSVDapproachtoprocesshigh orderproximitymatrixintheNetMF, sothatwecanavoidstoringthelargedensematrixandlargelyreducethememorycost.Thirdl y, weproposeasi mplified, randomizedsinglepassSVDalgorithmthatguaranteesasymmetricdecompositionresult.Combiningtheabovetechniques,wefinallyobtaintheeNetMFalgorithm.Withfi verealnetworkdatasets, weevaluatetheeffici encyandeffectivenessoftheeNetMFalgorithmonmultil abelnodecl assification. ExperimentalresultsshowthatintermsofthemetricsMacro FIandMicro Fl , theembeddinggeneratedbyeNetMFhasthesameperformanceasNetMFinmul ti label nodecl assification.Benefitingfromrandomizedmatrixdecompositionalgorithms>eNetMFisfastandmemoryfriendlycomparedtoNetMF.Webelievetherandomizedmatrixdecompositionalgorithmsaregenericandcanbeappl iedtomatri xfactorizationbasednetworkembeddi ngmodels, andhopethi spaperwillinspiremorefutureresearchinthisarea.ThisworkissupportedbyNationalKeyR&DProgramofChina(GrantNo. 2020八八八0103502)andtheNationalNaturalSci enceFoundation( GrantNo. 61 87 2206). Thisworkfocusesontherandomizedmatrixdecompositionanditsapplicationinnetworkembedding. Ourgrouphasbeenstudyingrandomizedmatrixdecompositionandnetworkembeddingforyears, andhasproposedaseri esofworksuchasfrPC八, NetMF, NetSMFandProNE. |
[返回] |