欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
基于知识线记忆的多分类器集成算法
来源:一起赢论文网     日期:2021-11-25     浏览数:832     【 字体:

 第44 第3 2021 年3 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No. 3Mar. 2021基于知识线记忆的多分类器集成算法于思皓中国科学院计算技术研究所网络数据科学与技术重点实验室 北京100190)2 )( 中国科学院大学 北京 100190)3)( 烟台中科网络技术研究所 山东烟台 264005)摘 要 多分类器系统作为混合智能系统的分支, 集成了具有多样性的分类器集合, 使整体得到更优的分类性能.结果融合是该领域中的一个重要问题, 在相同分类器成员下, 好的融合策略可以有效提升系统整体的分类正确率.随着模型安全性得到重视, 传统融合策略可解释性差的问题凸显.本文基于心理学中的知识线记忆理论进行建模,参考人类决策过程, 提出了一种拥有较好可解释性的启发式多分类器集成算法, 称为知识线集成算法. 该算法模拟人类学习与推断的行为, 组织多分类器结果的融合. 在训练中, 模型收集给定分类器集合的不同子集, 构建不同特征空间到解空间的映射, 构成知识线. 在推断时, 模型启发式地激活知识线, 进行选择性结果集成, 得到推断结果.知识线集成使用样本驱动的模式, 易于进行中间过程与最终结果的分析. 以决策树作为分类器的实验表明, 在相同的决策树集合下, 知识线集成算法分类正确率与随机森林相仿. 在此基础之上, 知识线集成算法可量化问题不同粒度下的难易程度, 且在推断时能提供相关训练样本作为依据.关键词 多分类器; 知识线记忆理论; 启发式; 样本驱动; 可解释性中图法分类号TP3 93DOI号1 0.1 189 7/SP.J.101 6.2021.00462MultiClassifierEnsembleAlgorithmBasedonKnowledge-LineMemoryYUSi Hao1) ,2)GUOJia Feng1) ,2)FANYi Xi ng1)LANYanYan1) ,2)CHENGXue Qi3)1 :)( KeyLabof Net workDataSci enceandTechnology?, InsLi LuL e ofComput ingTechnology?, ChineseAcademyofSciences ?Beijing100 190 )2)( UniversityofChineseAcademyofSciences?Beijing100190)幻(JnsL i LuLeofNetworkTechnology1CT(YANTAI)CAS, YanLai , Shandong264005)AbstractMul ti cl assifi erSystem,abranchtechnol ogyofHybri dIntel l igentSyst em,i ntegratesmanycl assi fierstoapproachhigheraccuracy. Becauseoftheli mitati onofcomputi ngresourceandthequalityofcl assi fiers,cl assi fiersfusionisani mportantprobl emi nMulticl assi fierSystem.BetterfusionstrategycanreachhigherperformanceofwholeMul ticlassi fierSystemunderthesamewel l trainedcl assi fiermembers. Thetraditionalmethodshadtriedmanyfusi onstrat egiessuchasnormalvoti ng,weightedvoti ngandfusionfuncti on.Asthemodel sdevel oped,thecl assi ficati onaccuracywenthigher. Butthesemodel sonl ypai dattenti ontocl assi ficati onaccuracyandpai dlittl eattenti ontoi nterpretabilitywhichisani nevitabl eprobl emwhensafetyofmodelwasconcerned.Thi spapertakesavi ewofhumandeci si onmaki ngandpresentsanewmul ticl assi fierensembl ealgori thmnamedknowl edge li neensembl ewhichbasedonknowl edge li nememorytheorydescri bi ngtheprocessofhumandecisi onmaki ngwithmemory. Inordertogetthe收稿日期:20191010; 在线发布日期:2020 0915. 本课题得到国家自然科学基金项目(61722211,618723 38,6 1902381) 、 北京智源人工智能研究院CBAAI20 19ZD0306) 、 中国科学院青年创新促进会(20144 310) 、 国家重点研发计划(2016QY02D0405) 、 联想中科院联合实验室青年科学家项目、 王宽诚教育基金会、 重庆市基础科学与前沿技术研究专项项目( 重点) (cst c20 17_jcj yBX()()59) 和泰山学者工程专项经费( ts201511082) 资助. 于思皓, 博士研究生, 主要研究方向为强化学习、 集成学习、 自适应网络. Email: yuSiha〇@ict .ac.cn. 郭嘉丰, 博士,研究员, 中国计算机学会(CCF) 会员, 主要研究领域为信息检索、 数据挖掘. 范意兴, 博士, 助理研究员, 主要研究方向为信息检索、 自然语言处理. 兰艳艳, 博士, 研究员, 中国计算机学会(CCF) 会员, 主要研究领域为机器学习、 排序学习、 信息检索. 程学旗, 博士, 研究员, 中国计算机学会( CCF) 会员, 主要研究领域为网络科学、 网络与信息安全、 互联网搜索与数据挖掘.于思皓等: 基于知识线记忆的多分类器集成算法 46 33 期i nterpretabilityli kehumandecisi onmaking,knowl edge li neensembl ealgorithmi mitat esthel earni ngandi nferenceprocessesofhumanaccordingtothepsychol ogi caltheorydescripti on. Intrai ni ng,themodeltriestocreatememorycal l edknowl edge li neli kehumantostorememoryaboutsol vingdifferentprobl emsandforgetmemoryl ikehumani nordertoavoidsinki ngintospeci albadcases. Knowl edge l i neandtrai ni ngsampl eareone toonecorrespondence. Knowl edge l i neisasubsetofgivenwel l trai nedcl assifierswhichcanresul ti nrightcl assi ficati ononthecorrespondi ngsampl e.Differentsampl esresul tincreati ngdifferentknowl edge l i nes,soaftertrai ni ng,themodel storesvariedknowledgel i nes. Theseknowledgel i nescreateasetofmappi ngswhichareusedtomapfeat urespacetoanswerspace.Ini nference, themodelchoosesasubsetofexisti ngknowl edge li nestoacti vatedependi ngonheuristicsrul es.Theseacti veknowl edge l i neswi l lwork,andvot etogetaresul t. Knowl edge li neensembl ealgori thmi saki ndofsampl edri venmethod,wheni nferri nganewcase,onl ytheknowl edge li nesbornwithfamiliarsampl eswil lbeacti vated.Itseemsthathumanbei ngsthi nkofsol uti oni nmemorywhensufferi ngfromtroubl es.Soknowl edge l i neensembl ealgori thmi susingsampl eddatatomakedecisi ons.Special l y,becausetheprocessthattheknowl edge li nememorytheoryusescomputi nguni tstoconstructknowl edgel i nesi ssi mi l artoaddi ngel ementstosets,i nordertodescri bethecalculati onprocessofthealgori thmbetter,thispaperusesmatricestomodelthisprocess. Theconnecti onrel ati onshipbetweentheknowl edge li nesandthecomputi ngunitscanberepresentedbyanadjacencymatri x,theresul tsofdi fferentcl assi fierscanbestoredbyacl assi ficati onmatri x,andtheacti vati onoftheknowl edge l i nescanbecompl etedi ntheformofthei nnerproductoftheresul tsofal lknowl edge linesandtheacti vati onvectors.Sothefi nalcl assificati onresul tcanbeexpressedi ntheformofmatri xmultiplicati on.Onthisbasis,thegoalandconvergenceofthealgorithmareexplai ned.Intheexperiments,thispaperuseddecisi ontreesasthegivenclassi fiers.Underthesamegi venclassi fiers, experi mentsshowedthatknowl edge lineensembl ealgorithmhadcomparabl eaccuracywithrandomforestwhichusesnormalvotingasi tscoordi natingstrategy.Morei mportantly,knowledgel i neensemblealgori thmcandiscrimi natethedifficul tyofi nferencecasesaccordingtotheacti vesi tuati onofknowl edge li nesandgi vespeci fictrai ni ngcasestosupportthei nferencewhichmakesitsresul tsmoreconvi nced.Keywordsmulticl assi fier;knowl edge li nememorytheory;heuristics;sampl edriven;i nterpretabilityi 引 言随着大数据时代的推进, 数据所蕴含的模式多元化, 机器学习算法需要解决的任务愈发困难. 在多变的任务中, 模型结构趋于复杂, 参数量愈发庞大.但是“没有免费的午餐”原理[1]是一个无法打破的枷锁, 它论证了单个模型能力的局限性. 若要有所突破, 多个模型的合作势在必行.正如在多个器官的共同作用下, 人类得以生存.擅长不同任务的智能体合理地组成一个系统, 就可以解决更多样化的问题. 混合智能系统[2]也是在这样的构想下被提出的. 在机器学习任务中, 分类问题与回归问题是重要的基础问题. 针对分类问题, 多分类器系统作为混合智能系统的分支在文献[3] 中被提出. 多分类器系统重点在于采用“分而治之”的理念. 它将复杂的分类问题分解成多个简单的子问题,分别使用单模型逐个击破后, 再合理地将这些模型组合以得到原问题的解决方案.如今, 多分类器集成算法在各种任务中扮演着重要角色, 也是机器学习竞赛中提升成绩的重要手段. 但是在金融、安全等任务上, 仅有分类正确率是不够的, 即使模型在测试集上的正确率达到100%,模型也依旧具有极大的可能在新的样本上给出荒谬的结果. 原因是, 仅靠类似正确率的一个指标, 只能做出现实世界中大多数任务的不完整描述[4]. 模型做出决策的原因是不能忽略的.现有的多分类器系统所使用的集成策略, 在推464 计導机攀报: _1苹断时无法绐出做决策的具体原因; 无法像K近邻?、 协同过滤[ 6]等模型一样显式的缋出推断时起作用的训练样本事.实上, 在心理学的研究中, 知识幾记忆理论[7]说明了人在Ite策时会激致过往数据产生的记忆*甩旧例子作为依据来推测新问题的答案.本文的贡献主繫有以下几点:(1.) 本文用鉅阵对知识. 线记忆理论的计算框架进行了数学曾模、r:2) 本变 合心邀学中的知识线记恬遒论提出了一种新的多分类器皇: 成策略? 称为'知识錢集成算法. 该算: 法具有良好可龢释性, 且分类正输.与现有集成分类算法保持在同一水平.(3) 该算法为使用者提供了丰富、 简单的模盤分析手段? 可以量化类别推断难度, 仿计类别、 祥本之: 间产生混籍的概辱.2 背景介绍与相关工作本文根据心理学中的知识线记忆理论, 设计了一套.氣发.式多分类器集成箅法? 本节将介绍多分类器系统的相关工作(参考文献[8,]) 与知识线记忆理论的背景知识,2.1 多分类器系统多分类器系统: &混脅替能系统中的一个童:要分亥, 旨'在集威多个模盤解决分类问题- 它的拓扑结构會厕种: 縫式鍺构与分#式绩掏_链式结构如图1 所示, 所有分类器成员有序排列, 数据从前到后逐个经过每个分类器. 分类器成员在训练中遂个产生5 每个新成员是在给定已有分类器与爾前集成绪果的条件下得到的? 链式结构主赛有两种运行模式. 第一种为数据传递型[ 1 ° 1 6 ]. 前置分类器接收到数据时, 计售铮到推断的结果并评估此错果的可信程度, 若可信度不足, 则把数据发送绐后续的分类器, 直到有分类器第出苽情结果* 这种方式有耆萌显的弊端: 分类器成员的数量难以控制、可偉虞难以评估, 被拒绝的绪果对后续分类器作用有限.因此,.第二种模式, 合作型, 也就是B〇〇sti ng[ l M'°]应运面生. 每个分獎器不再讨论难以评估的结果可信度, 而是直接使用监督擊习的方式找出推断错误的训练样本:? 分类器不再遂条数据进行训练, 而晕面向整个数据集, 根摒前置:聲类器的表现调整数据分布;推断结巣由所有分类器的加权和得到, 而不是完..全由:最后的分类器决定. 链鸯绪构下, 分类器之间必然会: 产生辍大: 相:关性, W本文主蘩研究:独重的分義:器集成方法>所以此处不再对链式M梅相关方法的发展进行更深人地讨论?L结果czj〉结果_1 縣式_歸__分布式的结构如菌之所示, 它要求分类器成見输人的数据相同.结果独立, 且分类器群体,具有多样性?文載[2i], 从统计学出发*论证了炁穷个无偏、 独立分类器的结果均值与綦佳贝叶斯分类器效果一致. 它说明了独立的多个分类器, 使用“少数服从多数”的投票策略进行决策是一种多分类器结渠融#的有效思路? 它对分布式多分类器系统的发, 提有着指导翥义. 分布式多分类器系统的设计主要是解斑两个问题: 其一, 如何'得到具有多样性且独立性较高的分类器集合; 其二, 如何将多个分类器的緒果融合成一个结果.针对第一个问癍,解洪方案可以分为商类, 数摒乘#与模谨多样化. 数据采样包括祥本的随机采■祥.比如Baggi n#?; 特征的随机采样, 比如随机森林%在决策树上的尝试, 文献[24]在线性分类器上的尝试, 文献[25]在最小距离分类器上的尝试; 数据待征空间分割, 比如文献[26] 中所提出的模型; 数据特怔子集的随机投泰, 比如AttributeBagging[27];敫磨标簦德形式修改s 比如文鑛[23]将箱暴改成多次一对多的二分类形式. 模塑多样化指模型在训练过程中, 模■受到干预导致的多样化, 比如使用不同初始化的神餐两络, 部分节*随机分裂的决策树等?针对第二个问癍, 主婆有三种觀决方案r标签融合、函数融合和训练融合.标?签融合豢指多个分类器错果按. 照一定的规则合成一个緒果. 布文献[21]的基础上, 可以证明若每个分类器成、员的正确率大于于思皓等: 基于知识线记忆的多分类器集成算法 46 53 期随机分类的正确率, 则整体投票结果的正确率将比分类器成员正确率均值高. 可见,“少数服从多数”的结果投票是简单有效的方法, 除此之外, 文献[29]认为不同的分类器应有不同的重要性, 所以提出了带权重的投票来组合分类器结果. 文献[30 32]利用特征信息来辅助完成结果融合. 而函数融合是把每个分类器得到的分数融合成最终结果, 比如文献[33 35]使用SoftMax函数把多个分类器的结果重构成最终结果的后验概率, 文献[36]构建结果的最优投影得到统一的结果. 以上方法都基于人为设定的规则, 其实融合结果的函数也可以通过机器学习得到, 即训练融合. 它可以使用决策树[ 3 7 ]、 感知机[ 3 8 ]、进化算法[ 3 9 ]、数据包围分析[4°]学习权重; 使用强化学习[ 41 ]、启发式搜索[ 42 ]剪枝; 使用Stacki ng[切把结果作为输人再次训练, 或者将所有分类器的结果作为特征输人到一个融合分类器中进行训练, 比如神经网络[44]、 贝叶斯分类器[45], 来得到一个组合多分类器结果的模型. 而本文提出的方法是一种更具有可解释性的启发式剪枝方法.多分类器系统是重要、 前沿的方法, 它的应用十分广泛, 比如在遥感上的土地覆盖制图[46 ]、 变化检测[ 47 ]、 计算机安全上的手机通讯[ 48 ]、 网络安全[ 49 ],银行中的欺诈检测[ 5°]、经济风险评估[ 5 1 ], 医药中的蛋白质折叠检测[5 2]、 神经科学[5 3]以及推荐系统[ %5 5 ]等. 在众多机器学习竞赛中, 集成学习、 模型融合也是提高指标的重要手段. 目前的集成方法虽然能提供良好的分类性能, 但同样重要的模型可解释性却都有所欠缺. 而在上述提到的众多应用中, 尤其是与安全和风险有关的应用, 模型的可解释性往往是更重要的需求.因此本文从心理学中的知识线记忆理论出发, 设计了一个具有良好可解释性的启发式分类器集成算法.2. 2 知识线记忆理论知识是如何表述、 存储、 提取、 使用的? 心理学中的知识线记忆理论尝试回答了这个问题. 每当你“有一个好主意”, 解决了一个问题时, 你就会创建知识线来记忆它. 知识线会与被激活的思维智能体相联结, 之后当你再次激活此知识线时, 与这个知识线联结的智能体就会被激活, 使得你进人之前解决问题时相似的“思维状态”. 这就让你在解决新的、 相似的问题时, 感到容易一些. 这就是知识线的基本理论.此处引用《心智社会》[ 5 6 ]中提到的一个例子: 当你想要维修一辆自行车, 在你开始之前, 先将红色油漆抹在手上. 这样你所用过的所有工具都会有红色的记号.当你修好之后, 只要记住红色标记表示“有助于修车”, 下次你再修自行车的时候就可以节约时间, 只需要把涂了红色标记的工具拿出来就可以了.这里的红色就是知识线, 工具就是思维智能体. 如果你用不同的颜色标记不同的工作, 有些工具最后可能会有不止一种颜色. 每个智能体可以和多个知识线相联结.当问题来临, 只要激活问题相关的知识线即可.知识线理论阐述了人类构建记忆和使用记忆的过程, 是心理学中对人类行为的一种基于经验的解释, 是目前比较被认同的一种猜想. 本文算法受到此理论的启发, 对其计算框架进行数学建模, 将知识线抽象成线性算子, 构造出新的多模型集成算法. 正如知识线记忆理论可以对人类行为进行解释, 类知识线的构造也赋予了本文算法较好的可解释性.3 知识线集成算法本节将详细介绍本文提出的知识线集成算法,首先3.1 节用矩阵建模了知识线集成算法并给出计算框架;3.2 节针对知识线理论中未知的复杂函数,给出了知识线集成算法中的定义;3.3 节、3.4 节中具体说明了知识线训练与推断的过程, 并给出了算法流程以及相关的描述与分析. 最后3.5 节中对算法的可解释性进行了说明.3. 1一般投票与知识线集成计算框架给定n个独立的?类分类器算子, 构成向量:C=,c2 ,…,c?), 对于给定数据特征x有其中, 表示第r 类分类器结果是否为_;, 且有=则分类器结果%eu,2,…,j出} 有=argmaxc?,1,2,…,(〇(2)按照“少数服从多数”的一般投票方式, 对每个分类器的结果进行公平的计数, 最终票数最多的类别作为最终的结果:y=argmaxI(yt=z),z=1, 2,? ? ?, w( 3)466 计導机攀报: _1苹其中.1( 0齿示性函数, 当自变量逻辑方真时緒果为1, 假时为〇. 在:式( 3 ) 中, 若第f 个分类器结果_v,等于 则结果为1: ,.否雍为〇.以上歲: Baggingf乘翔的做齒. 狼鑛‘Bagging方法的结论,当筹个分类器的结果错误率低于随机分类错误率时. Baggi ng得到结果的错误率低于拳一分类器的错误率坶值^且在《趋予无穷时Baggmg结果的错误率趋乎理论最小错误率.从统计学ll!) 角度丰看, 上述方法有很好的理论保证.后续的众多研究也都是在其基础上改进的. 但是这些方法都H注重最终结果的正确?,却忽视了箕法的可解释性,根据心理学中的记忆理论, 人脑会根据需要,唤観一部分智能体进拧决章, 而具体应该唤靡娜些智能体, 由人脑之前的记忆决定, 而本文受到此理论的启发, 将多分类集成的过程嵌人到知识线忠忆理论的框架下,得到知识线集戚算法计算框架如图3掰示?□激活y图3 知识线集成算法计算框架A=., 仏6{〇,1} , ^1,…,"( 5)若az=l 则表示第z‘个知识线I被激活. 最终不同分类结果的分值 (^,52 ,…, &)=AK*C( x)即aiT ^7*7*7*^々1 1々1 2…泛l vCl(x)'a2 knk^2?? ?kzvc2(x)ATi…々二Cv{x)其中,1T为K每行经过标准化后的结果, 且有%=心/IX- 雜分类结果为jaigmaxS? .1 ^ 〇〇(7)从式(6) 可以看出. 知识续集成算法本质上是一种加权集成的做法4且与传统加权集成算法不同的是, 本奪法中的权童矩阵K是通过模拟知识线记忆痤论中记忆更新迭代的方法得到的, 这使得它可以进行羣申霄前可解雜性:方面的分析? 具#将在后文进行讨论.3. 2 知识线的计算知识线集成算法的计算框架a羟在3. 1 节中详细说明, 但是如何计算知识线矩阵k中的元素匕以及激活向量A中的元素 还未定义. 实际上知讽线理论对宁知识线的激活以及计算单元的激括何题也只给出了逻辑表述而缺乏具体箅法, 本文本着计算简单?有效K符合知识线遅论中相关_述的原则, 对知识线这部分的具体内容与计算方法迸行了设计.计算長中的分类器算子Q.扮演翁知识线记忆理论中的计算单元, 它冒以提供最基础的决象知识.层中的 代表知识线理论中的知识线, 它与计箕jt中的计算单元相联结,#当前存在戶个知识线》则它的形式为其中Ae: 0,1丨.示第^个知识线暴否徵活第J 个分类器, 若心=1,则表示激活s当接收到数据特征X时, 根据知识线理论中的表述,R有与间题相关的知识线应诙被激務, 园此激活层A的目标是对知识线进行激活, 它的形式表达如下:3. 2. 1WMW计算层中计算单元的激活由与其联结的知识幾控制, 若第i 个知识锞与第i 个分类摇联结则會h否则h=〇. 根据记忆理论, 当遇到充法解决的问题时. 大脑不断尝试激活不同的计算单元子集;直到找到解决该何题的子集后,使用一^智能体与本次激活的计算旱元相联结, 从而构建一个知识线.即. 找到一个集合C卞! ^ ,”?, H吏得以下条件處: 立:^x"^argmaxICg—■argxxx&xei(x)i,f^C8)=c ̄ee}='_中, 》,=1,2, , …,c〇.,ys为正确的类别? 因为勝有分类器的集合较大, 且随机采禅撙到的C/不能保证结果班确性, 所以此处令=C*, 且对于 C%,=argmaxKJT)=_ 这样即可保证结果的E确性, 从于思皓等: 基于知识线记忆的多分类器集成算法 46 73 期而避免低效的重复采样.3.2.2 知识层激活当使用知识线集成算法进行推断时, 激活层将选取部分知识层中的知识线进行激活, 即计算 根据知识线理论的描述, 知识线是根据某个特定问题产生的, 之后若遇到类似问题, 此知识线将被激活.在本文算法中, 当知识线 为了记忆样本 而产生时, 此样本的类别>也同时被记忆.当对新的样本X'进行推断时有:at=I(yk=argmax(/;! C(x,) ) J(9)1z其中, 《?) 为示性函数, 当自变量逻辑为真时结果为1, 假时为〇. 在式(9) 中, 若知识线t判定X'与'有相同的标签则被激活. 知识线先所联结的分类器构成了类别 的印象, 若在同样的映射下 得到相同的结果, 说明Y与'具有相似性. 因此, 式(9)的是符合知识线激活描述的一种激活方法.3. 3 记忆的产生知识线集成算法主要包含三部分, 激活矩阵A,知识线矩阵K, 分类算子向量C, 其中C如式(1) 的形式, 是提前训练完成的; A是基于K得到的, 而K中参数需要通过学习获得. 记忆的产生即知识线的更新, 也就是K的训练, 其具体算法如下:算法1. 知识线矩阵参数学习.输人: 分类算子向量C; 数据集Data输出: 知识线矩阵K1.初始化夂二⑦, 。,…, 0) ,九=(0)2. FOR(x, y)i nDataDO3. y=Inference(C, K,yK,x)4. IFy'^yTHEN5. k’=(J(xi(.x)—y.) ,…,I(.cv(.x)—y.)')T6. K=(KT\k/y,yK=(yK\ y^7. IFneedforgetTHEN8. k2 =argmi nPreci sion(^)9. K= (h,…, t ;!,是出,…, 心前)Tl〇.yK=(.yh,-, yh l, yh+l,-, y%J11.ENDIF12.ENDIF13.ENDFOR14.RETURNK训练伊始, 模型不存在记忆, 此时K中不包含有效信息,当遇到问题时, 若此时依靠知识线无法推断出正确答案, 则需要参考正确答案. 算法1 第5 行中的KO为示性函数, K^(x)—_y)=l 则表示第*个分类器结果正确. 这样得到的f即可满足式( 8)的要求. 将f添加到K的最后一行并记录知识线V所对应的类型_V , 即完成了一次知识线的更新. 经过一段时间的迭代后, 知识线矩阵中已经储存了一定信息, 此时若推断错误有两个原因: 其一, 现有知识线尚未覆盖当前问题, 所以依旧需要执行上述更新记忆的操作; 其二, 现有知识线中存在精准率较低的特例知识线, 它严重影响了整体集成的效果, 这个问题则需要通过遗忘来解决.在遗忘过程中, 模型会按照给定概率^删除一条知识线如下:N^]l(yi^yk^ yk, ^yk)lz^argmi n^ ̄^(10)k^Ki i其中, N为样本总数,JO) 为示性函数, 表示被错误激活的知识线集合即集合内元素被激活但所对应的类别是错误的, 表示知识线& 对应的标签,表示知识线& 对第z 个数据判断的结果, %表示第z个数据的真实标签. 式(10) 可以更直观的表述为kf—argminPrecision(k)( 11)keKA即在犯错的知识线中找到精准率最低的知识线进行删除. 不妨设f在知识线矩阵k的第z 行. 所以经过遗忘之后的知识线矩阵为(々!,…,々「!,々! +1,…,々K)T(12)由于激活操作的存在, 本算法实际上使用了二分类器集合来判断样本是否属于某特定类别, 并通过投票解决多分类问题, 因此当解决W分类问题时, 目标函数可设置为最大化i?:R=precision,Jrrecalll ( 13)对于类别为_; 的单个知识线, 它只对所属类别的精准率即^?ecwwwq以及其他类别的召回率即内起作用. 此知识线精准率越高则本身所属类别精准率越高, 且对其他类别的召回率负面影响越小. 特别地, 当精准率为1〇〇%时, 此知识线仅对自身类别样本的推断提供正确信息且完全不影响其他类别. 单个知识线的高召回率可以有效减少知识线的必要数量, 但并不是单个知识线的必要目标. 精准率是单个知识线唯一需要考虑的目标, 且精准率越高效果越好, 所以在遗忘知识线时采用贪心算法,留下精准率更高的知识线. 在保证高精准率的情况下, 增加知识线的过程则可近似成用贪心法解决集合覆盖问题的过程. 无法正确推断的样本相当于未468 计 算机 学 报 2021年覆盖的元素, 模型添加至少能解决此样本的知识线,相当于覆盖问题中增加一个至少包含此未覆盖元素的集合. 因此随着训练迭代, 知识线集成召回率将逐步提局.3. 4 记忆的使用不管是使用知识线集成完成测试, 还是训练中判断记忆是否可以解决问题, 都需要使用知识线完成数据到类标签的映射. 记忆的使用即推断的过程,具体步骤如下:算法2. 知识线集成推断 函数.输人: 分类算子向量 知识线矩阵K, 知识线类别标签&; 数据特征I输出: 推断结果:/1. =argmax(^C(x) )2), z=1,2 ,? ? ?, Kro w1z2. Cti^ CL2)* * *) )3. K*^rownormalizi ngK3. S=AK^C(x)4.3/=argmax “=1,2,…,> Sc〇 i5. RETURN3/根据式( 9) 得到激活矩阵A, 根据式(6) , 得到不同类别的分值S, 其中分值最高的类别则为推断结果. 若存在多个类别分值相同则随机选择其中一类输出.3. 5 可解释性在知识线矩阵训练的过程中, 可以记录产生记忆时被激活的分类算子集合G、被记忆数据的特征x和标签_y, 这些是知识线可解释性分析的要素, 因为Vc,eG,c,( X)=_y, 若q连续, 则有A( x+S)=_y当s— 0 时成立, 所以知识线包含了“形如x的数据标签为,的信息.当一个新的数据Y需要被推断时, 知识线会使用G来判断,的标签是否为_y. 这实际上是一种类似谱聚类[ 5 7 ]的过程, 如果G可以把V映射到标签_y, 则说明V和^在<^关注的特征上距离较近, 所以Y和x之间存在着一定的相似性.因为在记忆中存在着和新数据Y相似的数据x,所以模型做出了Y的标签可能是_y 的推测. 由于记忆是丰富的, 可能有多个知识线被同时激活, 所以最终的结果由知识线投票产生, 而结果的票数则可以反映X'是每个类别的可能性. 被激活的知识线也代表着曾经出现过的与Y相似的样本, 最后的结果可以认为是立足于样本进行的投票, 而不是像已有的方法是立足于模型进行的投票. 由于类似的样本大部分是某个标签, 所以算法推断样本是这个标签.知识线集成算法把学习和推断的过程显式的表达了出来.以手写数字识别为例, 模型通过见识各种不同的数字, 并记下曾经不认识的形状应当是什么数字.不仅如此, 不同的人写字的风格不一样, 当模型无法用标准的0?9 进行判断时, 也会逐渐学会各种不同风格的同一个数字. 根据经验,1 和7 经常容易混淆, 那么假设当模型经过足够训练后, 现在需要推断一个长得又像1 又像7 的图片到底是哪个数字, 已有的集成方法给出解决方案却不会给出原因, 而知识线集成可以提供很多类似的图片, 并通过统计不同类别图片出现的频次反馈给用户结果. 虽然知识线集成也是将分类器进行集成, 但是中间过程却可以抽取出样本作为推断依据, 让整个过程有理有据.就推断过程而言, 知识线集成有着与K近邻算法相似的可解释性. 但是知识线集成可以进行更丰富的分析. 知识线数量作为模型的参数, 可以量化问题不同粒度下的难度. 比如, 单个类别的难度可以由不同类别的知识线出现频率量化.容易混淆的类别可以使用被遗忘知识线的混淆情况量化. 每一个测试样本的难易程度, 可以用被激活知识线的种类个数量化. 结果的可信度可以用知识线激活的类别占比量化. 由于引人了知识线, 这些原本难以直接通过模型参数评估的指标, 都可以使用最基本的古典概型诠释.4 实 验此章节对本文实验所用的数据集、实验的方法做出了介绍, 并对实验结果进行了分析.4. 1 数据集Wine、Statl og. ( Heart )、Wal l Fol l owi ngRobotNavigati onData、 Ecoli、 GlassIdentification、 BalanceScale、Iris、 Seeds、 Contracepti veMethodChoice、Connecti onistBench( Sonar,Mi nesvs. Rocks) 均是加州大学欧文分校机器学习数据库中经典的分类数据集. 它们提供样本多维特征以及相应类型标签,可用于测试分类模型算法性能. 实验是在随机划分数据集的80%作为训练集, 20%作为测试集下进行的. 在下文中, Statl og.( Heart ) 简称为Heart , Wal lFol l owingRobotNavigati onData简称为Robot ,GlassIdenti ficati on简称为Gl ass,Bal anceScal e简于思,f: 基T知识线记忆的攀 戚霄_ 46?1248163264128256512知识线数量圓4 激设儀獄量与正疏率的併结果可见, 知识线集成算法在多个数据麗上表现最佳,. 且在大部分数据集上;不存在显著不足>可以认为知识线集成算法在不讨论可解释性的情况下,眞费类正猶率与其食黧成算法秦现在同一水平线上^ 在此基础之上, 引人知识线概念为知识线集成算法增添的可解释性成为了其相比于典他算法的优势厂&雜_, 后文重点讨论?也3; 2 记忆的作用随着模型遭遇无法解决的问■題\知识线被建立,樣型能力逐渐提高,图4 所示为Faslnon数据集上的实验结果’3撰称漁Bal an&e, Coi itrace|):ti v#祕etli&dChoifrfe简称为GMCs Conneoti oni stBench(Sonar #Minesvs.Ro.cks3筒称为Sonar.MNIST数据集是一个常用的手写识别数据集. 它的每条数据. 是7S4 维的#征, 1 用f表示一副28,28 尺寸图并華个像愈的灰度僮r标籍为〇?啓的数字:,用来表示图片对应的手写阿拉伯数:字? 此数擬論拥有TO〇〇〇.个:圈片样本, 其中训__SM0O个,瓢纖1〇〇〇〇 个.Fasii miMNIST__是一个时眞祕:緯别识别数据集, 以下简称Fashion, 它的维度s 尺寸,数据集大小与MNISf完全一致, 总共十类t? 表示了恤/上衣 表零裤子, 2表球拿头衫*3表尔_衣裙,4 蠢承大农5|: 裹示凉■表示#衣, 7蠢示运: 动鞋,8表示包,! ? 表示高帮鞋? 其中每个裘别时样夺数羹翻同?4, 2实验设置本文模遽仅对内存有一定. 要求*数据. 集越太, 分类难度越高. 所需要的知识线存储空间越大. 本文实_膚求至少ieGB_眷.用于对比的X近邻、 朴素贝叶斯^s]、 逻辑_归[5 9]是传统的非集成分类模型, 随机森林、AdaBoogt、GBDT[ 6 0]是经典的集成学习分类模型, 00集成[6 1 ]是迤择性集成的典型做法,它根据结果方向为不同样本选择不苘分类器子集迸行决策.特别地,00集成和知识鱗集成在所有数据業上均使用与随机森林相词的决策树集合作为基础.对于Fashion. 数据集上的可解释性相关实验, 知识线集成了1G0个决策树分类器》 且所有决策树均为随机抽取Fashion数据集中的2〇000 个随机样本的100 维随机特征训练得到的.另外, 知识线集成中时遗忘概率对实验结果有一定影晌. 苹文基于大量调优实验,使用待删除知识线的精拿率作为放弃遽忘猶概;4. 3 分类性能实验与分析钿识线集成算法适用宁任何种类的分类器成员. 在本文实验中, 仅对决策树作为分类器成员进行了验证与讨论.4. 3. 1逆_率对比知识线集成算法作为一种新的多分类器集成算法, 在不祠数摒集上%传统分类算法以及經典集成倉総痕疋瑜宗对比如_1 所示.表1 分类正确率数据集 K近邻 朴素贝叶斯 逻辑回归 AdaBoost GBDT 随机森林 00 知识线Wi ne0.63 89 0. 97220. 94440. 97220. 97220. 9653 0. 97920. 97 22Heart 0.62 92 0.8148 0.7778 0. 8519 0.6852 0.8519 0.83330. 8519Robot0.86080.5339 0.6914 0.9918 0.99180. 9890 0. 9908 0. 9918Ecoli 0.86760.7059 0.73530.66180.794 10.83820.82350.8235Glass 0.6977 0.4419 0.5116 0.5116 0.720 9 0.8140 0.8372 0. 8605Balance0.7680 0.8400 0.80800.87200.8320 0.7920 0.7920 0.7680Iris 0. 90 00 0. 8667 0. 8000 0.9000 0. 8 667 0. 8667 0. 8778 0. 8667Seeds 0.8810 0.8810 0. 88100.6429 0.857 10.8631 0. 8810 0. 8810CMC 0.5627G.4881G.51530.53900.5864 0.5559 G.57630.54 24Sonar 0.80 95 0.5476 0.7619 0.7857 0.9048 0.8691 0.83330.84 52MNIST 0. 96680.5558G. 91730.7299 0. 94870. 9640 0. 96380. 9632Fashion 0.85 770.58560.83740.54250.8 682 0.8715 0.86860.87 101.0.0.0.0.0.0.0.0.0.齋雷470 计導机攀报: _1苹其中第1类情况在荚验中授有发玺, 第4类仅在测试中发生了1 例, 所以后_不再迸行讨论?为了进一步探讨知识线集成提炼问题难点的能力, 本文对.属训练测试虜74_情况 : 秦4. 4 可解释性实验与分析由宁知识线; 象成算法中的知识錢是基于心理学中的知识线记忆、 理论设计的, 这为我们理解模塑,解释结果提供了思路?4. 4.1样本难虚提取多个知识线同时被激括时, 最终结皋存在以下秦种情況:( 1) 没有知识线被激活, 表示模型认为没有见过类似6辦本?( 2) 所有被激活的知识线投票一致, 这种#况得到的结果有■更高的置信度,(3) 所省被激活的知识线投票不一致s但是有某个类别胜出?(4) 所有被激活的知1R线投票不一致* 且#. 终出现至少两个类别平票的情况. .以Fashi on数据_: 上的实验为例? 对于训练燊和测试集,最终这4类情况发生的分布如图7所示.1248163264128256512知识线数量?8FssJilsm概试論分_: 奸价磨标是有=4、 幅增幅的. £12 个知识线相对于16 个知识线, 在训练燊上苺筒率增长了1.0&%, 精准率蹭长了1.01K; 在测试集上召回率增长了〇. 辟%,稽准率: 增長mAK? 宴验中的具体数傅胃ft附嫌1 中查看*1.0随着知识线増加, 模型嚴确率不断提脔1且趋于平稳?当知’识线数鸶小于类别數时. 新增知识线总对应尚未接触过的类别, 所以模盡能力增长较快.胃.知识线数量超过类撕数后, 正瑜率増长缓優. 此时模型已经攀握不词类别的大致情况,, 想要进一步提高正猶率变键菌_邊蔡食_:_知轵魏_刻嶺:盧多细节.S12个to识錢相对于16个知识錢,训雜?上正翁季提高T〇.邸%, 测试集上庄'确率提高了1.08%_4. SU 收:敛就程分类间题中精准率和召回率是一组存在矛貭的指标■ 当使用贪心决策, 若錄望溽到尽量高的精准率, 召回率则不'可避免的变低, .反之若希望得到尽識离的茌回率, 精准率则会受损? 而知识线集成算: 法将这商个損标分割到两个不同的部分, 作为各自的主嫛优化目标, 在一定程度上缓辦了这一矛盾; 知识魏个体作龙解决问题的核心#元,, 它的目标是拥有尽橐高的精?隹率. 类似于人脑中的记忆, 当人类面临一个问题》 并不会激活所有E忆, 而是激括能切实:解决问题的记忆. 知识线. 集成算法与此是一致的, 当知识线11十拿九稳”时才被激活, 即知识线分类的精准率5高? 图5 所示为在Fashion数据_的训练集上的实验绪果.1.00. 80.21248163264128256512知识线数量图5Pashisaflf 翁裏:势_齊掛搢葡Ifi如上文所述S虜着谁率是基础,从■S可爲知识层中的知识线精准率均值一直处于较裔水平, 在知识线数量较少时, 随養知识线数量时增加, 精准拿有下降趋势. 但由于遗忘机制的存隹? 箱准率较差的知识线将被删除. 所以后续整体的精准率又有所提升就召JIT率而言, 随着知识线数量的增力口, 更多不貢种类的问题被解决*整体的召回率水平逐渐提升. 最终模蓮的召回率、精准率、F1 在训练集上非常接近: ?圈6 睛示'了两一t妻验中测试集上的表现? 宵以膏出,结讼与训练集上保持一致.雷粟注意的是,S知识线数量大宁类别总数后. 召回率与精准率第1类N第2类0第3类■第4类.8i.4.20.0.0.0.I^lo于思,f: 基T知识线记忆的攀 戚霄_ 47 1 3 期于不同. 区域的样本在知识线集成与随机森林中的表现进行了对比》 如表2所示表2 特定类别正确率随机森林 知识线集成第2 类/麗 第3类/|f 第2 类/麗 第3类/a训练 99. 96 81.39 训练 99. 96 84. 19测试 94. 9756.37 测试 94. 97 56.16根据之前的定义,第2类表示激活的知识线在决策时答案犛一致的, 而第3类则说明有多种类别的知识钱被激活. 直觉上来说, 第S类的样本难度是比第2类高的. 表2中的实验结果也与直、觉相符,在第3类样本上, 随机森林与知识线集成出现了较大的何题, 可见本文方法使用激活知识线的情况为测试祥本划分类别, 可以提炼出更有难度的样本即第3 类样本屯4. , 2类别难点省. 化以Fashi on数据集上的实验为例, 表3中展示了训练完毕后每个类别的知识线数量与不同算法在溉试集每个_剗上=的正1角率.表3 各类别知识线数量与正确率类别 知识线数量 知识’线集成/ %'随机森林/%'K近邻/%'0123456789第6 类知识线数量相比于其他类别明显更大,而随机森林和知识线集成在第6 类上的, 正确率水乎明显低于其他类别, 可见这一类别难度较窩, 而東进一步的计算相关系数, 知识线数量与知识线象成备类别正确率的相关系数为 〇?82, 知识幾数趣与随机森林各类: 刺正确率的相关系数为 〇?92. 此处使用的知识线集成与随机森林是进一样的100 个决策树作为分类器成员得到的, 为排除成员本身质量的影响, 此处还对比了直接由样本进行推断的K近邻方旗表中结寒为Cosinfc摩i 离隹_K=4.时的结果f此绪巣悬遍嵐了等f1 至It?,.分别健, 增Cosine距离与欧式距离测试、后得到的最好鍩果. 经过计算f知识线数量与K近邻分类器各类别E确率的相关系数为一〇.SS, 可见知识线数量有一定量化类别难度的能力.植得一提的是知识线数量与知识线集成络果的相关度更低, 这表明知识线集成算法在象现问題难家后会努力将其ft决, 因此第<5 类知识幾数識较大的同时知识线集成算法在第6类上的正输傘也显薯高于其他方法.4. 4, 3易氍淆难点量化知识线隹成算法在训练、过程中. #在记忆遗忘的机制. 根据遗忘的规则, 被遗忘的知识线必然存在将两类混淆的情况? 虽;然遗忘的过程具有一定的随机性, 但是若假设类A与类B混淆的概率大_于类A与类C. 棍淆的概率. 那么混淆A与B的知识线数量将大概率大于混淆A与C的知识线数量*若个体被遗6椹率賴晴識淆A与B的知'识翁被邋:忘的?串期望大于混淆A与C的知识线、 .3此被遠忘知’iH线的犯错情况可以用来量化问题中容易混清的类别.以FaAi on数据集上的实验为例, 统计知识线被遺蝱时的犯错原H并进行可视化得到图8? 其中坐标(?〃_/) 的灰度值表示将第 类错判成第j 类的犯错相对频率, 颜色越深表示频率越高.0 1 2 3 456 7 8 9厲8養興_議率育■化从M8 中可以发现模遵容易把6-衬衫混淆为0-了恤、於套头衫▲太衣,由此也可以參择在: 442节中发现的第6 类难度较大的凰因《另外, 用遗忘知识线的犯慑障况来量化类别間易混淆程度, 结果符合直观预 〇、S、S、4、6 之间睿易混淆* 西为这些类别都是衣服. 它们不容易和 这凝类混. 淆, 因'龙要分辨衣服和鞋子舞容易的? 而这之中1-裤子, 8-包和其他类剁想襄区分并直观上也是容易的? 这也是第1 类分类疋确率高. 达9S%, 第8类分类疋确拿高达9SM的原因.4. 4, 4 推断怔据提供:知识线集戚算法癌一种从样本推断样本的算法模型, 所以不论结果正确与否, 模型都可以提供依据,472 计導机攀报: _1苹由之前的实验可1以发现知识线算法易于分析* 可以有效的将问題难点提炼? 以下, 使用实验中Fashion数据集i的一个真銮钶子来吏龙直观的展示知识线集:成算法提供推断怔摒的能力.正Jfl3肀中所讨论的, 知识线集成算法可以显式的呈规判断的过程, 当图9 的特征输人擦型, 有162 个知识钱被成功激活*其中41 个关宁2 套头衫的知识线被激话》 27 个关于4-大衣的知识线被激活, 94 个关乎《-衬衫的知识钱被激活, 被激括的知识线对应的样本每类抽取了3个. 如图10 所录.图9 被推渐的_片(健签#: g 衬衫t表现i争憬可参考附录2.5 总 结本文针对多分类器系统中的集成策略进行了研究; 结合心理学中的知识线记忆理论, 提出了一种拥有较强可解释性的多分类器集成算法, 称为知识线集成算法. 此算法根据历'史解决问题的记忆构建知识线记忆矩阵, 最终使用样本相关的记忆解决问题.推断新问龜时》 此算法可以找到训练#本中和此问題相似问題的解决方案, 显式地呈现集成模遨推断的过涯并给出结论的依据. 知识魏集成算法不仅拥有良好的分类性能, 坯苽以逋过知识线的创建、 遗忘、激活情况握炼问题的难*, 进行更具W解释性的分析实验与数据相关性挖掘?参 考 文 献嫌10 被織澈韵》识雜对座餘参本( 三f分别为:2 馨头餐* 心大衣》#衬衫)可以眷出, 这些记忆和输人的图片是有一定相似性的, 也就是说, 当测试集向模型展示新的图片时, 模型商忆了过去所遇到过的类似图片.因为类似的a片大部分都是6-衬衫, 所以根据绿验*顧9的标签也虛: ■暴8 , 且概率为§ 4 /152 ?这种从训练样本中找依据的做法, 和K近邻的做法相似. 但&知识线集成箅珐中的知识线越多则效果遲好, 旦经过训练, 知识线的数量也会趋宁稳定? 而K近邻则_要选择合适的 另外, 知iH线燊成:算法相对于K近邻有翁更强的分类能力, 在Fashion数据集J:, 知识线集成算法测试集上的分类正踰率对以达到S7.31 %, 而K近邻在K取1?1〇〇 中, 使用Cosine 距离所能达到的最高值8&90%在:K二4时取得,使用欧式距离能达到的最:离值版 在K=4 时取得?K近邻算法的具体[1]Wolpert DI I, MacreadyWG. Nofreelunchtheoremsforoptimization. IEEETransactions onEvolutionaryComputation,1997,1(1);67-82[2]NeumannJV. Thecomputerandthebrain. AnnalsoftheHistoryofComputing,1958 ,11(3) : 161-163[3]ChowCK. Statisticalindependenceandthreshold functi ons.IEEE TransactionsonElectronicComputers, 2006 , EC_14(1):66-68[4]Doshi-VelezF, KimB.Towardsarigorousscienceofinterpretablemachinelearning. arXiv?2017 , 1050:2[5]CoverT, HartP. Nearestneighborpatternclassification.IEEETransactionsonInformationTheory,1967 ,13(1):21-27[6]SuX?KhoshgoftaarTM.A surveyofcollaborativefil teringtechniques. AdvancesinArtificialIntel ligence,2009,2009:1-19[7]MinskyM. K-Lines:Atheoryofmemory. Cogni tiveSci ence,1980,4(2);1 17-133[8]WozniakM,GranaM,CorchadoE. Asurveyofmultipleclassifiersystemsashybridsystems. InformationFusion,2014 ,16 :3-17[9]Sagi0, RokachL. Ensemblelearning:Asurvey. WileyInterdiscipli naryReviews : DataMiningandKnowledgeDiscovery,2018,8(4): el249[10]LamL.Classifiercombinations:Implementationsandtheoreticalissues//ProceedingsoftheInternationalWorkshoponMultipleClassifierSystems. Berlin, Germany:Springer,2000: 77-86[11]RahmanAFR,FairhurstMC.Serialcombinationofmultipleexperts:Aunifiedevaluation.Pattern Analysis&- Applications?1999,2(4) :292-311于思皓等: 基于知识线记忆的多分类器集成算法 47 33 期[12][13][14][15][16][17][18][19][20][21][22][23][24][25][26][28]FumeraG?PillaiI , RoliF. At wo st ageclassifierwithrejectopt ionfort extcat egorisat ion//Proceedingso fthe JointIAPRInt ernationalWorkshopsonStatisticalTechniquesinPat t ernRecogni tion(SPR)andSt ruct uralandSynt acticPat t ernRecogni tion(SSPR). Berlin, Germany: Springer, 2004:771 7 79Bartlet tPL? WegkampMI I . Classif icat ionwit harejectopt ionusingahingeloss. JournalofMachi neLearni ngResearch,2 00 8,9(8) : 18 23 1840TermenonM? GranaM. Atwostagesequentialensembleappliedtotheclassifi cationofAlzheimer?sdiseasebasedonMRIfeat ures. NeuralProcessi ngLet t ers, 2012 , 35(1): 1 12ClarkP,Nibl et t T. TheCN2induct ionalgorit hm. MachineLearning,1989 , 3( 4); 261 283RivestRL. Learni ngdecisionlists. MachineLearning?1987 ,2 ( 3) :229 24 6FreundY. Boosti ngaweaklearningalgorithmbymajority.InformationandComputat ion,1995,121(2) : 2 56 285FreundY? SchapireRE. Adecision t heoreti cgeneralizati onofonlinelearningandanapplicationtoboost ing/ /ProceedingsoftheEuropeanConferenceonComput ationalLearningTheory. Berlin, Germany; Springer,1995; 23 37SchapireRE. Thest rengt hof weaklearnability. MachineLearning,1990, 5(2) : 197 227KivinenJ?Warmut hMK. Boost ingasent ropyprojecti on//Proceedingsoft he12 thAnnualConferenceonComput at ionalLearningtheory. Sant aCruz,USA,1999: 134 144TurnerK? GhoshJ. Analysisof decisionboundariesinlinearlycombi nedneuralclassif iers. Pat t ernRecognit ion, 1996 ,29(2) : 34 1 348BreimanL. Baggingpredictors.24( 2): 123 140BreimanL. Randomf orests.45(1): 532SkurichinaM, DuinRPW.randomsubspacemethodf orMachineLearning, 1996 ,MachineLearning,2001,Bagging,boost ingandthelinearclassifi ers. Pat t ernAnalysis&Applications,2002,5(2) : 12 1 135TremblayG?SabourinR, MaupinP. Opti mizingnearestneighbourinrandomsubspacesusingamultiobjectivegeneti calgorithm//Proceedingsofthe17thInt ernat ionalConferenceonPat t ernRecognit ion. Cambridge, UK,2004,1:208 211TingKM,WellsJR,TanSC, etal. Feat uresubspaceaggregati ng: Ensemblesf orst ableandunst ablelearners.MachineLearning, 2011,82( 3) :3753 97BryllR, Gut ierrez OsunaR, QuekF. At t ribut ebagging:I mprovingaccuracyofclassifierensemblesbyusingrandomfeat uresubsets. Pat t ernRecognit ion? 2003 , 36(6) : 12911302DuanK?KeerthiSS?ChuW?et al. Multi cat egoryclassificationbysoft maxcombinationofbinaryclassifiers//ProceedingsoftheInt ernationalWorkshoponMultipleClassi fierSyst ems.Berli n,Germany;Springer,2003: 125 134[29]KunchevaLI. CombiningPat t ernClassifiers: MethodsandAlgorithms. JohnWiley&-Sons,2014[30]RaudysS. Trai nablefusionrules. I . Largesamplesizecase.NeuralNet works?2006 ,19( 10) : 1506 15 16[31]RaudysS. Trainablefusionrules. I I . Smallsamplesizeef fects. NeuralNetworks,2006,19(10): 1517 1527[32]InoueI I,NarihisaI I. Optimizingamult ipleclassifiersyst em//Proceedi ngsof thePacificRimInternationalConferenceonArtif icialIntelligence. Berlin, Germany: Springer, 2002 :285 294[33]AlexandreLA, CampilhoAC, KamelM. Combiningindependentandunbiasedclassifiersusingweightedaverage//Proceedingsof t he15 t hInt ernat ionalConf erenceonPat ternRecognit ion. Barcelona ,Spain, 2000 , 2: 495 498[34]BiggioB, FumeraG? RoliF. Bayesiananalysisoflinearcombiners//ProceedingsoftheInt ernat ionalWorkshoponMult ipleClassifierSystems. Berlin? Germany: Spri nger?2007: 2923 01[35]Kit tlerJ?AlkootFM. Sumversusvot efusioni nmultipleclassifiersystems. IEEETransact ionsonPat t ernAnalysisandMachineIntelligence, 2003 , 25( 1) : 110 115[36]RaoNSV. Agenericsensorfusionproblem: Classifi cationandfunct ionest imation//ProceedingsoftheInternationalWorkshoponMul tipleClassif ierSyst ems. Berlin,Germany:Springer,2004; 16 30[37]ShlienS. Mult iplebinarydeci siontreeclassifiers. Pat ternRecognit ion,19 90 , 23(7); 7 57 763[38]WozniakM. Experimentswi thTrainedandUnt rainedFusers. Innovat ionsinHybridI nt elligentSyst ems. Berlin,Germany; Springer,2007; 144 150[39]WozniakM. Evolut ionaryapproachtoproduceclassif ierensemblebasedonweight edvoting//Proceedi ngsof the2009WorldCongressonNat ure&-BiologicallyInspiredComputing.Kochi,India,2009; 648 653[40]ZhengZ? PadmanabhanB. Const ruct ingensemblesf romdat aenvel opmentanalysis. INFORMSJournalonComput ing,2007, 19 (4) ; 48 6 496[41]Part alasI , TsoumakasG?VlahavasI. Pruninganensembleofclassifiersviareinf orcementlearning. Neurocomput ing,200 9, 72(79): 19001909[42]Rut aD, GabrysB. Classifierselect ionf ormajori tyvot ing.Informat ionFusion,2005 ,6 ( 1) : 63 81[43]WolpertDI I. Stackedgeneralizat ion. Neuralnet works?1992 ,5 ( 2):2 41 259[44]I l ashemS. Opt imallinearcombi nationsof neuralnet works.NeuralNet works,1997,10(4) : 599614[45]DuanZ?WangL. KdependenceBayesianclassifierensemble.Ent ropy,2017,19(12): 651[46]MahdianpariM, SalehiB, MohammadimaneshF,etal.Randomforestwetlandclassifi cat ionusingALOS2Lband?RADARSAT2Cband,andTerraSARXimagery. ISPRSJournalofPhot ogrammet ryandRemot eSensing?2017 ,130:13 31474 计 算机 学 报 2021年[47]MaghsoudiY,Colli nsM,LeckieDG. Polarimetri cclassifi?cationofBorealforestusingnonparametricfeatureselectionandmultipl eclassifiers. InternationalJournalofAppliedEarthObservationandGeoinformation,2012 ,19(Complete):139-150[48]SiamiM,NaderpourM,LuJ. Achoquetfuzzyintegralverticalbaggingclassifierformobiletelematicsdataanalysis//Proceedingsofthe2019IEEEInternationalConferenceonFuzzySystems.NewOrl eans,USA,2019:1-6[49]KoayA,ChenA,WelchI,etal.A newmulticlassifiersystemusingentropy-basedfeaturesinDDoSattackdetection//Proceedingsofthe2018InternationalConferenceonInformationNetworking. ChiangMai ,Thailand,2018 :162-167[50]Ala’RajM, AbbodM.Classi fiersconsensussystemapproachforcreditscoring. Knowl edge-BasedSystems,2016,10 4:89-105[51]TsaiCF.Combiningclusteranalysi swithclassifierensem?blestopredi ctfi nancialdi stress.InformationFusi on,2014,16(1): 46-58[52]IbrahimW*AbadehMS.Proteinfoldrecognition usingdeepkernelizedextremelearningmachineandli neardiscriminantanalysis. NeuralComputingand Appli cations,2018,(4):1-14[53]MalikF,FarhanS,FahiemMA. AnensembleofclassifiersbasedapproachlorpredictionofAlzheimer?sdiseaseusingImriimagesbasedonfusionofvolumetric,texturalandhemodynami cfeatures. AdvancesinElectrical&Computer附录1 .知识线数量与分类指标变化具体情况见表4.表4Fashion数据集参数20000-100知识线数量与分类指标详情知识线数量 着准率 翻率 FI1 0.9967 0.09930.18062 0.9937 0.1989 0.33154 0.9836 0.39630.565080 . 97710.78740.8720160 . 97850. 97710. 9778320 . 98060. 98050. 98061280 . 98180. 98170. 981825 60 . 98270. 98270. 98275120 . 9830 0. 9829 0. 9830YUSi-Hao,Ph.D.candidate.Hi sresearchinterestsincludereinforcementlearning,ensemblelearningandadaptivenetworks.GUOJia-Feng,Ph.D. ,professor.Hisresearchinterestsincl udeinformationretrievalanddatamining.Engineering,2018,18(1): 61-70[54]AnyosaSC, VinagreJ,JorgeAM. Incrementalmatrixc〇-factorizationforrecommendersystemswithimplicitfeedback//Proceedingsofthe2018WorldWideWebConference.Lyon,France,2018 :1413-1418[55]LogeshR,SubramaniyaswamyV,MalathiD,etal.Enhancingrecommendationstabilityofcollaborativefilteringrecommendersystemthroughbio-inspiredclusteringensemblemethod.NeuralComputingandAppli cations,2018,(5); 1-24[5 6]MinskyM.Thesocietyofmind.Personali stForum,1987,3(1): 19-32[57]NgAY,JordanMI, WeissY. Onspectralclustering:Analysi sandanalgori thm//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems. Vancouver,Canada,2002 : 849-856[58]RishI. Anempi ricalstudyofthenaiveBayescl assifier.JournalofUniversalComputerScience ,2001 ,1(2):127[59]FanRE,ChangKW?I lsi ehCJ,etal. LIBLINEAR:Alibraryforlargeli nearclassifi cation. JournalofMachineLearningResearch,2008,9(9):1871-1874[60]FriedmanJI I.Stochasticgradientboosting. ComputationalStats&-DataAnalysis,2002,38(4): 367-3 78[61]Martinez-MunozG,SuarezA. Pruningi norderedbaggingensembles//Proceedings ofthe MachineLearning,Twenty-ThirdInternationalConference.Pittsburgh,USA,2006 ;609-616附录2.K近邻算法正确率具体情况见表5.表5Fashion数据集K近邻表现具体情况K取值Cosine 距离/與欧式距离/%1 8 5 67 84972 8 5 4 1 84 603 8 5 64 85 414 95 90 85 775 8 5 78 85 546 8 5 80 85 447 8 5 5 9 85 408 8 5 42 853498 5 16 85 19108 5 2985 1511 8 4 7 6 849512?100 <8 5 10 <85 00FANYi-Xi ng, Ph.D. , assi stantprofessor.Hi sresearchinterestsincludeinformationretrievalandnaturallanguageprocessing.LAN Yan-Yan,Ph.D.,professor.Herresearchinterestsi ncl udemachinel earni ng,l earningtorankandinformationretrieval.CHENGXue-Qi ,Ph,D, ,professor.Hisresearchinterestsincl udenetworkscience,networkandinformationsecurity,Websearchanddatamining.于思皓等: 基于知识线记忆的多分类器集成算法 47 53 期BackgroundEnsembl el earninghasalwaysbeenanimportantbranchofmachinelearni ng.Justasunderthecooperationofmultipleorgans ,humanbeingscansurvive.Agentswhoaregoodatdifferenttaskscanformareasonablesystemtosol vemorediverseprobl ems.Forcl assi ficationprobl ems,themul ticlassifi ersystemfocusesonthe<4divideandconquer??concept.Itdecomposesthecompl excl assificationprobl emintomultipl esimpl esubprobl ems, andusesasinglemodeltobreakthemonebyone>andthenreasonablycombinesthesemodelstoobtainasolutiontotheorigi nalproblem.Nowadays , multicl assifierensembl ealgorithmsplayanimportantrol einvarioustasksandareimportantmethodstoimproveperformanc einmachi nelearningcompetiti ons.However, infi nancial ,securityandsomeothertasks, theinferenceresultisnotconvincingonlybyrelyingontheincompletedescriptionli keaccuracy.Thereasonforthemodelsdecisi oncannotbeignored.Theensembl estrategyusedbytheexistingmulticlassifiersystemcannotgivespecificreasonsfordecision makingduringi nference, andcannotexplici tlygivetrai ningsamplesthatareeffectivei ni nferencelikeKnearestneighbors,col laborativefiltering[andothermodels]. Infact,intheresearchofpsychology, theknowl edge linememorytheoryexpl ainsthatpeoplewil lactivatethememorygeneratedbypastdatawhenmakingdecisions> anduseoldexamplesasabasistoguesstheanswerstonewquestions. Thispaperexploresthispsychologicalprocess , andproposesanewmulti cl assifierensembl estrategybasedontheknowl edgelinememorytheory, cal ledtheknowledge lineensemblealgorithm.ThisalgorithmhasbetterinterpretabilitythanKnearestneighboralgorithmonthebasisofguaranteeingtheclassifi cationevaluationaccuracy.Ininference,themodel canprovidesimilarsampl esintrainingasthebasisforthisinference.Notonlythat, duringthetrainingofthemodel,theprocessofi ncreasingcomplexityandthechangesinvariousaspectsofcapabilitiesareal lexpli citlydi splayed. Inthetrainingprocess ,themodelcanextractthedifficultpointsoftheprobl em, suchasacertaincl assofsampl ethatisdifficul ttodoright, andsomesubsetsofcategoriesthatareeasytobeconfused. Duetothei ntroductionoftheknowl edge line ,thesedifficul tquantificationisnowavailabl etobedescribedbytheactivati on,forgetting, andcreationfrequencyoftheknowledge lines. Theseindicatorsimprovethei nterpretabilityofthemodel ,al lowinguserstoconductamorespecificanalysisoftheprobl em.

[返回]
上一篇:融合语义信息与问题关键信息的多阶段注意力答案选取模型_张仰森
下一篇:基于纳什均衡的智能合约缺陷检测