基于知识线记忆的多分类器集成算法 |
来源:一起赢论文网 日期:2021-11-25 浏览数:972 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第44 卷 第3 期2021 年3 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No. 3Mar. 2021基于知识线记忆的多分类器集成算法于思皓中国科学院计算技术研究所网络数据科学与技术重点实验室 北京100190)2 )( 中国科学院大学 北京 100190)3)( 烟台中科网络技术研究所 山东烟台 264005)摘 要 多分类器系统作为混合智能系统的分支, 集成了具有多样性的分类器集合, 使整体得到更优的分类性能.结果融合是该领域中的一个重要问题, 在相同分类器成员下, 好的融合策略可以有效提升系统整体的分类正确率.随着模型安全性得到重视, 传统融合策略可解释性差的问题凸显.本文基于心理学中的知识线记忆理论进行建模,参考人类决策过程, 提出了一种拥有较好可解释性的启发式多分类器集成算法, 称为知识线集成算法. 该算法模拟人类学习与推断的行为, 组织多分类器结果的融合. 在训练中, 模型收集给定分类器集合的不同子集, 构建不同特征空间到解空间的映射, 构成知识线. 在推断时, 模型启发式地激活知识线, 进行选择性结果集成, 得到推断结果.知识线集成使用样本驱动的模式, 易于进行中间过程与最终结果的分析. 以决策树作为分类器的实验表明, 在相同的决策树集合下, 知识线集成算法分类正确率与随机森林相仿. 在此基础之上, 知识线集成算法可量化问题不同粒度下的难易程度, 且在推断时能提供相关训练样本作为依据.关键词 多分类器; 知识线记忆理论; 启发式; 样本驱动; 可解释性中图法分类号TP3 93DOI号1 0.1 189 7/SP.J.101 6.2021.00462MultiClassifierEnsembleAlgorithmBasedonKnowledge-LineMemoryYUSi Hao1) ,2)GUOJia Feng1) ,2)FANYi Xi ng1)LANYanYan1) ,2)CHENGXue Qi3)1 :)( KeyLabof Net workDataSci enceandTechnology?, InsLi LuL e ofComput ingTechnology?, ChineseAcademyofSciences ?Beijing100 190 )2)( UniversityofChineseAcademyofSciences?Beijing100190)幻(JnsL i LuLeofNetworkTechnology1CT(YANTAI)CAS, YanLai , Shandong264005)AbstractMul ti cl assifi erSystem,abranchtechnol ogyofHybri dIntel l igentSyst em,i ntegratesmanycl assi fierstoapproachhigheraccuracy. Becauseoftheli mitati onofcomputi ngresourceandthequalityofcl assi fiers,cl assi fiersfusionisani mportantprobl emi nMulticl assi fierSystem.BetterfusionstrategycanreachhigherperformanceofwholeMul ticlassi fierSystemunderthesamewel l trainedcl assi fiermembers. Thetraditionalmethodshadtriedmanyfusi onstrat egiessuchasnormalvoti ng,weightedvoti ngandfusionfuncti on.Asthemodel sdevel oped,thecl assi ficati onaccuracywenthigher. Butthesemodel sonl ypai dattenti ontocl assi ficati onaccuracyandpai dlittl eattenti ontoi nterpretabilitywhichisani nevitabl eprobl emwhensafetyofmodelwasconcerned.Thi spapertakesavi ewofhumandeci si onmaki ngandpresentsanewmul ticl assi fierensembl ealgori thmnamedknowl edge li neensembl ewhichbasedonknowl edge li nememorytheorydescri bi ngtheprocessofhumandecisi onmaki ngwithmemory. Inordertogetthe收稿日期:20191010; 在线发布日期:2020 0915. 本课题得到国家自然科学基金项目(61722211,618723 38,6 1902381) 、 北京智源人工智能研究院CBAAI20 19ZD0306) 、 中国科学院青年创新促进会(20144 310) 、 国家重点研发计划(2016QY02D0405) 、 联想中科院联合实验室青年科学家项目、 王宽诚教育基金会、 重庆市基础科学与前沿技术研究专项项目( 重点) (cst c20 17_jcj yBX()()59) 和泰山学者工程专项经费( ts201511082) 资助. 于思皓, 博士研究生, 主要研究方向为强化学习、 集成学习、 自适应网络. Email: yuSiha〇@ict .ac.cn. 郭嘉丰, 博士,研究员, 中国计算机学会(CCF) 会员, 主要研究领域为信息检索、 数据挖掘. 范意兴, 博士, 助理研究员, 主要研究方向为信息检索、 自然语言处理. 兰艳艳, 博士, 研究员, 中国计算机学会(CCF) 会员, 主要研究领域为机器学习、 排序学习、 信息检索. 程学旗, 博士, 研究员, 中国计算机学会( CCF) 会员, 主要研究领域为网络科学、 网络与信息安全、 互联网搜索与数据挖掘.于思皓等: 基于知识线记忆的多分类器集成算法 46 33 期i nterpretabilityli kehumandecisi onmaking,knowl edge li neensembl ealgorithmi mitat esthel earni ngandi nferenceprocessesofhumanaccordingtothepsychol ogi caltheorydescripti on. Intrai ni ng,themodeltriestocreatememorycal l edknowl edge li neli kehumantostorememoryaboutsol vingdifferentprobl emsandforgetmemoryl ikehumani nordertoavoidsinki ngintospeci albadcases. Knowl edge l i neandtrai ni ngsampl eareone toonecorrespondence. Knowl edge l i neisasubsetofgivenwel l trai nedcl assifierswhichcanresul ti nrightcl assi ficati ononthecorrespondi ngsampl e.Differentsampl esresul tincreati ngdifferentknowl edge l i nes,soaftertrai ni ng,themodel storesvariedknowledgel i nes. Theseknowledgel i nescreateasetofmappi ngswhichareusedtomapfeat urespacetoanswerspace.Ini nference, themodelchoosesasubsetofexisti ngknowl edge li nestoacti vatedependi ngonheuristicsrul es.Theseacti veknowl edge l i neswi l lwork,andvot etogetaresul t. Knowl edge li neensembl ealgori thmi saki ndofsampl edri venmethod,wheni nferri nganewcase,onl ytheknowl edge li nesbornwithfamiliarsampl eswil lbeacti vated.Itseemsthathumanbei ngsthi nkofsol uti oni nmemorywhensufferi ngfromtroubl es.Soknowl edge l i neensembl ealgori thmi susingsampl eddatatomakedecisi ons.Special l y,becausetheprocessthattheknowl edge li nememorytheoryusescomputi nguni tstoconstructknowl edgel i nesi ssi mi l artoaddi ngel ementstosets,i nordertodescri bethecalculati onprocessofthealgori thmbetter,thispaperusesmatricestomodelthisprocess. Theconnecti onrel ati onshipbetweentheknowl edge li nesandthecomputi ngunitscanberepresentedbyanadjacencymatri x,theresul tsofdi fferentcl assi fierscanbestoredbyacl assi ficati onmatri x,andtheacti vati onoftheknowl edge l i nescanbecompl etedi ntheformofthei nnerproductoftheresul tsofal lknowl edge linesandtheacti vati onvectors.Sothefi nalcl assificati onresul tcanbeexpressedi ntheformofmatri xmultiplicati on.Onthisbasis,thegoalandconvergenceofthealgorithmareexplai ned.Intheexperiments,thispaperuseddecisi ontreesasthegivenclassi fiers.Underthesamegi venclassi fiers, experi mentsshowedthatknowl edge lineensembl ealgorithmhadcomparabl eaccuracywithrandomforestwhichusesnormalvotingasi tscoordi natingstrategy.Morei mportantly,knowledgel i neensemblealgori thmcandiscrimi natethedifficul tyofi nferencecasesaccordingtotheacti vesi tuati onofknowl edge li nesandgi vespeci fictrai ni ngcasestosupportthei nferencewhichmakesitsresul tsmoreconvi nced.Keywordsmulticl assi fier;knowl edge li nememorytheory;heuristics;sampl edriven;i nterpretabilityi 引 言随着大数据时代的推进, 数据所蕴含的模式多元化, 机器学习算法需要解决的任务愈发困难. 在多变的任务中, 模型结构趋于复杂, 参数量愈发庞大.但是“没有免费的午餐”原理[1]是一个无法打破的枷锁, 它论证了单个模型能力的局限性. 若要有所突破, 多个模型的合作势在必行.正如在多个器官的共同作用下, 人类得以生存.擅长不同任务的智能体合理地组成一个系统, 就可以解决更多样化的问题. 混合智能系统[2]也是在这样的构想下被提出的. 在机器学习任务中, 分类问题与回归问题是重要的基础问题. 针对分类问题, 多分类器系统作为混合智能系统的分支在文献[3] 中被提出. 多分类器系统重点在于采用“分而治之”的理念. 它将复杂的分类问题分解成多个简单的子问题,分别使用单模型逐个击破后, 再合理地将这些模型组合以得到原问题的解决方案.如今, 多分类器集成算法在各种任务中扮演着重要角色, 也是机器学习竞赛中提升成绩的重要手段. 但是在金融、安全等任务上, 仅有分类正确率是不够的, 即使模型在测试集上的正确率达到100%,模型也依旧具有极大的可能在新的样本上给出荒谬的结果. 原因是, 仅靠类似正确率的一个指标, 只能做出现实世界中大多数任务的不完整描述[4]. 模型做出决策的原因是不能忽略的.现有的多分类器系统所使用的集成策略, 在推464 计導机攀报: _1苹断时无法绐出做决策的具体原因; 无法像K近邻?、 协同过滤[ 6]等模型一样显式的缋出推断时起作用的训练样本事.实上, 在心理学的研究中, 知识幾记忆理论[7]说明了人在Ite策时会激致过往数据产生的记忆*甩旧例子作为依据来推测新问题的答案.本文的贡献主繫有以下几点:(1.) 本文用鉅阵对知识. 线记忆理论的计算框架进行了数学曾模、r:2) 本变 合心邀学中的知识线记恬遒论提出了一种新的多分类器皇: 成策略? 称为'知识錢集成算法. 该算: 法具有良好可龢释性, 且分类正输.与现有集成分类算法保持在同一水平.(3) 该算法为使用者提供了丰富、 简单的模盤分析手段? 可以量化类别推断难度, 仿计类别、 祥本之: 间产生混籍的概辱.2 背景介绍与相关工作本文根据心理学中的知识线记忆理论, 设计了一套.氣发.式多分类器集成箅法? 本节将介绍多分类器系统的相关工作(参考文献[8,]) 与知识线记忆理论的背景知识,2.1 多分类器系统多分类器系统: &混脅替能系统中的一个童:要分亥, 旨'在集威多个模盤解决分类问题- 它的拓扑结构會厕种: 縫式鍺构与分#式绩掏_链式结构如图1 所示, 所有分类器成员有序排列, 数据从前到后逐个经过每个分类器. 分类器成员在训练中遂个产生5 每个新成员是在给定已有分类器与爾前集成绪果的条件下得到的? 链式结构主赛有两种运行模式. 第一种为数据传递型[ 1 ° 1 6 ]. 前置分类器接收到数据时, 计售铮到推断的结果并评估此错果的可信程度, 若可信度不足, 则把数据发送绐后续的分类器, 直到有分类器第出苽情结果* 这种方式有耆萌显的弊端: 分类器成员的数量难以控制、可偉虞难以评估, 被拒绝的绪果对后续分类器作用有限.因此,.第二种模式, 合作型, 也就是B〇〇sti ng[ l M'°]应运面生. 每个分獎器不再讨论难以评估的结果可信度, 而是直接使用监督擊习的方式找出推断错误的训练样本:? 分类器不再遂条数据进行训练, 而晕面向整个数据集, 根摒前置:聲类器的表现调整数据分布;推断结巣由所有分类器的加权和得到, 而不是完..全由:最后的分类器决定. 链鸯绪构下, 分类器之间必然会: 产生辍大: 相:关性, W本文主蘩研究:独重的分義:器集成方法>所以此处不再对链式M梅相关方法的发展进行更深人地讨论?L结果czj〉结果_1 縣式_歸__分布式的结构如菌之所示, 它要求分类器成見输人的数据相同.结果独立, 且分类器群体,具有多样性?文載[2i], 从统计学出发*论证了炁穷个无偏、 独立分类器的结果均值与綦佳贝叶斯分类器效果一致. 它说明了独立的多个分类器, 使用“少数服从多数”的投票策略进行决策是一种多分类器结渠融#的有效思路? 它对分布式多分类器系统的发, 提有着指导翥义. 分布式多分类器系统的设计主要是解斑两个问题: 其一, 如何'得到具有多样性且独立性较高的分类器集合; 其二, 如何将多个分类器的緒果融合成一个结果.针对第一个问癍,解洪方案可以分为商类, 数摒乘#与模谨多样化. 数据采样包括祥本的随机采■祥.比如Baggi n#?; 特征的随机采样, 比如随机森林%在决策树上的尝试, 文献[24]在线性分类器上的尝试, 文献[25]在最小距离分类器上的尝试; 数据待征空间分割, 比如文献[26] 中所提出的模型; 数据特怔子集的随机投泰, 比如AttributeBagging[27];敫磨标簦德形式修改s 比如文鑛[23]将箱暴改成多次一对多的二分类形式. 模塑多样化指模型在训练过程中, 模■受到干预导致的多样化, 比如使用不同初始化的神餐两络, 部分节*随机分裂的决策树等?针对第二个问癍, 主婆有三种觀决方案r标签融合、函数融合和训练融合.标?签融合豢指多个分类器错果按. 照一定的规则合成一个緒果. 布文献[21]的基础上, 可以证明若每个分类器成、员的正确率大于于思皓等: 基于知识线记忆的多分类器集成算法 46 53 期随机分类的正确率, 则整体投票结果的正确率将比分类器成员正确率均值高. 可见,“少数服从多数”的结果投票是简单有效的方法, 除此之外, 文献[29]认为不同的分类器应有不同的重要性, 所以提出了带权重的投票来组合分类器结果. 文献[30 32]利用特征信息来辅助完成结果融合. 而函数融合是把每个分类器得到的分数融合成最终结果, 比如文献[33 35]使用SoftMax函数把多个分类器的结果重构成最终结果的后验概率, 文献[36]构建结果的最优投影得到统一的结果. 以上方法都基于人为设定的规则, 其实融合结果的函数也可以通过机器学习得到, 即训练融合. 它可以使用决策树[ 3 7 ]、 感知机[ 3 8 ]、进化算法[ 3 9 ]、数据包围分析[4°]学习权重; 使用强化学习[ 41 ]、启发式搜索[ 42 ]剪枝; 使用Stacki ng[切把结果作为输人再次训练, 或者将所有分类器的结果作为特征输人到一个融合分类器中进行训练, 比如神经网络[44]、 贝叶斯分类器[45], 来得到一个组合多分类器结果的模型. 而本文提出的方法是一种更具有可解释性的启发式剪枝方法.多分类器系统是重要、 前沿的方法, 它的应用十分广泛, 比如在遥感上的土地覆盖制图[46 ]、 变化检测[ 47 ]、 计算机安全上的手机通讯[ 48 ]、 网络安全[ 49 ],银行中的欺诈检测[ 5°]、经济风险评估[ 5 1 ], 医药中的蛋白质折叠检测[5 2]、 神经科学[5 3]以及推荐系统[ %5 5 ]等. 在众多机器学习竞赛中, 集成学习、 模型融合也是提高指标的重要手段. 目前的集成方法虽然能提供良好的分类性能, 但同样重要的模型可解释性却都有所欠缺. 而在上述提到的众多应用中, 尤其是与安全和风险有关的应用, 模型的可解释性往往是更重要的需求.因此本文从心理学中的知识线记忆理论出发, 设计了一个具有良好可解释性的启发式分类器集成算法.2. 2 知识线记忆理论知识是如何表述、 存储、 提取、 使用的? 心理学中的知识线记忆理论尝试回答了这个问题. 每当你“有一个好主意”, 解决了一个问题时, 你就会创建知识线来记忆它. 知识线会与被激活的思维智能体相联结, 之后当你再次激活此知识线时, 与这个知识线联结的智能体就会被激活, 使得你进人之前解决问题时相似的“思维状态”. 这就让你在解决新的、 相似的问题时, 感到容易一些. 这就是知识线的基本理论.此处引用《心智社会》[ 5 6 ]中提到的一个例子: 当你想要维修一辆自行车, 在你开始之前, 先将红色油漆抹在手上. 这样你所用过的所有工具都会有红色的记号.当你修好之后, 只要记住红色标记表示“有助于修车”, 下次你再修自行车的时候就可以节约时间, 只需要把涂了红色标记的工具拿出来就可以了.这里的红色就是知识线, 工具就是思维智能体. 如果你用不同的颜色标记不同的工作, 有些工具最后可能会有不止一种颜色. 每个智能体可以和多个知识线相联结.当问题来临, 只要激活问题相关的知识线即可.知识线理论阐述了人类构建记忆和使用记忆的过程, 是心理学中对人类行为的一种基于经验的解释, 是目前比较被认同的一种猜想. 本文算法受到此理论的启发, 对其计算框架进行数学建模, 将知识线抽象成线性算子, 构造出新的多模型集成算法. 正如知识线记忆理论可以对人类行为进行解释, 类知识线的构造也赋予了本文算法较好的可解释性.3 知识线集成算法本节将详细介绍本文提出的知识线集成算法,首先3.1 节用矩阵建模了知识线集成算法并给出计算框架;3.2 节针对知识线理论中未知的复杂函数,给出了知识线集成算法中的定义;3.3 节、3.4 节中具体说明了知识线训练与推断的过程, 并给出了算法流程以及相关的描述与分析. 最后3.5 节中对算法的可解释性进行了说明.3. 1一般投票与知识线集成计算框架给定n个独立的?类分类器算子, 构成向量:C=,c2 ,…,c?), 对于给定数据特征x有其中, 表示第r 类分类器结果是否为_;, 且有=则分类器结果%eu,2,…,j出} 有=argmaxc?,1,2,…,(〇(2)按照“少数服从多数”的一般投票方式, 对每个分类器的结果进行公平的计数, 最终票数最多的类别作为最终的结果:y=argmaxI(yt=z),z=1, 2,? ? ?, w( 3)466 计導机攀报: _1苹其中.1( 0齿示性函数, 当自变量逻辑方真时緒果为1, 假时为〇. 在:式( 3 ) 中, 若第f 个分类器结果_v,等于 则结果为1: ,.否雍为〇.以上歲: Baggingf乘翔的做齒. 狼鑛‘Bagging方法的结论,当筹个分类器的结果错误率低于随机分类错误率时. Baggi ng得到结果的错误率低于拳一分类器的错误率坶值^且在《趋予无穷时Baggmg结果的错误率趋乎理论最小错误率.从统计学ll!) 角度丰看, 上述方法有很好的理论保证.后续的众多研究也都是在其基础上改进的. 但是这些方法都H注重最终结果的正确?,却忽视了箕法的可解释性,根据心理学中的记忆理论, 人脑会根据需要,唤観一部分智能体进拧决章, 而具体应该唤靡娜些智能体, 由人脑之前的记忆决定, 而本文受到此理论的启发, 将多分类集成的过程嵌人到知识线忠忆理论的框架下,得到知识线集戚算法计算框架如图3掰示?□激活y图3 知识线集成算法计算框架A=., 仏6{〇,1} , ^1,…,"( 5)若az=l 则表示第z‘个知识线I被激活. 最终不同分类结果的分值 (^,52 ,…, &)=AK*C( x)即aiT ^7*7*7*^々1 1々1 2…泛l vCl(x)'a2 knk^2?? ?kzvc2(x)ATi…々二Cv{x)其中,1T为K每行经过标准化后的结果, 且有%=心/IX- 雜分类结果为jaigmaxS? .1 ^ 〇〇(7)从式(6) 可以看出. 知识续集成算法本质上是一种加权集成的做法4且与传统加权集成算法不同的是, 本奪法中的权童矩阵K是通过模拟知识线记忆痤论中记忆更新迭代的方法得到的, 这使得它可以进行羣申霄前可解雜性:方面的分析? 具#将在后文进行讨论.3. 2 知识线的计算知识线集成算法的计算框架a羟在3. 1 节中详细说明, 但是如何计算知识线矩阵k中的元素匕以及激活向量A中的元素 还未定义. 实际上知讽线理论对宁知识线的激活以及计算单元的激括何题也只给出了逻辑表述而缺乏具体箅法, 本文本着计算简单?有效K符合知识线遅论中相关_述的原则, 对知识线这部分的具体内容与计算方法迸行了设计.计算長中的分类器算子Q.扮演翁知识线记忆理论中的计算单元, 它冒以提供最基础的决象知识.层中的 代表知识线理论中的知识线, 它与计箕jt中的计算单元相联结,#当前存在戶个知识线》则它的形式为其中Ae: 0,1丨.示第^个知识线暴否徵活第J 个分类器, 若心=1,则表示激活s当接收到数据特征X时, 根据知识线理论中的表述,R有与间题相关的知识线应诙被激務, 园此激活层A的目标是对知识线进行激活, 它的形式表达如下:3. 2. 1WMW计算层中计算单元的激活由与其联结的知识幾控制, 若第i 个知识锞与第i 个分类摇联结则會h否则h=〇. 根据记忆理论, 当遇到充法解决的问题时. 大脑不断尝试激活不同的计算单元子集;直到找到解决该何题的子集后,使用一^智能体与本次激活的计算旱元相联结, 从而构建一个知识线.即. 找到一个集合C卞! ^ ,”?, H吏得以下条件處: 立:^x"^argmaxICg—■argxxx&xei(x)i,f^C8)=c ̄ee}='_中, 》,=1,2, , …,c〇.,ys为正确的类别? 因为勝有分类器的集合较大, 且随机采禅撙到的C/不能保证结果班确性, 所以此处令=C*, 且对于 C%,=argmaxKJT)=_ 这样即可保证结果的E确性, 从于思皓等: 基于知识线记忆的多分类器集成算法 46 73 期而避免低效的重复采样.3.2.2 知识层激活当使用知识线集成算法进行推断时, 激活层将选取部分知识层中的知识线进行激活, 即计算 根据知识线理论的描述, 知识线是根据某个特定问题产生的, 之后若遇到类似问题, 此知识线将被激活.在本文算法中, 当知识线 为了记忆样本 而产生时, 此样本的类别>也同时被记忆.当对新的样本X'进行推断时有:at=I(yk=argmax(/;! C(x,) ) J(9)1z其中, 《?) 为示性函数, 当自变量逻辑为真时结果为1, 假时为〇. 在式(9) 中, 若知识线t判定X'与'有相同的标签则被激活. 知识线先所联结的分类器构成了类别 的印象, 若在同样的映射下 得到相同的结果, 说明Y与'具有相似性. 因此, 式(9)的是符合知识线激活描述的一种激活方法.3. 3 记忆的产生知识线集成算法主要包含三部分, 激活矩阵A,知识线矩阵K, 分类算子向量C, 其中C如式(1) 的形式, 是提前训练完成的; A是基于K得到的, 而K中参数需要通过学习获得. 记忆的产生即知识线的更新, 也就是K的训练, 其具体算法如下:算法1. 知识线矩阵参数学习.输人: 分类算子向量C; 数据集Data输出: 知识线矩阵K1.初始化夂二⑦, 。,…, 0) ,九=(0)2. FOR(x, y)i nDataDO3. y=Inference(C, K,yK,x)4. IFy'^yTHEN5. k’=(J(xi(.x)—y.) ,…,I(.cv(.x)—y.)')T6. K=(KT\k/y,yK=(yK\ y^7. IFneedforgetTHEN8. k2 =argmi nPreci sion(^)9. K= (h,…, t ;!,是出,…, 心前)Tl〇.yK=(.yh,-, yh l, yh+l,-, y%J11.ENDIF12.ENDIF13.ENDFOR14.RETURNK训练伊始, 模型不存在记忆, 此时K中不包含有效信息,当遇到问题时, 若此时依靠知识线无法推断出正确答案, 则需要参考正确答案. 算法1 第5 行中的KO为示性函数, K^(x)—_y)=l 则表示第*个分类器结果正确. 这样得到的f即可满足式( 8)的要求. 将f添加到K的最后一行并记录知识线V所对应的类型_V , 即完成了一次知识线的更新. 经过一段时间的迭代后, 知识线矩阵中已经储存了一定信息, 此时若推断错误有两个原因: 其一, 现有知识线尚未覆盖当前问题, 所以依旧需要执行上述更新记忆的操作; 其二, 现有知识线中存在精准率较低的特例知识线, 它严重影响了整体集成的效果, 这个问题则需要通过遗忘来解决.在遗忘过程中, 模型会按照给定概率^删除一条知识线如下:N^]l(yi^yk^ yk, ^yk)lz^argmi n^ ̄^(10)k^Ki i其中, N为样本总数,JO) 为示性函数, 表示被错误激活的知识线集合即集合内元素被激活但所对应的类别是错误的, 表示知识线& 对应的标签,表示知识线& 对第z 个数据判断的结果, %表示第z个数据的真实标签. 式(10) 可以更直观的表述为kf—argminPrecision(k)( 11)keKA即在犯错的知识线中找到精准率最低的知识线进行删除. 不妨设f在知识线矩阵k的第z 行. 所以经过遗忘之后的知识线矩阵为(々!,…,々「!,々! +1,…,々K)T(12)由于激活操作的存在, 本算法实际上使用了二分类器集合来判断样本是否属于某特定类别, 并通过投票解决多分类问题, 因此当解决W分类问题时, 目标函数可设置为最大化i?:R=precision,Jrrecalll ( 13)对于类别为_; 的单个知识线, 它只对所属类别的精准率即^?ecwwwq以及其他类别的召回率即内起作用. 此知识线精准率越高则本身所属类别精准率越高, 且对其他类别的召回率负面影响越小. 特别地, 当精准率为1〇〇%时, 此知识线仅对自身类别样本的推断提供正确信息且完全不影响其他类别. 单个知识线的高召回率可以有效减少知识线的必要数量, 但并不是单个知识线的必要目标. 精准率是单个知识线唯一需要考虑的目标, 且精准率越高效果越好, 所以在遗忘知识线时采用贪心算法,留下精准率更高的知识线. 在保证高精准率的情况下, 增加知识线的过程则可近似成用贪心法解决集合覆盖问题的过程. 无法正确推断的样本相当于未468 计 算机 学 报 2021年覆盖的元素, 模型添加至少能解决此样本的知识线,相当于覆盖问题中增加一个至少包含此未覆盖元素的集合. 因此随着训练迭代, 知识线集成召回率将逐步提局.3. 4 记忆的使用不管是使用知识线集成完成测试, 还是训练中判断记忆是否可以解决问题, 都需要使用知识线完成数据到类标签的映射. 记忆的使用即推断的过程,具体步骤如下:算法2. 知识线集成推断 函数.输人: 分类算子向量 知识线矩阵K, 知识线类别标签&; 数据特征I输出: 推断结果:/1. =argmax(^C(x) )2), z=1,2 ,? ? ?, Kro w1z2. Cti^ CL2)* * *) )3. K*^rownormalizi ngK3. S=AK^C(x)4.3/=argmax “=1,2,…,> Sc〇 i5. RETURN3/根据式( 9) 得到激活矩阵A, 根据式(6) , 得到不同类别的分值S, 其中分值最高的类别则为推断结果. 若存在多个类别分值相同则随机选择其中一类输出.3. 5 可解释性在知识线矩阵训练的过程中, 可以记录产生记忆时被激活的分类算子集合G、被记忆数据的特征x和标签_y, 这些是知识线可解释性分析的要素, 因为Vc,eG,c,( X)=_y, 若q连续, 则有A( x+S)=_y当s— 0 时成立, 所以知识线包含了“形如x的数据标签为,的信息.当一个新的数据Y需要被推断时, 知识线会使用G来判断,的标签是否为_y. 这实际上是一种类似谱聚类[ 5 7 ]的过程, 如果G可以把V映射到标签_y, 则说明V和^在<^关注的特征上距离较近, 所以Y和x之间存在着一定的相似性.因为在记忆中存在着和新数据Y相似的数据x,所以模型做出了Y的标签可能是_y 的推测. 由于记忆是丰富的, 可能有多个知识线被同时激活, 所以最终的结果由知识线投票产生, 而结果的票数则可以反映X'是每个类别的可能性. 被激活的知识线也代表着曾经出现过的与Y相似的样本, 最后的结果可以认为是立足于样本进行的投票, 而不是像已有的方法是立足于模型进行的投票. 由于类似的样本大部分是某个标签, 所以算法推断样本是这个标签.知识线集成算法把学习和推断的过程显式的表达了出来.以手写数字识别为例, 模型通过见识各种不同的数字, 并记下曾经不认识的形状应当是什么数字.不仅如此, 不同的人写字的风格不一样, 当模型无法用标准的0?9 进行判断时, 也会逐渐学会各种不同风格的同一个数字. 根据经验,1 和7 经常容易混淆, 那么假设当模型经过足够训练后, 现在需要推断一个长得又像1 又像7 的图片到底是哪个数字, 已有的集成方法给出解决方案却不会给出原因, 而知识线集成可以提供很多类似的图片, 并通过统计不同类别图片出现的频次反馈给用户结果. 虽然知识线集成也是将分类器进行集成, 但是中间过程却可以抽取出样本作为推断依据, 让整个过程有理有据.就推断过程而言, 知识线集成有着与K近邻算法相似的可解释性. 但是知识线集成可以进行更丰富的分析. 知识线数量作为模型的参数, 可以量化问题不同粒度下的难度. 比如, 单个类别的难度可以由不同类别的知识线出现频率量化.容易混淆的类别可以使用被遗忘知识线的混淆情况量化. 每一个测试样本的难易程度, 可以用被激活知识线的种类个数量化. 结果的可信度可以用知识线激活的类别占比量化. 由于引人了知识线, 这些原本难以直接通过模型参数评估的指标, 都可以使用最基本的古典概型诠释.4 实 验此章节对本文实验所用的数据集、实验的方法做出了介绍, 并对实验结果进行了分析.4. 1 数据集Wine、Statl og. ( Heart )、Wal l Fol l owi ngRobotNavigati onData、 Ecoli、 GlassIdentification、 BalanceScale、Iris、 Seeds、 Contracepti veMethodChoice、Connecti onistBench( Sonar,Mi nesvs. Rocks) 均是加州大学欧文分校机器学习数据库中经典的分类数据集. 它们提供样本多维特征以及相应类型标签,可用于测试分类模型算法性能. 实验是在随机划分数据集的80%作为训练集, 20%作为测试集下进行的. 在下文中, Statl og.( Heart ) 简称为Heart , Wal lFol l owingRobotNavigati onData简称为Robot ,GlassIdenti ficati on简称为Gl ass,Bal anceScal e简于思,f: 基T知识线记忆的攀 戚霄_ 46?1248163264128256512知识线数量圓4 激设儀獄量与正疏率的併结果可见, 知识线集成算法在多个数据麗上表现最佳,. 且在大部分数据集上;不存在显著不足>可以认为知识线集成算法在不讨论可解释性的情况下,眞费类正猶率与其食黧成算法秦现在同一水平线上^ 在此基础之上, 引人知识线概念为知识线集成算法增添的可解释性成为了其相比于典他算法的优势厂&雜_, 后文重点讨论?也3; 2 记忆的作用随着模型遭遇无法解决的问■題\知识线被建立,樣型能力逐渐提高,图4 所示为Faslnon数据集上的实验结果’3撰称漁Bal an&e, Coi itrace|):ti v#祕etli&dChoifrfe简称为GMCs Conneoti oni stBench(Sonar #Minesvs.Ro.cks3筒称为Sonar.MNIST数据集是一个常用的手写识别数据集. 它的每条数据. 是7S4 维的#征, 1 用f表示一副28,28 尺寸图并華个像愈的灰度僮r标籍为〇?啓的数字:,用来表示图片对应的手写阿拉伯数:字? 此数擬論拥有TO〇〇〇.个:圈片样本, 其中训__SM0O个,瓢纖1〇〇〇〇 个.Fasii miMNIST__是一个时眞祕:緯别识别数据集, 以下简称Fashion, 它的维度s 尺寸,数据集大小与MNISf完全一致, 总共十类t? 表示了恤/上衣 表零裤子, 2表球拿头衫*3表尔_衣裙,4 蠢承大农5|: 裹示凉■表示#衣, 7蠢示运: 动鞋,8表示包,! ? 表示高帮鞋? 其中每个裘别时样夺数羹翻同?4, 2实验设置本文模遽仅对内存有一定. 要求*数据. 集越太, 分类难度越高. 所需要的知识线存储空间越大. 本文实_膚求至少ieGB_眷.用于对比的X近邻、 朴素贝叶斯^s]、 逻辑_归[5 9]是传统的非集成分类模型, 随机森林、AdaBoogt、GBDT[ 6 0]是经典的集成学习分类模型, 00集成[6 1 ]是迤择性集成的典型做法,它根据结果方向为不同样本选择不苘分类器子集迸行决策.特别地,00集成和知识鱗集成在所有数据業上均使用与随机森林相词的决策树集合作为基础.对于Fashion. 数据集上的可解释性相关实验, 知识线集成了1G0个决策树分类器》 且所有决策树均为随机抽取Fashion数据集中的2〇000 个随机样本的100 维随机特征训练得到的.另外, 知识线集成中时遗忘概率对实验结果有一定影晌. 苹文基于大量调优实验,使用待删除知识线的精拿率作为放弃遽忘猶概;4. 3 分类性能实验与分析钿识线集成算法适用宁任何种类的分类器成员. 在本文实验中, 仅对决策树作为分类器成员进行了验证与讨论.4. 3. 1逆_率对比知识线集成算法作为一种新的多分类器集成算法, 在不祠数摒集上%传统分类算法以及經典集成倉総痕疋瑜宗对比如_1 所示.表1 分类正确率数据集 K近邻 朴素贝叶斯 逻辑回归 AdaBoost GBDT 随机森林 00 知识线Wi ne0.63 89 0. 97220. 94440. 97220. 97220. 9653 0. 97920. 97 22Heart 0.62 92 0.8148 0.7778 0. 8519 0.6852 0.8519 0.83330. 8519Robot0.86080.5339 0.6914 0.9918 0.99180. 9890 0. 9908 0. 9918Ecoli 0.86760.7059 0.73530.66180.794 10.83820.82350.8235Glass 0.6977 0.4419 0.5116 0.5116 0.720 9 0.8140 0.8372 0. 8605Balance0.7680 0.8400 0.80800.87200.8320 0.7920 0.7920 0.7680Iris 0. 90 00 0. 8667 0. 8000 0.9000 0. 8 667 0. 8667 0. 8778 0. 8667Seeds 0.8810 0.8810 0. 88100.6429 0.857 10.8631 0. 8810 0. 8810CMC 0.5627G.4881G.51530.53900.5864 0.5559 G.57630.54 24Sonar 0.80 95 0.5476 0.7619 0.7857 0.9048 0.8691 0.83330.84 52MNIST 0. 96680.5558G. 91730.7299 0. 94870. 9640 0. 96380. 9632Fashion 0.85 770.58560.83740.54250.8 682 0.8715 0.86860.87 101.0.0.0.0.0.0.0.0.0.齋雷470 计導机攀报: _1苹其中第1类情况在荚验中授有发玺, 第4类仅在测试中发生了1 例, 所以后_不再迸行讨论?为了进一步探讨知识线集成提炼问题难点的能力, 本文对.属训练测试虜74_情况 : 秦4. 4 可解释性实验与分析由宁知识线; 象成算法中的知识錢是基于心理学中的知识线记忆、 理论设计的, 这为我们理解模塑,解释结果提供了思路?4. 4.1样本难虚提取多个知识线同时被激括时, 最终结皋存在以下秦种情況:( 1) 没有知识线被激活, 表示模型认为没有见过类似6辦本?( 2) 所有被激活的知识线投票一致, 这种#况得到的结果有■更高的置信度,(3) 所省被激活的知识线投票不一致s但是有某个类别胜出?(4) 所有被激活的知1R线投票不一致* 且#. 终出现至少两个类别平票的情况. .以Fashi on数据_: 上的实验为例? 对于训练燊和测试集,最终这4类情况发生的分布如图7所示.1248163264128256512知识线数量?8FssJilsm概试論分_: 奸价磨标是有=4、 幅增幅的. £12 个知识线相对于16 个知识线, 在训练燊上苺筒率增长了1.0&%, 精准率蹭长了1.01K; 在测试集上召回率增长了〇. 辟%,稽准率: 增長mAK? 宴验中的具体数傅胃ft附嫌1 中查看*1.0随着知识线増加, 模型嚴确率不断提脔1且趋于平稳?当知’识线数鸶小于类别數时. 新增知识线总对应尚未接触过的类别, 所以模盡能力增长较快.胃.知识线数量超过类撕数后, 正瑜率増长缓優. 此时模型已经攀握不词类别的大致情况,, 想要进一步提高正猶率变键菌_邊蔡食_:_知轵魏_刻嶺:盧多细节.S12个to识錢相对于16个知识錢,训雜?上正翁季提高T〇.邸%, 测试集上庄'确率提高了1.08%_4. SU 收:敛就程分类间题中精准率和召回率是一组存在矛貭的指标■ 当使用贪心决策, 若錄望溽到尽量高的精准率, 召回率则不'可避免的变低, .反之若希望得到尽識离的茌回率, 精准率则会受损? 而知识线集成算: 法将这商个損标分割到两个不同的部分, 作为各自的主嫛优化目标, 在一定程度上缓辦了这一矛盾; 知识魏个体作龙解决问题的核心#元,, 它的目标是拥有尽橐高的精?隹率. 类似于人脑中的记忆, 当人类面临一个问题》 并不会激活所有E忆, 而是激括能切实:解决问题的记忆. 知识线. 集成算法与此是一致的, 当知识线11十拿九稳”时才被激活, 即知识线分类的精准率5高? 图5 所示为在Fashion数据_的训练集上的实验绪果.1.00. 80.21248163264128256512知识线数量图5Pashisaflf 翁裏:势_齊掛搢葡Ifi如上文所述S虜着谁率是基础,从■S可爲知识层中的知识线精准率均值一直处于较裔水平, 在知识线数量较少时, 随養知识线数量时增加, 精准拿有下降趋势. 但由于遗忘机制的存隹? 箱准率较差的知识线将被删除. 所以后续整体的精准率又有所提升就召JIT率而言, 随着知识线数量的增力口, 更多不貢种类的问题被解决*整体的召回率水平逐渐提升. 最终模蓮的召回率、精准率、F1 在训练集上非常接近: ?圈6 睛示'了两一t妻验中测试集上的表现? 宵以膏出,结讼与训练集上保持一致.雷粟注意的是,S知识线数量大宁类别总数后. 召回率与精准率第1类N第2类0第3类■第4类.8i.4.20.0.0.0.I^lo于思,f: 基T知识线记忆的攀 戚霄_ 47 1 3 期于不同. 区域的样本在知识线集成与随机森林中的表现进行了对比》 如表2所示表2 特定类别正确率随机森林 知识线集成第2 类/麗 第3类/|f 第2 类/麗 第3类/a训练 99. 96 81.39 训练 99. 96 84. 19测试 94. 9756.37 测试 94. 97 56.16根据之前的定义,第2类表示激活的知识线在决策时答案犛一致的, 而第3类则说明有多种类别的知识钱被激活. 直觉上来说, 第S类的样本难度是比第2类高的. 表2中的实验结果也与直、觉相符,在第3类样本上, 随机森林与知识线集成出现了较大的何题, 可见本文方法使用激活知识线的情况为测试祥本划分类别, 可以提炼出更有难度的样本即第3 类样本屯4. , 2类别难点省. 化以Fashi on数据集上的实验为例, 表3中展示了训练完毕后每个类别的知识线数量与不同算法在溉试集每个_剗上=的正1角率.表3 各类别知识线数量与正确率类别 知识线数量 知识’线集成/ %'随机森林/%'K近邻/%'0123456789第6 类知识线数量相比于其他类别明显更大,而随机森林和知识线集成在第6 类上的, 正确率水乎明显低于其他类别, 可见这一类别难度较窩, 而東进一步的计算相关系数, 知识线数量与知识线象成备类别正确率的相关系数为 〇?82, 知识幾数趣与随机森林各类: 刺正确率的相关系数为 〇?92. 此处使用的知识线集成与随机森林是进一样的100 个决策树作为分类器成员得到的, 为排除成员本身质量的影响, 此处还对比了直接由样本进行推断的K近邻方旗表中结寒为Cosinfc摩i 离隹_K=4.时的结果f此绪巣悬遍嵐了等f1 至It?,.分别健, 增Cosine距离与欧式距离测试、后得到的最好鍩果. 经过计算f知识线数量与K近邻分类器各类别E确率的相关系数为一〇.SS, 可见知识线数量有一定量化类别难度的能力.植得一提的是知识线数量与知识线集成络果的相关度更低, 这表明知识线集成算法在象现问題难家后会努力将其ft决, 因此第<5 类知识幾数識较大的同时知识线集成算法在第6类上的正输傘也显薯高于其他方法.4. 4, 3易氍淆难点量化知识线隹成算法在训练、过程中. #在记忆遗忘的机制. 根据遗忘的规则, 被遗忘的知识线必然存在将两类混淆的情况? 虽;然遗忘的过程具有一定的随机性, 但是若假设类A与类B混淆的概率大_于类A与类C. 棍淆的概率. 那么混淆A与B的知识线数量将大概率大于混淆A与C的知识线数量*若个体被遗6椹率賴晴識淆A与B的知'识翁被邋:忘的?串期望大于混淆A与C的知识线、 .3此被遠忘知’iH线的犯错情况可以用来量化问题中容易混清的类别.以FaAi on数据集上的实验为例, 统计知识线被遺蝱时的犯错原H并进行可视化得到图8? 其中坐标(?〃_/) 的灰度值表示将第 类错判成第j 类的犯错相对频率, 颜色越深表示频率越高.0 1 2 3 456 7 8 9厲8養興_議率育■化从M8 中可以发现模遵容易把6-衬衫混淆为0-了恤、於套头衫▲太衣,由此也可以參择在: 442节中发现的第6 类难度较大的凰因《另外, 用遗忘知识线的犯慑障况来量化类别間易混淆程度, 结果符合直观预 〇、S、S、4、6 之间睿易混淆* 西为这些类别都是衣服. 它们不容易和 这凝类混. 淆, 因'龙要分辨衣服和鞋子舞容易的? 而这之中1-裤子, 8-包和其他类剁想襄区分并直观上也是容易的? 这也是第1 类分类疋确率高. 达9S%, 第8类分类疋确拿高达9SM的原因.4. 4, 4 推断怔据提供:知识线集戚算法癌一种从样本推断样本的算法模型, 所以不论结果正确与否, 模型都可以提供依据,472 计導机攀报: _1苹由之前的实验可1以发现知识线算法易于分析* 可以有效的将问題难点提炼? 以下, 使用实验中Fashion数据集i的一个真銮钶子来吏龙直观的展示知识线集:成算法提供推断怔摒的能力.正Jfl3肀中所讨论的, 知识线集成算法可以显式的呈规判断的过程, 当图9 的特征输人擦型, 有162 个知识钱被成功激活*其中41 个关宁2 套头衫的知识线被激话》 27 个关于4-大衣的知识线被激活, 94 个关乎《-衬衫的知识钱被激活, 被激括的知识线对应的样本每类抽取了3个. 如图10 所录.图9 被推渐的_片(健签#: g 衬衫t表现i争憬可参考附录2.5 总 结本文针对多分类器系统中的集成策略进行了研究; 结合心理学中的知识线记忆理论, 提出了一种拥有较强可解释性的多分类器集成算法, 称为知识线集成算法. 此算法根据历'史解决问题的记忆构建知识线记忆矩阵, 最终使用样本相关的记忆解决问题.推断新问龜时》 此算法可以找到训练#本中和此问題相似问題的解决方案, 显式地呈现集成模遨推断的过涯并给出结论的依据. 知识魏集成算法不仅拥有良好的分类性能, 坯苽以逋过知识线的创建、 遗忘、激活情况握炼问题的难*, 进行更具W解释性的分析实验与数据相关性挖掘?参 考 文 献嫌10 被織澈韵》识雜对座餘参本( 三f分别为:2 馨头餐* 心大衣》#衬衫)可以眷出, 这些记忆和输人的图片是有一定相似性的, 也就是说, 当测试集向模型展示新的图片时, 模型商忆了过去所遇到过的类似图片.因为类似的a片大部分都是6-衬衫, 所以根据绿验*顧9的标签也虛: ■暴8 , 且概率为§ 4 /152 ?这种从训练样本中找依据的做法, 和K近邻的做法相似. 但&知识线集成箅珐中的知识线越多则效果遲好, 旦经过训练, 知识线的数量也会趋宁稳定? 而K近邻则_要选择合适的 另外, 知iH线燊成:算法相对于K近邻有翁更强的分类能力, 在Fashion数据集J:, 知识线集成算法测试集上的分类正踰率对以达到S7.31 %, 而K近邻在K取1?1〇〇 中, 使用Cosine 距离所能达到的最高值8&90%在:K二4时取得,使用欧式距离能达到的最:离值版 在K=4 时取得?K近邻算法的具体[1]Wolpert DI I, MacreadyWG. Nofreelunchtheoremsforoptimization. IEEETransactions onEvolutionaryComputation,1997,1(1);67-82[2]NeumannJV. Thecomputerandthebrain. AnnalsoftheHistoryofComputing,1958 ,11(3) : 161-163[3]ChowCK. Statisticalindependenceandthreshold functi ons.IEEE TransactionsonElectronicComputers, 2006 , EC_14(1):66-68[4]Doshi-VelezF, KimB.Towardsarigorousscienceofinterpretablemachinelearning. arXiv?2017 , 1050:2[5]CoverT, HartP. Nearestneighborpatternclassification.IEEETransactionsonInformationTheory,1967 ,13(1):21-27[6]SuX?KhoshgoftaarTM.A surveyofcollaborativefil teringtechniques. AdvancesinArtificialIntel ligence,2009,2009:1-19[7]MinskyM. K-Lines:Atheoryofmemory. Cogni tiveSci ence,1980,4(2);1 17-133[8]WozniakM,GranaM,CorchadoE. Asurveyofmultipleclassifiersystemsashybridsystems. InformationFusion,2014 ,16 :3-17[9]Sagi0, RokachL. Ensemblelearning:Asurvey. WileyInterdiscipli naryReviews : DataMiningandKnowledgeDiscovery,2018,8(4): el249[10]LamL.Classifiercombinations:Implementationsandtheoreticalissues//ProceedingsoftheInternationalWorkshoponMultipleClassifierSystems. Berlin, Germany:Springer,2000: 77-86[11]RahmanAFR,FairhurstMC.Serialcombinationofmultipleexperts:Aunifiedevaluation.Pattern Analysis&- Applications?1999,2(4) :292-311于思皓等: 基于知识线记忆的多分类器集成算法 47 33 期[12][13][14][15][16][17][18][19][20][21][22][23][24][25][26][28]FumeraG?PillaiI , RoliF. At wo st ageclassifierwithrejectopt ionfort extcat egorisat ion//Proceedingso fthe JointIAPRInt ernationalWorkshopsonStatisticalTechniquesinPat t ernRecogni tion(SPR)andSt ruct uralandSynt acticPat t ernRecogni tion(SSPR). Berlin, Germany: Springer, 2004:771 7 79Bartlet tPL? WegkampMI I . Classif icat ionwit harejectopt ionusingahingeloss. JournalofMachi neLearni ngResearch,2 00 8,9(8) : 18 23 1840TermenonM? GranaM. Atwostagesequentialensembleappliedtotheclassifi cationofAlzheimer?sdiseasebasedonMRIfeat ures. NeuralProcessi ngLet t ers, 2012 , 35(1): 1 12ClarkP,Nibl et t T. TheCN2induct ionalgorit hm. MachineLearning,1989 , 3( 4); 261 283RivestRL. Learni ngdecisionlists. MachineLearning?1987 ,2 ( 3) :229 24 6FreundY. Boosti ngaweaklearningalgorithmbymajority.InformationandComputat ion,1995,121(2) : 2 56 285FreundY? SchapireRE. Adecision t heoreti cgeneralizati onofonlinelearningandanapplicationtoboost ing/ /ProceedingsoftheEuropeanConferenceonComput ationalLearningTheory. Berlin, Germany; Springer,1995; 23 37SchapireRE. Thest rengt hof weaklearnability. MachineLearning,1990, 5(2) : 197 227KivinenJ?Warmut hMK. Boost ingasent ropyprojecti on//Proceedingsoft he12 thAnnualConferenceonComput at ionalLearningtheory. Sant aCruz,USA,1999: 134 144TurnerK? GhoshJ. Analysisof decisionboundariesinlinearlycombi nedneuralclassif iers. Pat t ernRecognit ion, 1996 ,29(2) : 34 1 348BreimanL. Baggingpredictors.24( 2): 123 140BreimanL. Randomf orests.45(1): 532SkurichinaM, DuinRPW.randomsubspacemethodf orMachineLearning, 1996 ,MachineLearning,2001,Bagging,boost ingandthelinearclassifi ers. Pat t ernAnalysis&Applications,2002,5(2) : 12 1 135TremblayG?SabourinR, MaupinP. Opti mizingnearestneighbourinrandomsubspacesusingamultiobjectivegeneti calgorithm//Proceedingsofthe17thInt ernat ionalConferenceonPat t ernRecognit ion. Cambridge, UK,2004,1:208 211TingKM,WellsJR,TanSC, etal. Feat uresubspaceaggregati ng: Ensemblesf orst ableandunst ablelearners.MachineLearning, 2011,82( 3) :3753 97BryllR, Gut ierrez OsunaR, QuekF. At t ribut ebagging:I mprovingaccuracyofclassifierensemblesbyusingrandomfeat uresubsets. Pat t ernRecognit ion? 2003 , 36(6) : 12911302DuanK?KeerthiSS?ChuW?et al. Multi cat egoryclassificationbysoft maxcombinationofbinaryclassifiers//ProceedingsoftheInt ernationalWorkshoponMultipleClassi fierSyst ems.Berli n,Germany;Springer,2003: 125 134[29]KunchevaLI. CombiningPat t ernClassifiers: MethodsandAlgorithms. JohnWiley&-Sons,2014[30]RaudysS. Trai nablefusionrules. I . Largesamplesizecase.NeuralNet works?2006 ,19( 10) : 1506 15 16[31]RaudysS. Trainablefusionrules. I I . Smallsamplesizeef fects. NeuralNetworks,2006,19(10): 1517 1527[32]InoueI I,NarihisaI I. Optimizingamult ipleclassifiersyst em//Proceedi ngsof thePacificRimInternationalConferenceonArtif icialIntelligence. Berlin, Germany: Springer, 2002 :285 294[33]AlexandreLA, CampilhoAC, KamelM. Combiningindependentandunbiasedclassifiersusingweightedaverage//Proceedingsof t he15 t hInt ernat ionalConf erenceonPat ternRecognit ion. Barcelona ,Spain, 2000 , 2: 495 498[34]BiggioB, FumeraG? RoliF. Bayesiananalysisoflinearcombiners//ProceedingsoftheInt ernat ionalWorkshoponMult ipleClassifierSystems. Berlin? Germany: Spri nger?2007: 2923 01[35]Kit tlerJ?AlkootFM. Sumversusvot efusioni nmultipleclassifiersystems. IEEETransact ionsonPat t ernAnalysisandMachineIntelligence, 2003 , 25( 1) : 110 115[36]RaoNSV. Agenericsensorfusionproblem: Classifi cationandfunct ionest imation//ProceedingsoftheInternationalWorkshoponMul tipleClassif ierSyst ems. Berlin,Germany:Springer,2004; 16 30[37]ShlienS. Mult iplebinarydeci siontreeclassifiers. Pat ternRecognit ion,19 90 , 23(7); 7 57 763[38]WozniakM. Experimentswi thTrainedandUnt rainedFusers. Innovat ionsinHybridI nt elligentSyst ems. Berlin,Germany; Springer,2007; 144 150[39]WozniakM. Evolut ionaryapproachtoproduceclassif ierensemblebasedonweight edvoting//Proceedi ngsof the2009WorldCongressonNat ure&-BiologicallyInspiredComputing.Kochi,India,2009; 648 653[40]ZhengZ? PadmanabhanB. Const ruct ingensemblesf romdat aenvel opmentanalysis. INFORMSJournalonComput ing,2007, 19 (4) ; 48 6 496[41]Part alasI , TsoumakasG?VlahavasI. Pruninganensembleofclassifiersviareinf orcementlearning. Neurocomput ing,200 9, 72(79): 19001909[42]Rut aD, GabrysB. Classifierselect ionf ormajori tyvot ing.Informat ionFusion,2005 ,6 ( 1) : 63 81[43]WolpertDI I. Stackedgeneralizat ion. Neuralnet works?1992 ,5 ( 2):2 41 259[44]I l ashemS. Opt imallinearcombi nationsof neuralnet works.NeuralNet works,1997,10(4) : 599614[45]DuanZ?WangL. KdependenceBayesianclassifierensemble.Ent ropy,2017,19(12): 651[46]MahdianpariM, SalehiB, MohammadimaneshF,etal.Randomforestwetlandclassifi cat ionusingALOS2Lband?RADARSAT2Cband,andTerraSARXimagery. ISPRSJournalofPhot ogrammet ryandRemot eSensing?2017 ,130:13 31474 计 算机 学 报 2021年[47]MaghsoudiY,Colli nsM,LeckieDG. Polarimetri cclassifi?cationofBorealforestusingnonparametricfeatureselectionandmultipl eclassifiers. InternationalJournalofAppliedEarthObservationandGeoinformation,2012 ,19(Complete):139-150[48]SiamiM,NaderpourM,LuJ. Achoquetfuzzyintegralverticalbaggingclassifierformobiletelematicsdataanalysis//Proceedingsofthe2019IEEEInternationalConferenceonFuzzySystems.NewOrl eans,USA,2019:1-6[49]KoayA,ChenA,WelchI,etal.A newmulticlassifiersystemusingentropy-basedfeaturesinDDoSattackdetection//Proceedingsofthe2018InternationalConferenceonInformationNetworking. ChiangMai ,Thailand,2018 :162-167[50]Ala’RajM, AbbodM.Classi fiersconsensussystemapproachforcreditscoring. Knowl edge-BasedSystems,2016,10 4:89-105[51]TsaiCF.Combiningclusteranalysi swithclassifierensem?blestopredi ctfi nancialdi stress.InformationFusi on,2014,16(1): 46-58[52]IbrahimW*AbadehMS.Proteinfoldrecognition usingdeepkernelizedextremelearningmachineandli neardiscriminantanalysis. NeuralComputingand Appli cations,2018,(4):1-14[53]MalikF,FarhanS,FahiemMA. AnensembleofclassifiersbasedapproachlorpredictionofAlzheimer?sdiseaseusingImriimagesbasedonfusionofvolumetric,texturalandhemodynami cfeatures. AdvancesinElectrical&Computer附录1 .知识线数量与分类指标变化具体情况见表4.表4Fashion数据集参数20000-100知识线数量与分类指标详情知识线数量 着准率 翻率 FI1 0.9967 0.09930.18062 0.9937 0.1989 0.33154 0.9836 0.39630.565080 . 97710.78740.8720160 . 97850. 97710. 9778320 . 98060. 98050. 98061280 . 98180. 98170. 981825 60 . 98270. 98270. 98275120 . 9830 0. 9829 0. 9830YUSi-Hao,Ph.D.candidate.Hi sresearchinterestsincludereinforcementlearning,ensemblelearningandadaptivenetworks.GUOJia-Feng,Ph.D. ,professor.Hisresearchinterestsincl udeinformationretrievalanddatamining.Engineering,2018,18(1): 61-70[54]AnyosaSC, VinagreJ,JorgeAM. Incrementalmatrixc〇-factorizationforrecommendersystemswithimplicitfeedback//Proceedingsofthe2018WorldWideWebConference.Lyon,France,2018 :1413-1418[55]LogeshR,SubramaniyaswamyV,MalathiD,etal.Enhancingrecommendationstabilityofcollaborativefilteringrecommendersystemthroughbio-inspiredclusteringensemblemethod.NeuralComputingandAppli cations,2018,(5); 1-24[5 6]MinskyM.Thesocietyofmind.Personali stForum,1987,3(1): 19-32[57]NgAY,JordanMI, WeissY. Onspectralclustering:Analysi sandanalgori thm//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems. Vancouver,Canada,2002 : 849-856[58]RishI. Anempi ricalstudyofthenaiveBayescl assifier.JournalofUniversalComputerScience ,2001 ,1(2):127[59]FanRE,ChangKW?I lsi ehCJ,etal. LIBLINEAR:Alibraryforlargeli nearclassifi cation. JournalofMachineLearningResearch,2008,9(9):1871-1874[60]FriedmanJI I.Stochasticgradientboosting. ComputationalStats&-DataAnalysis,2002,38(4): 367-3 78[61]Martinez-MunozG,SuarezA. Pruningi norderedbaggingensembles//Proceedings ofthe MachineLearning,Twenty-ThirdInternationalConference.Pittsburgh,USA,2006 ;609-616附录2.K近邻算法正确率具体情况见表5.表5Fashion数据集K近邻表现具体情况K取值Cosine 距离/與欧式距离/%1 8 5 67 84972 8 5 4 1 84 603 8 5 64 85 414 95 90 85 775 8 5 78 85 546 8 5 80 85 447 8 5 5 9 85 408 8 5 42 853498 5 16 85 19108 5 2985 1511 8 4 7 6 849512?100 <8 5 10 <85 00FANYi-Xi ng, Ph.D. , assi stantprofessor.Hi sresearchinterestsincludeinformationretrievalandnaturallanguageprocessing.LAN Yan-Yan,Ph.D.,professor.Herresearchinterestsi ncl udemachinel earni ng,l earningtorankandinformationretrieval.CHENGXue-Qi ,Ph,D, ,professor.Hisresearchinterestsincl udenetworkscience,networkandinformationsecurity,Websearchanddatamining.于思皓等: 基于知识线记忆的多分类器集成算法 47 53 期BackgroundEnsembl el earninghasalwaysbeenanimportantbranchofmachinelearni ng.Justasunderthecooperationofmultipleorgans ,humanbeingscansurvive.Agentswhoaregoodatdifferenttaskscanformareasonablesystemtosol vemorediverseprobl ems.Forcl assi ficationprobl ems,themul ticlassifi ersystemfocusesonthe<4divideandconquer??concept.Itdecomposesthecompl excl assificationprobl emintomultipl esimpl esubprobl ems, andusesasinglemodeltobreakthemonebyone>andthenreasonablycombinesthesemodelstoobtainasolutiontotheorigi nalproblem.Nowadays , multicl assifierensembl ealgorithmsplayanimportantrol einvarioustasksandareimportantmethodstoimproveperformanc einmachi nelearningcompetiti ons.However, infi nancial ,securityandsomeothertasks, theinferenceresultisnotconvincingonlybyrelyingontheincompletedescriptionli keaccuracy.Thereasonforthemodelsdecisi oncannotbeignored.Theensembl estrategyusedbytheexistingmulticlassifiersystemcannotgivespecificreasonsfordecision makingduringi nference, andcannotexplici tlygivetrai ningsamplesthatareeffectivei ni nferencelikeKnearestneighbors,col laborativefiltering[andothermodels]. Infact,intheresearchofpsychology, theknowl edge linememorytheoryexpl ainsthatpeoplewil lactivatethememorygeneratedbypastdatawhenmakingdecisions> anduseoldexamplesasabasistoguesstheanswerstonewquestions. Thispaperexploresthispsychologicalprocess , andproposesanewmulti cl assifierensembl estrategybasedontheknowl edgelinememorytheory, cal ledtheknowledge lineensemblealgorithm.ThisalgorithmhasbetterinterpretabilitythanKnearestneighboralgorithmonthebasisofguaranteeingtheclassifi cationevaluationaccuracy.Ininference,themodel canprovidesimilarsampl esintrainingasthebasisforthisinference.Notonlythat, duringthetrainingofthemodel,theprocessofi ncreasingcomplexityandthechangesinvariousaspectsofcapabilitiesareal lexpli citlydi splayed. Inthetrainingprocess ,themodelcanextractthedifficultpointsoftheprobl em, suchasacertaincl assofsampl ethatisdifficul ttodoright, andsomesubsetsofcategoriesthatareeasytobeconfused. Duetothei ntroductionoftheknowl edge line ,thesedifficul tquantificationisnowavailabl etobedescribedbytheactivati on,forgetting, andcreationfrequencyoftheknowledge lines. Theseindicatorsimprovethei nterpretabilityofthemodel ,al lowinguserstoconductamorespecificanalysisoftheprobl em. |
[返回] |