欢迎访问一起赢论文辅导网
机械论文
当前位置:首页 > 机械论文
极限学习机前沿进展与趋势
来源:一起赢论文网     日期:2020-02-21     浏览数:1720     【 字体:

 ndary in the classification task.In ELM,the input weights and hiddenbiases connecting the input layer and the hidden layer can be independent of the training sampleand randomly generated from any continuous probability distribution.The output weight matrixbetween the hidden layer and the output layer is obtained by minimizing the square loss functionand solving the Moore-Penrose generalized inverse operation to obtain the minimum norm leastsquares solution.The only parameter that needs to be optimized is the number of hidden layernodes.It has been shown by theoretical studies that ELM is capable of maintaining the universalapproximation and classification capability of SLFNs even if it works with randomly generatedhidden nodes.Different from traditional gradient-based neural network learning algorithms,which are sensitive to the combination of parameters and easy to trap in local optimum,ELM hasfaster learning speed,least human intervention and easy to implementation.In a word,ELM hasbecome one of the most popular research directions in the field of artificial intelligence in recentyears and received widespread attention from more and more research members domestic andabroad.To make it more suitable and efficient for specific applications,ELM theories andalgorithms have been investigated extensively in the past few decades.Recently,random neuronshave gradually been used in deep learning and ELM provides the theoretical basis for use.Thispaper aims to provide a comprehensive review of existing research results in ELM.We first givean introduction to the historical background and developments of ELM.Then we describe theprinciple and algorithm of ELM in detail followed by the introduction of its feature map and featurespace.After an overview of ELM theory,we discuss and analyze state-of-the-art algorithms orthe typical variants of ELM,including models,solution approaches and relevant problems.Onthis basis,the core ideas,advantages and disadvantages of each algorithm are summarized.Furthermore,the latest applications of ELM are reviewed.In the end,several controversies,open issues and challenges in ELM are pointed out together with its future research directions andtrends.Keywords extreme learning machine;network structure;regularization;kernel learning;deeplearning;online sequential learning;parallel computing1 引 言过去的几十年里基于梯度的学习方法被广泛用于训练神经网络,如 BP(Back Propagation)算法利用误差的反向传播来调整网络的权值.然而,由于不适当的学习步长,导致算法的 收敛速度非常慢,容易产生局部最小值,因此往往需要进行大量迭代才能得到较为满意的精度.这些问题,已经成为制约其在应用领域发展的主要瓶颈.最近,Huang等人[1]提出了一种简单高效的单 隐层 前馈神 经网络(SingleHidden Layer Feedforward Neural Network,SLFN)学习 法,称 (Extreme LearningMachine,ELM).ELM 随机选取网络的输入权值和隐层偏置,通过解析计算得到输出权值,有效地克服了传统SLFN 学习算法的不足,已被广泛用于疾病诊断、交通标志识别、图像质量评估等多个领域[2-4].ELM 最初只能用于处理单隐层前馈神经网络,后来又被推广到 RBF 神经网络、反馈神经网络、广义单隐层前馈神经网络和多隐层前馈神经网络[5-8].从设计目标来看,ELM 力求将回归、分类、聚类、压缩、特征提取等机器学习领域的研究问题统一到同一个框架下解决.从学习效率的角度来看,ELM 实现简单,具有极快的学习速度和较少的人为干预.从理论研究来看,即使在随机生成隐层神经元参数的情况下,ELM 仍然能够保持SLFN 的插值能力[9]、通用逼近能力[10]和分 类能力[11].从结构风险最小化的角度看,ELM VC维依赖于隐层神经元个数[12],可以通过调节 ELM 隐层神经元个数来控制其 VC 维的大小,从而在训练误差和模型复杂度之间取得折中,以达到最优的泛化性能.从实现角度来看,硬件实现和并行计算技术大大加快了 ELM 的训练速度,使7期 徐 睿等:极限学习机前沿进展与趋势1461成为可能[13-14].最近 ELM还被扩展到深度学习中[15-16],并取得了丰富的研究成果.这些新兴算法的提出,极大地推动了 ELM 的发展,作为人工智能领域的另一个研究热点,引起了工业界和学术界广泛深入的研究.本文对近年来 ELM 的最新重要研究成果进行全面系统地分析和讨论,对 ELM 自提出以来的主要算法和模型进行梳理、归纳和分类,如图1所示.在此基础上,对 ELM 未来的发展方向提出了几点建议.本文第2节对当前主要的 ELM 算法和模型进行全面介绍、总结和归纳;第3节对 ELM 网络结构优化算法进行详细分析、比较和分类;第4节系统地阐述 ELM 融合与加速模型;第 节深入讨论并分析深度 ELM 模型的研究进展;第6节回顾 ELM及其变 学、计 等应用中的最新进展;第7 节对 ELM 中存在的一些争议进行分析和讨 论.针对当前 的研究现状,指出ELM 面临的问题与挑战,并对未来的研究方向和发展趋势 望;第 括总结.图 1 ELM 算法和模型分类2 ELM算法最新进展近年来,ELM 的研究已有了较为迅速的进展,表现出广阔的发展和应用潜力,吸引了大量学术界和工业界研究人员的高度关注,并取得了丰硕的研究成果.本节将从不同角度对这些重要成果进行全面系统地分析、总结和归纳.2.1 标准极限学习机给定 个任意不同的训练样本{(xi,ti)}Ni=1,其中xi=[xi1,xi2,…,xin]T∈Rn为输入向量,ti=[ti1,ti2,…,tim]T∈Rm为对应的期望输出向量.标准的带有n个输入神经元,L 个隐层神经元和m 个输出神经元且激活函数为g(x)的 ELM 网络,其数学模型表示如下:Hβ=T(1)其中,H=[h(x1)T,…,h(xN)T]T=g(w1·x1+b1) … g(wL·x1+bL)  g(w1·xN+b1) … g(wL·xN+bL熿燀燄燅)N×L(2)在ELM 中,H 又被称为随机特征映射矩阵[11],wi=[wi1,wi2,…,win]T表示连接第i个隐层神经元和输入层神经元的输入权值,bi表示第i 个隐层神经元的偏置,β=[β1,β2,…,βL]T表示输出层和隐层之间的权值矩阵,T=[t1,t2,…,tN]T表示训练样本期望输出矩阵.在隐层神经元参数(wi,bi)根据任意连续采样分布概率随机生成并给出训练样本之后,隐层输出矩阵 H 实际上是已知的,并且保持不变.这样,式(1)就转化为求解线性系统 Hβ=T的最小范数最小二乘解β^β^=HT (3)其中,H表 示 隐 层 输 出 矩 阵 H 的 Moore-Penrose广义逆.2.2 正则极限学习机标准的 ELM 算法①是一个基于经验风险最小化原理的学习过程,训练出的模型容易产生过拟合现象.此外,当训练样本中出现较多的离群点时,隐层输出矩阵 H 具有不适定性,导致模型的泛化能力和鲁棒性都会受到影响.正则化理论可以用来有效地解决上述问题[17],正则化本质 上 是 结 构风 险最小化策略 的 实 现,是 在 经 验 风 险 的 基 础 上 加 入 了表示模型复杂度的正则化项或惩罚项.根据统计学习理论,在经验风险最小化的同时,模型越简单,置2461 计  算  机  学  报 2019年① ELM Source Codes.http://www.ntu.edu.sg/home/egb-huang/好的 泛化能力.标准正则ELM(Regularized ELM,RELM)的数学模型可表示如下:minβ∈RL×m12βσ1p+C2ξσ2qs.t.h(xi)β=t Ti-ξTi,i=1,2,…,N(4)其中,σ1>0,σ2>0,p,q=0,1/2,1,2,…,+∞,·p表示向量或矩阵的Lp范数.ξi=[ξi1,ξi2,…,ξim]T表示样本xi的训练误差,βσ1p为正则化项,表示模型的复杂度;ξσ2q是N 个不同训练样本的总误差,代表经验风险;C0称为正则化参数或惩罚参数,用以平衡经验风险和模型复杂度.特别地,当σ1=σ2=p=q=2时,式(4)是一个等式约束下的二次规划问题.为此,对每一个等式约束条件引入拉格朗日乘子,通过构造拉格朗日函数转化为无约束最优化问题:L(β,ξ,α)=12β2+C2∑Ni=1ξi2-∑Ni=1∑mj=1αi,j(h(xi)βj-ti,j+ξi,j)(5)其中,α=[α1,α2,…,αn]T,αi=[αi1,αi2,…,αim]T为拉格朗日乘子向量.求解式(5)可得 RELM 的输出权值矩阵:β^=HTH+IL( )C-1HTT, LNHT HHT+IN( )C-1T, L>烅烄烆N(6)其中,当LN 时为一般情况,即隐层神经元个数小于训练样本个数,此时I为L×L 单位矩阵.而当训练样本的 个 数 小 于 隐 层 神 经 元 个 数 N <L,利 用Woodbury公式可以等价地求出β^,此时I为N×N单位矩阵.显然,在这种情况下,计算一个 N×N 维逆矩阵要比计算L×L 维逆矩阵高效得多.当正则化项为参数向量的L2范数时,称为岭回归(L2正则化);当正则化项为参数向量的 L1范数时,称为 LASSO(L1正则化).岭回归和 LASSO 是两种最典型的正则化方法,此外还有一种称为弹性网络的正则化方法,在损失函数中同时加入L1惩罚项和L2惩罚 项,对 这 两 者 进 行 折 中.Deng 等 人[18]研究了 隐 层 神 经 元 为 Sigmoid 函 数 的 L2正 则 化ELM,针对数据集中是否存在明显的噪声,提出了无权 RELM (Unweighted RELM)和 加 权 RELM(Weighted RELM)算法.加权 RELM 采用加权最小二乘法计算输出权值,对噪声有一定的抗干扰能力,但由于训练过程中增加了计算误差的权值过程,在数据量 很 大 的 时 候,时 间 消 耗 有 所 增 加.无 权RELM 的计算量和传统的 ELM 算法基本一样,能够处理对实时性要求很高的应用.Zhang等人[19]研究了回归问题中的异常值问题,提出了一种异常值鲁棒 ORELM(Outlier-Robust ELM)算 法.针对异常值的稀疏特性,首先采用L1正则化提高模型的鲁棒性,然后利用 L2正则化提高模型的泛化性能.此外,一种基于交替方向迭代的增广拉格朗日法被用于求解目标损失函数.由于在目标函数中引入了额外的正则参数需要优化,ORELM 通常需要较长的训练时间.Huang等人[20]利用流形正则化理论来处理未标注样例之间的关系,提出了基于流形正则化的半监督 SS-ELM(Semi-Supervised ELM)和无监督 US-ELM(Unsupervised ELM)算法,分别用于处理半监督学习和无监督学习任务,大大扩展了 ELM的适 用 范 围.SS-ELM 和 US-ELM 继 承 了 传 统ELM 的计算效率和学习能力,可以快速处理多分类和多聚类问题.文献[21]将 ELM 扩展到判别聚类,结合迭代加权(Iterative Weighting)、线性判别分析(Linear Discriminant Analysis,LDA)和核 K-均值(Kernel K-means),提出了 ELMCIter、ELMCLDA和ELMCKM三种判别聚类算法.基于 ELM 的判别聚类算法在 ELM 输出权值的求解过程中采用正则化技术来提高聚类的准确性和鲁棒性,不仅比 US-ELM有更少的可调参数,而且还能够处理非平衡聚类问题.ELMCIter、ELMCLDA和 ELMCKM属 于 离 线 学 习算法,需要事先给定所有的训练样本,不具备在线学习能 力.Yi等 人[22]将 多 图 学 习 方 法 引 入 到 ELM中,提出了一种自适应多图正则化半监督 AMGR-SSELM(Adaptive Multiple Graph Regularized Semi-Supervised ELM)算法.AMGR-SSELM 结 合 了 六种不同的图构造技术,并且可以自适应地将不同权重分配给相应的图,有助于刻画出数据内在的流形结构.由于使用了多图结构,该算法的训练时间要高于使用单一图的 SS-ELM 算法,特别是在大型数据集上其计算复杂度是无法容忍的.Iosifidis等人[23]将子空间学习准则引入到 ELM 的优化过程中,提出了 图 嵌 入 GEELM(Graph Embedded ELM)算法.该算法充分利用了图嵌入框架下的惩罚图和本征图,并且可以挖掘 ELM 特征空间中数据之间的局部近邻和全局结构信息,在人脸识别和行为识别上取得了一定的效果,但和深度学习相比,其表征能力仍然有限.针对 ELM 的随机特征映射不能适应7期 徐 睿等:极限学习机前沿进展与趋势3461版日期:2019-03-01.本课题得到国家自然科学基金项目(71531012,61762073,71601013)、国家社会科学基金(18ZDA309)、北京市自然科学基金(4172032,4174087)、北大方正集团有限公司数字出版技术国家重点实验室开放课题资助.徐 睿,博士研究生,主要研究方向为图像处理、机器学习.E-mail:xurui1064@ruc.edu.cn.梁 循(通信作者),教授,博士生导师,中国计算机学会(CCF)高级会员,主要研究领域为数据挖掘、神经网络、社会计算.E-mail:xliang@ruc.edu.cn.齐金山,博士研究生,主要研究方向为社会计算、数据挖掘.李志宇,博士研究生,中国计算机学会(CCF)会员,主要研究方向为社会计算、自然语言处理.张树森,博士研究生,主要研究方向为数据挖掘、社会计算.极限学习机前沿进展与趋势徐 睿 梁 循 齐金山 李志宇 张树森(中国人民大学信息学院 北京 100872)摘 要 极限学习机(Extreme Learning Machine,ELM)作为前馈神经网络学习中一种全新的训练框架,在行为识别、情感识别和故障诊断等方面被广泛应用,引起了各个领域的高度关注和深入研究.ELM 最初是针对单隐层前馈神经网络的学习速度而提出的,之后又被众多学者扩展到多隐层前馈神经网络中.该算法的核心思想是随机选取网络的输入权值和隐层偏置,在训练过程中保持不变,仅需要优化隐层神经元个数.网络的输出权值则是通过最小化平方损失函数,来求解 Moore-Penrose广义逆运算得到最小范数最小二乘解.相比于其它传统的基于梯度的前馈神经网络学习算法,ELM 具有实现简单,学习速度极快和人为干预较少等显著优势,已成为当前人工智能领域最热门的研究方向之一.ELM 的学习理论表明,当隐层神经元的学习参数独立于训练样本随机生成,只要前馈神经网络的激活函数是非线性分段连续的,就可以逼近任意连续目标函数或分类任务中的任何复杂决策边界.近年来,随机神经元也逐步在越来越多的深度学习中使用,而 ELM 可以为其提供使用的理论基础.本文首先概述了ELM 的发展历程,接着详细阐述了 ELM 的工作原理.然后对 ELM 理论和应用的最新研究进展进行了归纳总结,着重讨论并分析了自 ELM 提出以来的主要学习算法和模型,包括提出的原因、核心思想、求解方法、各自的优缺点以及相关问题.最后,针对当前的研究现状,指出了 ELM 存在的争议、问题和挑战,并对未来的研究方向和发展趋势进行了展望.关键词 极限学习机;网络结构;正则化;核学习;深度学习;在线学习;并行计算中图法分类号 TP18   DOI号 10.11897/SP.J.1016.2019.01640Advances and Trends in Extreme Learning MachineXU Rui LIANG Xun QI Jin-Shan LI Zhi-Yu ZHANG Shu-Sen(School of Information,Renmin University of China,Beijing 100872)Abstract  Extreme Learning Machine (ELM)as a new single hidden layer feedforward neuralnetwork(SLFN)learning framework has obtained extensive attention and in-depth research invarious domains.It has been widely used in many applications,such as action recognition,emotion recognition,fault diagnosis,and so on.ELM was originally proposed for“generalized”single hidden layer feedforward neural networks to overcome the challenging issues faced byback-propagation(BP)learning algorithm and its variants.Recent studies show that ELM can beextended to“generalized”multilayer feedforward neural networks in which a hidden node could bea subnetwork of nodes or a combination of other hidden nodes.ELM provides an efficient andunified learning framework for regression,classification,feature learning,and clustering.Thelearning theories of ELM show that when learning parameters of hidden layer nodes are generatedindependently of training samples,as long as the activation function of feedforward neuralnetwork is non-linear and continuous,it can approach any continuous objective function or any制问题,Yu等人[24]提出一种稀疏编码 ScELM(Sparse coding ELM)算法.该算法使用稀疏编码技术代替随机映射将输入特征向量映射到隐层,以提高分类准确率.在编码阶段使用基于梯度投影和L1范数的优化方法,而输出权值则通过拉格朗日乘子法求得.加权 RELM 对零均值高斯噪声有很好的稳健性,但是其性能严重依赖于误差权值估计的准确性,特别是在复杂应用环境下,会产生高昂的计算成本,导致模型的效率降低.为了解决 这 一 问 题,Lu 等 人[25]提 出 了 一 种 概 率 正 则ELM 算法.该算法考虑了建模过程中误差的分布,确保模型误差和噪声分布的一致性,通过构造一个新的目标函数来最小化模型误差的均值和方差,从而提高 了 模 型 对 离 群 点 或 非 高 斯 噪 声 的 鲁 棒 性.然而,该 算 法 无 法 处 理 具 有 不 同 噪 声 分 布 的 大 规模数据集.此外,如何将其扩展到处理非平衡数据、半监督和 无 监 督 的 情 况 下 还 需 进 一 步 研 究.Zhao等人[26]将模型的偏差和方差同时引入到目标函数中进 行 优 化,并 保 持 L2惩 罚 项 不 变,提 出 了 鲁 棒RRELM(Robust RELM)算法.RRELM 同时考虑了模型的偏差和方差,力求在两者之间取得最佳的折中,以达到增强网络泛化性能和鲁棒性的目的.可以从理论上证明,RELM 是 RRELM 的一种特例,并且 RRELM 拥有和传统 ELM 及 RELM 相同的计算效率.Chen等人[27]进一步研究了不同的 M 估计函数和正则化项在 ELM 中的作用,基于稳健回归理论,提 出 了 一 种 使 用 迭 代 重 加 权 最 小 二 乘 法(Iteratively Reweighted Least Squares,IRLS)的鲁棒 正 则 RELM-IRLS(Robust Regularized ELMRegression Using IRLS)回归模型.在 RELM-IRLS中,L1范数、Huber损失函数、Bisquare损失函数和Welsch损失函数同时被用来增强模型的鲁棒性,并使用 L1正 则 化 和 L2正 则 化 来 防 止 过 拟 合.由 于RELM-IRLS需要优化的参数较多,导致算法的时间复杂度较大,因 此 无法有效处 理大规模 数据集.针对不 平衡数据 的 分类问题,Xiao等人[28]提 出 了CCR-ELM(Class-specific Cost Regulation ELM)算法,通过对不同类的错分样本施加不同的惩罚因子,实现错分样本数目和模型泛化能力的折中.和标准ELM 相比,CCR-ELM 可以显著提高非平衡数据的分类准确率.CCR-ELM 中的隐节点个数、正负样本权重以及核参数对模型的性能影响较大,如何开发更有效的方法来确定这些参数还有待进一步研究.上述研究表明,将正则化引入 ELM 中能够在一定程度上解决过拟合问题,提高模型的鲁棒性和泛化能力.但是由于在目标函数中增加了正则化参数需要进行优化,降低了算法的学习效率.表1对当前部分正则极限学习机模型进行了汇总,并对它们的算法思想、采用的正则化方法、特征映射、鲁棒性、测试数据集和应用等方面进行了比较.表 1 正则极限学习机模型模型 核心思想L1正则化L2正则化流形正则化特征映射加权二乘鲁棒性评测数据集应用WRELM[18]§结构风险§加权残差√ Sigmoid √ √※人工数据“SinC”※13个基准数据集回归ORELM[19]§权重稀疏§ALM√ √ Sigmoid √※人工数据“SinC”※3个 UCI数据集回归SS-ELM[20]US-ELM[20]§图嵌入 √ √SigmoidGaussian√ √※5个半监督数据集※3个 UCI数据集※2个人脸数据集分类回归聚类AMGR-SSELM[22]§多图构造 √ √ √ Sigmoid √※4个人脸数据库※PloyU FKP数据库分类GEELM[23]§图嵌入§子空间学习√ √ Gaussian※8个分类数据集※9个行为数据集分类ScELM[24]§稀疏编码§梯度投影√ Sigmoid※8个二分类数据集※8个多分类数据集分类RRELM[26]§偏差方差最小化 √SigmoidFourier√ √※5个 UCI数据集※发动机推力数据分类回归RELM-IRLS[27]§稀疏权重§IRLS√ √ Sigmoid √ √※人工数据“SinC”※5个基准数据集回归CCR-ELM[28]§错分样本损失惩罚 √SigmoidGaussian√ √※19个 UCI数据集※高炉状态诊断分类4461 计  算  机  学  报 2019年有很多种选择,既可以是显式映射,也可以是隐式映射.隐式映射巧妙利用核方法得到特征向量之间的内积,因此不需要显示地定义特征空间和映射函数.核方法实质是通过核函数隐式地将输入空间中低维的线性不可分样本映射到高维甚至无限维的特征空间,使得原空间的非线性可分问题转化为特征空间中的线性可分问题,是机器学习领域里一类非常重要的方法.传统的 ELM算法采用显式的非线性特征映射,对于比较复杂的分类、回归等非线性模式识别任务往往需要更多的隐层神经元,导致网络的结构非 常复杂.Huang等人[11]将核函数引入到 ELM 中,提出了基于核方法的 KELM(Kernel ELM)算法,为回归、二分类和多分类问题提供了一个统一的学习框架.在隐层的特征映射h(x)具体形式未知的情况下,需要引入核函数来度量样本之间的相似度,可以根据 Mercer条件定义 ELM 的核矩阵,表示如下:ΩELM=HHT:ΩELMi,j=h(xi)·h(xj)=K(xi,xj)(7)这样,KELM 模型的输出可以表示为f(x)=h(x)β=h(x)HTIC+HH( )T-1T=K(x,x1)K(x,xN熿燀燄燅)TIC+Ω( )ELM-1T (8)从上式可以看出,核矩阵 ΩELM=HHT∈RN×N仅和输入数据xi以 及 训 练 样 本 的 个 数 有 关.在 KELM中,通过核函数 K(xi,xj)将低维输入空间中的数据(xi,xj)转化为高维特征空间中的内积h(xi)·h(xj),与特征空间的维数无关,可以有效避免维数灾难问题.KELM 只需要预先选定核函数,不需要显式地定义映射函数,也不需要设置隐层神经元个数,从而节省了隐层神经元个数优化的时间.相比于传统的ELM 算法,KELM 用核映射代替随机映射,能够有效改善隐层神经元随机赋值带来的泛化性和稳定性下降的问题.针对二分类问题,Liu 等人[29]将 ELM 的学习思想引入到 SVM(Support Vector Machine)中,提出了 ESVM(Extreme Support Vector Machine)算法.该算法首先将输入数据映射到 ELM 特征空间,然后在特征空间中采用正则最 小二乘法求解分类超平面.ESVM 仅 需 要 求 解 一 个 简 单 的 线 性 方 程组,和标准的 SVM 相比,具有实现简单,训练速度更快的优点.然而,ESVM 没有考虑 如何求得最大间隔分离超平面,也没有充分利用对偶算法的优点.Frénay等人[30]通过定义 ELM 核(ELM kernel)将SVM 和 ELM 算法融合在一个框架中.ELM kernel由传统 ELM 隐层的特征映射h(x)扩展为核 方 法中的核映射得到,然后被用来代替 SVM 的核函数进行训练.和传统的核函数相比,ELM kernel不需要优化核参数,降低了计算复杂度,并且能够得到最大间隔分类超平面.Huang等人[31]进一步研究了基于标准优化方法的二分类 ELM 算法,通过对每个样本点(xi,xj)引入一个松弛变量εi0,使函数间隔加上松弛 变 量 大 于 等 于 1.此 时,约 束 条 件 变 成下式:tiβ·h(xi)1-εi,i=1,2,…,N (9)其中,ti∈{-1,+1},xi∈Rn,当ti=-1时,对应的样本xi称为负类;当ti=+1时,对应的样本xi称为正类.这样,从标准优化理论的角度来看,ELM 的学习问题可以转化为如下二次规划问题:minβ,ε12β2+C∑Ni=1εis.t.tiβ·h(xi)1-εi,i=1,2,…,N (10)εi0其中,C 为惩罚参数,C 取值越小,对误分类的惩罚越小,C 取值越大,对误分类的惩罚越大.从式(10)可以看出,ELM 和标准 SVM 具有相似的优化目标函数,主要区别在于:(1)ELM 的特征映射h(x)具有随机性,即h(x)中的所有参数均可以随机产生.(2)SVM 的判别函数中含有偏置项,而 ELM特征空间中的分类超平面会经过原点,因此在对偶问题中少了对偏置项的等式约束条件.基于 标 准 优 化 方 法 构 建 的 ELM 模 型 要 比Liu[29]和 Frénay[30]等 人 提出的算法 具有更少 的约束条件.此外,最小化输出权值β等同于最大化分类间隔 2/β,这 和 SVM 的学 习策 略 相 一 致,如图2所示.文献[32]对 ELM 的核函数以及 ELM 和SVM 之间的关系进行了深入的研究和比较,详细分析了在使用相同核函数的情况下 SVM 和 LS-SVM比 ELM 更 容 易 产 生 次 优 解 的 原 因.为 了 能 够 快速处理在线大规模数据学习问题,He等人[33]提出了一 个 并 行 增 量 PIESVM (Parallel IncrementalExtreme SVM)分类算法.该算法首先基于并行编程框 架 MapReduce 实 现 ESVM 的 并 行 化,提 高ESVM 处理大规模数据的训练速度,然后又提出了7期 徐 睿等:极限学习机前沿进展与趋势5461来满足在线学习对现有模型进行更新的需求.PIESVM 不仅可以处理大规模数据,而且在加速比、规模增长性等评估指标方面也具有很好的扩展性.针对 KELM 在处理大样本数据时计算复杂度和空间复杂度过高的问题,Deng等人[34]采用 Nystrm 方法来求解核矩阵的近似低秩分解,实 现 了 一 种 加 速 NKELM(Nystrm KernelELM)算 法.NKELM 的 训 练 时 间 远 低 于 传 统 的KELM,适合用来处理大规模数据.NKELM 的惩罚参数和核参数通常使用交叉验证法确定,模型的泛化性能对这些参数的取值非常敏感,因此如何高效自适应确定 NKELM 的参数还需进一步研究.此后,Deng等人[35]又 提 出 了 一 种 快 速 的 非 迭 代 简 化 核RKELM(Reduced Kernel ELM)算法.该算法从训练数据集中随机选择一个子集作为支撑向量,无需迭代计算节省了大量的训练时间.理论研究表明,当核函数严格正定并且所有的训练样本都被选为支撑向量时,RKELM 就能零误差地逼近任意非线性函数.如何将 RKELM 扩展到半监督和无监督学习任务中值得进一步研究.针对海量数据学习问题,Bi等人[36]从理论角度研究了 KELM,并提出了一个分布式解决方案 DK-ELM(Distributed Kernelized ELM).通过在 MapReduce上实 现 并 行 化 的 KELM,可 以有效避免单机环境下大规模核矩阵运算的大量内存消耗 问 题.然 而,当 数 据 集 中 存 在 较 多 离 群 点 时,DK-ELM 的泛化能力和鲁棒性都会受到较大的影响,无法有效学习.传 统 的 ELM 和 KELM 都不具有稀疏性,其逆矩阵的计算复杂度至少与训练样本的规模呈二次方关系,因此在处理大规模二分类问题时,往往需要消耗大量的存储空间和训练时间.受序列最小优化算法的启发,Bai等人[37]提出了一种图 2 ELM 特征空间中的最优分类超平面高效的极 限 学 习 机 训 练 方 法.该 方 法 将 优 化 过 程中的原始大型二次规划问题分解 为一 系列最小的子二次规划问题迭代求解,避免了矩阵的逆运算,从而降低了时空复杂度.Chen等人[38]将 MPE(Meanp-Power Error)引入到核空间中,定义了一个新的核空间统计量 KMPE(Kernel Mean p-Power Error),并将其与ELM 相结合,提出了一种鲁棒ELM-KMPE学习算法.虽然 ELM-KMPE 能够处理非高斯信号且对噪声具有一定的鲁棒性,但是如何高效地优化KMPE中的核参数和p 参数仍是一个难题.2.4 多核极限学习机KELM 的泛化性能在很大程度上依赖于核函数及其参数的选择,针对不同的问题如何设计相应的核函数仍然是核学习中的一个开放性问题.常用的核函数主要有:线性核函数、多项式核函数、高斯核函数和Sigmoid核函数.除了上述核函数外,还有字符串核、小波核、卷积核等,这些核函数还可以作为基函数,通过线性组合或非线性组合等多核学习方法构造出混合核函数.Liu等人[39]提出了一个基于多核 ELM 的多源 异构数据集 成 框架 MK-ELM(Multiple Kernel ELM).在 MK-ELM 中,假设最优核为一组基核函数的线性组合,在训练过程中对基核函数的组合权重和 ELM 的网络结构参数进行联合优化.对于不同的应用,如何自适应选择基核函数并快速确定不同核的权系数,提高 MK-ELM 的训练效率仍是一个难点.针对人体动作识别中存在不平衡数据的问题,Wu等人[40]提出了一种基于混合核函 数 的 加 权 MK-WELM (Mixed-kernel BasedWeighted ELM)算 法.该 算 法 根 据 样 本 的 分 布 信息,将代价敏感函数引入到 ELM 中,以减少不平衡数据对分类器的影响.同时,为了进一步提高识 别准确率,减少核函数对分类器的影响,用高斯核 和多项 式 核 的 线 性 组 合 优 化 核 来 训 练 模 型.由 于MK-WELM 中需要优化的参数较 多,导致算法的计算复杂度很高,因此无法有效处理大规模数据集.Li等人[41]研究了大规模数据 集中 ELM 的多核组合优化,并将其转化为一个半无限线性规划问题,提出了基于多核学习的 MKL-ELM(Multiple-KernelLearning ELM)算法.在多核模型中,核函数既可以是给定的不同核的凸组合,也可以是同一个核的不同参数的凸组合,而最优核由黑盒学习方法得到.虽然多核 ELM 算法在理论上和实验结果中表现出比单核 ELM 更强的非线性表达能力和稳定性.但是随着核函数的增加,参数的优化 问题也凸 显 出来,通常需要更多的时间进行模型选择,增加了计算复杂度.针对金融领域多源异构数据中的信息融合问6461 计  算  机  学  报 2019年学习和多核学习方法,提出了一种增量多核IMK-ELM(Incremental MultipleKernel ELM)算法,并将其用于智能理财顾问推荐系统中.该模型最初只设置少量隐层神经元,然后在训练过程中逐步添加新的神经元直到网络的训练结果稳定下来.IMK-ELM 在优化过程中 同时更新训练数据集和多源信息组合权重,并假设最优核为不同特性核函数的线性组合,融合多类核函数的优点,从而得到更高水平的综合特征来表示投资者的偏好.表2从算法核心思想、特征映射、测试数据集和应用这几个方面对当前最新的核极限学习机模型进行了总结.表 2 核极限学习机模型模型 核心思想 特征映射 评测数据集 应用NKELM[34]§低秩分解 Gaussian kernel ※5个基准数据集 分类RKELM[35]§随机选择支撑向量 Gaussian kernel※6个大规模数据集※15个小规模数据集分类回归DK-ELM[36]§MapReduce  Gaussian kernel※4个合成数据集※4个 UCI数据集分类Sparse-ELM[37]§SMOGaussian kernelPolynomial kernel※15个基准数据集 分类ELM-KMPE[38]§KMPE  Gaussian kernel※人工数据“SinC”※16个基准数据集分类回归MK-WELM[40]§多核学习§代价敏感函数Gaussian-GaussianPolynomial-GaussianPolynomial-Polynomial※LDPA 行为数据集※7个二分类不平衡数据集※5个多分类不平衡数据集分类MKL-ELM[41]§多核学习§半无限线性规划§二次约束二次规划Gaussian-Polynomial-Linear-LaplacianGaussian-Gaussian※13个分类数据集 分类IMK-ELM[42]§增量学习§多核学习Gaussian kernelPolynomial kernel※BCSs数据集分类回归2.5 在线序列极限学习机ELM 的学习过程通常都是在给定的训练集上完成的,即需要一次性获取所有的训练样本来进行训练.然而,对于实际应用环境而言,训练数据不是静态不变的,而是逐个或者逐批加入的,是一个随时间不断 更 新 变 化 的 过 程.当 有 新 的 训 练 样 本 出现时,ELM 会对原有数据和新数据重新进行训练,从而导致学习效率低下,难以满足在线实时应用的需求.为了解决这一问题,Liang等人[43]提出了一种基于递推最小二乘法的在线序列 OS-ELM(OnlineSequential ELM)算法.该算法首先通过少量的训练样本初始化网络的输出权值,然后在增量学习过程中,利用新增的样本或样本块递推更新上一步求出的网络输出权值.OS-ELM 只对当前产生的新样本进行更新,不需要重复训练旧的样本,能够处理训练样本逐块或逐个到达的情况,并且允许样本块的大小可变,因此具有良好的在线学习能力.虽然 OS-ELM通过分块矩阵的方法避免了旧数据的重新训练,减少了模型的训练时间,但由于需要保存旧训练样本的更新矩阵,增加了空间复 杂度.Lan等人[44]将集成的思 想 引 入 到 OS-ELM 中,提 出 了 EOS-ELM(Ensemble of Online Sequential ELM)算法.该算法首先训练多个具有相同隐层神经元个数和激活函数的 OS-ELM 子网络,然后通过简单平均的策略对这些 OS-ELM 子学习器进行集成.EOS-ELM 在一定程度上减少了隐层神经元参数随机赋值对模型稳定性产生的影响,提高了 OS-ELM 的泛化性能.但由于学习过程中需要训练多个 OS-ELM 并对其结果进行存储,通常需要较高的时间开销和空间成本.在诸如股票价格预测,天气预报等大量实际应用中,训练数据除了具有实时动态变化的特外性往往还具有时效性.因此,在增量学习过程中加入新样本的同时,也应该及时淘汰那些过于陈旧的样本.OS-ELM和 EOS-ELM 显然不能很好地反映在线 训练数据的时效性.针对这一问题,Zhao等人[45]将遗忘机制和 EOS-ELM 相 结 合,提 出 了 FOS-ELM(OnlineSequential ELM with Forgetting Mechanism)算法.该算法通过设置滑动时间窗口来完成模型的在线更新,能够在学习过程中丢弃过时的数据,减少其对后续训练的不良影响,具有良好的在线数据处理能力.Gu等人[46]提出了一种基于 ELM 的时效在线序列TOSELM(Timeliness Online Sequential ELM)算7期 徐 睿等:极限学习机前沿进展与趋势7461法.该算法通过计算时序数据的均值和方差并采用指数函数对新增数据分配不同的惩罚权重,同时使用一种自适应迭代方案来更新输出权值以提高模型的稳定性和收敛性.该方法在训练过程中引入了额外的迭代和停止条件,增 加了模 型的 计算复杂度.Huynh等人[47]将结构风险最小化理论引入到 OS-ELM 中,提出了一种基 于 正 则 ELM 的 在线 序 列ReOS-ELM(Regularized OS-ELM)算法.该算法在经验风险的基础上加了一个控制目标函数光滑程度的 Tikhonov正则化项,通过调节正则化参数,选择复杂度适中的模型,以达到测试误差最小的学习目的.针对在线学习中类别不平衡问题,Mirza等人[48]提出了加权 WOS-ELM(Weighted Online Sequen-tial ELM)算法.该算法采用衡量正负样本分类精度的平衡因子 G-mean作为分类器整体性能的评价指标,对不同的数据块施加不同的权值以使 G-mean尽可能最大,这样就不再需要对旧的训练样本进行权值调整,可以缓解不平衡样本分布带来的问题.在实际应用中,由于计算复杂 性、存储和传输等问题,限制了大规模数据的集中处理.为了解决这一问题,Vanli等人[49]对分布式多智能体系统中的非线性序列学习问题进行了研究,并提出了一种分布式序列分裂 DSS-ELM(Distributed SequentialSplitting ELM)算法.研究表明,DSS-ELM 的计算复杂度仅和隐层神经元的个数呈线性关系,不仅适用于大规 模 数 据 流,而 且 还 能 以 较 快 的 速 度 处 理非平稳环 境 中 的 数 据.针 对 非 平 稳 时 间 序 列 的 预测问题,Wang等人[50]提出了一种基于在线序列训练的 核 OS-ELMK(Online Sequential ELM withKernels)预测算法.在 OS-ELMK 中,使 用 隐 式 的核映射代 替 显 式 的 特 征 映 射 函 数,不 需 要 确 定 隐层输出矩 阵,通 过 计 算 核 函 数 来 得 到 网 络 的 最 终输出,避免 了 隐 层 神 经 元 个 数 优 化 的 难 题.然 而,OS-ELMK 的抗干扰能力比较差,无法处理带有噪声的数据流.Scardapane等人[51]研究了 ELM 理论和核自适应滤波之间的内在联系,并将核递归最小二乘法扩展到 OS-ELM 框架中,提出了一种基于核函数的 KOS-ELM(Kernel Online Sequential ELM)在线学习算法.该算法采用近似线性依赖和固定预算这两种稀疏化准则来控制网络结构的增长.由于在训练过程中增加了多重判断机制,KOS-ELM 通常需要较高的时间开销.Deng等人[52]提出了一种在线 序 列 简 化 核 OS-RKELM (Online SequentialReduced Kernel ELM)算法,为在线学习中的二分类、多分类和回归任务提供了一个统一的学习框架.OS-RKELM 不仅支持增量学习,同时还支持学习模型中的递减更新.但是,当数据流中存在较多离群点时,OS-RKELM 的鲁棒性会变得非常差,从而影响模型的 泛 化 性 能.针 对 非 静 态 环 境 中 数 据 流 的概念漂移问题,Liu等人[53]在 OS-RELM 的基础上提出 了 一 种 带 有 遗 忘 系 数 的 在 线 序 列 FP-ELM(Forgetting Parameters ELM)算法.该算法的核心思想是对训练过程中不同时期加入的数据块施加不同的权重.但是 FP-ELM 在计算遗忘参数的过程中引 入 了 额 外 的 可 调 节 参 数,增 加 了 计 算 复 杂 度.Zhang等人[54]将元认知 理 论扩 展 到 OS-ELM 中,并采用主动学习方法选择最具代表性的样例加入样本池来扩充训练集的规模,提出了一种基于 ELM 的元在线序列主动学习 算法 SEAL-ELM(SequentialActive Learning Using Meta-cognitive ELM).该算法由认知成分和元认知成分两部分构成,将 OS-ELM作为认知成分,而元认知成分使用自我调节机制来控制认知成分的学习过程.SEAL-ELM 通过主动学习选择有价值的未标注样例进行标注,减少了训练所需的标注代价,同时提高了分类器的分类精度.在实际的工业生产过程中采集的样本往往带有不同统计特征的噪声,针对这一问题,Yang等人[55]提出了RLMP-ELM(Recursive Least Mean p-Power ELM)在线序列学习算法.该算法采用 LMP(Least Meanp-Power)误差准则来更新 ELM 的输出权值,能够对具有不 同 统 计 噪 声 的 变 量 进 行 在 线 预 测.尽 管RLMP-ELM 可以通过设置不同的p 值范围处理重尾分布和轻尾分布数据,但是如何确定准确的p值才能获得最好的泛化性能目前尚不清楚.为了解决标注样本容量的限制问题,Yang等人[56]将增量拉普拉斯正则化引入到 ELM 中,提出了一种半监督的ILR-ELM(Incremental Laplacian RegularizationELM)在线学习算法.该算法利用图拉普拉斯将标记样本与未标记样本合并,因此只需要少量标记样本即可实现稳健的分类和回归模型.表3对当前最新的在线序列极限学习机算法进行了归纳,并对它们的核心思想、特征映射、评测数据集和应用等方面进行了总结.8461 计  算  机  学  报 2019年

[返回]
上一篇:深度学习FPGA加速器的进展与趋势
下一篇:智能家居场景联动中基于知识图谱的隐式冲突检测方法研究