极限学习机前沿进展与趋势 - 机械论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

机械论文

当前位置：首页 > 机械论文

极限学习机前沿进展与趋势

来源：一起赢论文网日期：2020-02-21 浏览数：2611 【字体：大中小】

ｎｄａｒｙ　ｉｎ　ｔｈｅ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｔａｓｋ．Ｉｎ　ＥＬＭ，ｔｈｅ　ｉｎｐｕｔ　ｗｅｉｇｈｔｓ　ａｎｄ　ｈｉｄｄｅｎｂｉａｓｅｓ　ｃｏｎｎｅｃｔｉｎｇ　ｔｈｅ　ｉｎｐｕｔ　ｌａｙｅｒ　ａｎｄ　ｔｈｅ　ｈｉｄｄｅｎ　ｌａｙｅｒ　ｃａｎ　ｂｅ　ｉｎｄｅｐｅｎｄｅｎｔ　ｏｆ　ｔｈｅ　ｔｒａｉｎｉｎｇ　ｓａｍｐｌｅａｎｄ　ｒａｎｄｏｍｌｙ　ｇｅｎｅｒａｔｅｄ　ｆｒｏｍ　ａｎｙ　ｃｏｎｔｉｎｕｏｕｓ　ｐｒｏｂａｂｉｌｉｔｙ　ｄｉｓｔｒｉｂｕｔｉｏｎ．Ｔｈｅ　ｏｕｔｐｕｔ　ｗｅｉｇｈｔ　ｍａｔｒｉｘｂｅｔｗｅｅｎ　ｔｈｅ　ｈｉｄｄｅｎ　ｌａｙｅｒ　ａｎｄ　ｔｈｅ　ｏｕｔｐｕｔ　ｌａｙｅｒ　ｉｓ　ｏｂｔａｉｎｅｄ　ｂｙ　ｍｉｎｉｍｉｚｉｎｇ　ｔｈｅ　ｓｑｕａｒｅ　ｌｏｓｓ　ｆｕｎｃｔｉｏｎａｎｄ　ｓｏｌｖｉｎｇ　ｔｈｅ　Ｍｏｏｒｅ－Ｐｅｎｒｏｓｅ　ｇｅｎｅｒａｌｉｚｅｄ　ｉｎｖｅｒｓｅ　ｏｐｅｒａｔｉｏｎ　ｔｏ　ｏｂｔａｉｎ　ｔｈｅ　ｍｉｎｉｍｕｍ　ｎｏｒｍ　ｌｅａｓｔｓｑｕａｒｅｓ　ｓｏｌｕｔｉｏｎ．Ｔｈｅ　ｏｎｌｙ　ｐａｒａｍｅｔｅｒ　ｔｈａｔ　ｎｅｅｄｓ　ｔｏ　ｂｅ　ｏｐｔｉｍｉｚｅｄ　ｉｓ　ｔｈｅ　ｎｕｍｂｅｒ　ｏｆ　ｈｉｄｄｅｎ　ｌａｙｅｒｎｏｄｅｓ．Ｉｔ　ｈａｓ　ｂｅｅｎ　ｓｈｏｗｎ　ｂｙ　ｔｈｅｏｒｅｔｉｃａｌ　ｓｔｕｄｉｅｓ　ｔｈａｔ　ＥＬＭ　ｉｓ　ｃａｐａｂｌｅ　ｏｆ　ｍａｉｎｔａｉｎｉｎｇ　ｔｈｅ　ｕｎｉｖｅｒｓａｌａｐｐｒｏｘｉｍａｔｉｏｎ　ａｎｄ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｃａｐａｂｉｌｉｔｙ　ｏｆ　ＳＬＦＮｓ　ｅｖｅｎ　ｉｆ　ｉｔ　ｗｏｒｋｓ　ｗｉｔｈ　ｒａｎｄｏｍｌｙ　ｇｅｎｅｒａｔｅｄｈｉｄｄｅｎ　ｎｏｄｅｓ．Ｄｉｆｆｅｒｅｎｔ　ｆｒｏｍ　ｔｒａｄｉｔｉｏｎａｌ　ｇｒａｄｉｅｎｔ－ｂａｓｅｄ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ　ｌｅａｒｎｉｎｇ　ａｌｇｏｒｉｔｈｍｓ，ｗｈｉｃｈ　ａｒｅ　ｓｅｎｓｉｔｉｖｅ　ｔｏ　ｔｈｅ　ｃｏｍｂｉｎａｔｉｏｎ　ｏｆ　ｐａｒａｍｅｔｅｒｓ　ａｎｄ　ｅａｓｙ　ｔｏ　ｔｒａｐ　ｉｎ　ｌｏｃａｌ　ｏｐｔｉｍｕｍ，ＥＬＭ　ｈａｓｆａｓｔｅｒ　ｌｅａｒｎｉｎｇ　ｓｐｅｅｄ，ｌｅａｓｔ　ｈｕｍａｎ　ｉｎｔｅｒｖｅｎｔｉｏｎ　ａｎｄ　ｅａｓｙ　ｔｏ　ｉｍｐｌｅｍｅｎｔａｔｉｏｎ．Ｉｎ　ａ　ｗｏｒｄ，ＥＬＭ　ｈａｓｂｅｃｏｍｅ　ｏｎｅ　ｏｆ　ｔｈｅ　ｍｏｓｔ　ｐｏｐｕｌａｒ　ｒｅｓｅａｒｃｈ　ｄｉｒｅｃｔｉｏｎｓ　ｉｎ　ｔｈｅ　ｆｉｅｌｄ　ｏｆ　ａｒｔｉｆｉｃｉａｌ　ｉｎｔｅｌｌｉｇｅｎｃｅ　ｉｎ　ｒｅｃｅｎｔｙｅａｒｓ　ａｎｄ　ｒｅｃｅｉｖｅｄ　ｗｉｄｅｓｐｒｅａｄ　ａｔｔｅｎｔｉｏｎ　ｆｒｏｍ　ｍｏｒｅ　ａｎｄ　ｍｏｒｅ　ｒｅｓｅａｒｃｈ　ｍｅｍｂｅｒｓ　ｄｏｍｅｓｔｉｃ　ａｎｄａｂｒｏａｄ．Ｔｏ　ｍａｋｅ　ｉｔ　ｍｏｒｅ　ｓｕｉｔａｂｌｅ　ａｎｄ　ｅｆｆｉｃｉｅｎｔ　ｆｏｒ　ｓｐｅｃｉｆｉｃ　ａｐｐｌｉｃａｔｉｏｎｓ，ＥＬＭ　ｔｈｅｏｒｉｅｓ　ａｎｄａｌｇｏｒｉｔｈｍｓ　ｈａｖｅ　ｂｅｅｎ　ｉｎｖｅｓｔｉｇａｔｅｄ　ｅｘｔｅｎｓｉｖｅｌｙ　ｉｎ　ｔｈｅ　ｐａｓｔ　ｆｅｗ　ｄｅｃａｄｅｓ．Ｒｅｃｅｎｔｌｙ，ｒａｎｄｏｍ　ｎｅｕｒｏｎｓｈａｖｅ　ｇｒａｄｕａｌｌｙ　ｂｅｅｎ　ｕｓｅｄ　ｉｎ　ｄｅｅｐ　ｌｅａｒｎｉｎｇ　ａｎｄ　ＥＬＭ　ｐｒｏｖｉｄｅｓ　ｔｈｅ　ｔｈｅｏｒｅｔｉｃａｌ　ｂａｓｉｓ　ｆｏｒ　ｕｓｅ．Ｔｈｉｓｐａｐｅｒ　ａｉｍｓ　ｔｏ　ｐｒｏｖｉｄｅ　ａ　ｃｏｍｐｒｅｈｅｎｓｉｖｅ　ｒｅｖｉｅｗ　ｏｆ　ｅｘｉｓｔｉｎｇ　ｒｅｓｅａｒｃｈ　ｒｅｓｕｌｔｓ　ｉｎ　ＥＬＭ．Ｗｅ　ｆｉｒｓｔ　ｇｉｖｅａｎ　ｉｎｔｒｏｄｕｃｔｉｏｎ　ｔｏ　ｔｈｅ　ｈｉｓｔｏｒｉｃａｌ　ｂａｃｋｇｒｏｕｎｄ　ａｎｄ　ｄｅｖｅｌｏｐｍｅｎｔｓ　ｏｆ　ＥＬＭ．Ｔｈｅｎ　ｗｅ　ｄｅｓｃｒｉｂｅ　ｔｈｅｐｒｉｎｃｉｐｌｅ　ａｎｄ　ａｌｇｏｒｉｔｈｍ　ｏｆ　ＥＬＭ　ｉｎ　ｄｅｔａｉｌ　ｆｏｌｌｏｗｅｄ　ｂｙ　ｔｈｅ　ｉｎｔｒｏｄｕｃｔｉｏｎ　ｏｆ　ｉｔｓ　ｆｅａｔｕｒｅ　ｍａｐ　ａｎｄ　ｆｅａｔｕｒｅｓｐａｃｅ．Ａｆｔｅｒ　ａｎ　ｏｖｅｒｖｉｅｗ　ｏｆ　ＥＬＭ　ｔｈｅｏｒｙ，ｗｅ　ｄｉｓｃｕｓｓ　ａｎｄ　ａｎａｌｙｚｅ　ｓｔａｔｅ－ｏｆ－ｔｈｅ－ａｒｔ　ａｌｇｏｒｉｔｈｍｓ　ｏｒｔｈｅ　ｔｙｐｉｃａｌ　ｖａｒｉａｎｔｓ　ｏｆ　ＥＬＭ，ｉｎｃｌｕｄｉｎｇ　ｍｏｄｅｌｓ，ｓｏｌｕｔｉｏｎ　ａｐｐｒｏａｃｈｅｓ　ａｎｄ　ｒｅｌｅｖａｎｔ　ｐｒｏｂｌｅｍｓ．Ｏｎｔｈｉｓ　ｂａｓｉｓ，ｔｈｅ　ｃｏｒｅ　ｉｄｅａｓ，ａｄｖａｎｔａｇｅｓ　ａｎｄ　ｄｉｓａｄｖａｎｔａｇｅｓ　ｏｆ　ｅａｃｈ　ａｌｇｏｒｉｔｈｍ　ａｒｅ　ｓｕｍｍａｒｉｚｅｄ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｔｈｅ　ｌａｔｅｓｔ　ａｐｐｌｉｃａｔｉｏｎｓ　ｏｆ　ＥＬＭ　ａｒｅ　ｒｅｖｉｅｗｅｄ．Ｉｎ　ｔｈｅ　ｅｎｄ，ｓｅｖｅｒａｌ　ｃｏｎｔｒｏｖｅｒｓｉｅｓ，ｏｐｅｎ　ｉｓｓｕｅｓ　ａｎｄ　ｃｈａｌｌｅｎｇｅｓ　ｉｎ　ＥＬＭ　ａｒｅ　ｐｏｉｎｔｅｄ　ｏｕｔ　ｔｏｇｅｔｈｅｒ　ｗｉｔｈ　ｉｔｓ　ｆｕｔｕｒｅ　ｒｅｓｅａｒｃｈ　ｄｉｒｅｃｔｉｏｎｓ　ａｎｄｔｒｅｎｄｓ．Ｋｅｙｗｏｒｄｓ　ｅｘｔｒｅｍｅ　ｌｅａｒｎｉｎｇ　ｍａｃｈｉｎｅ；ｎｅｔｗｏｒｋ　ｓｔｒｕｃｔｕｒｅ；ｒｅｇｕｌａｒｉｚａｔｉｏｎ；ｋｅｒｎｅｌ　ｌｅａｒｎｉｎｇ；ｄｅｅｐｌｅａｒｎｉｎｇ；ｏｎｌｉｎｅ　ｓｅｑｕｅｎｔｉａｌ　ｌｅａｒｎｉｎｇ；ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ１　引　言过去的几十年里基于梯度的学习方法被广泛用于训练神经网络，如ＢＰ（Ｂａｃｋ　Ｐｒｏｐａｇａｔｉｏｎ）算法利用误差的反向传播来调整网络的权值．然而，由于不适当的学习步长，导致算法的收敛速度非常慢，容易产生局部最小值，因此往往需要进行大量迭代才能得到较为满意的精度．这些问题，已经成为制约其在应用领域发展的主要瓶颈．最近，Ｈｕａｎｇ等人［１］提出了一种简单高效的单隐层前馈神经网络（ＳｉｎｇｌｅＨｉｄｄｅｎ　Ｌａｙｅｒ　Ｆｅｅｄｆｏｒｗａｒｄ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ，ＳＬＦＮ）学习算法，称为极限学习机（Ｅｘｔｒｅｍｅ　ＬｅａｒｎｉｎｇＭａｃｈｉｎｅ，ＥＬＭ）．ＥＬＭ随机选取网络的输入权值和隐层偏置，通过解析计算得到输出权值，有效地克服了传统ＳＬＦＮ学习算法的不足，已被广泛用于疾病诊断、交通标志识别、图像质量评估等多个领域［２－４］．ＥＬＭ最初只能用于处理单隐层前馈神经网络，后来又被推广到ＲＢＦ神经网络、反馈神经网络、广义单隐层前馈神经网络和多隐层前馈神经网络［５－８］．从设计目标来看，ＥＬＭ力求将回归、分类、聚类、压缩、特征提取等机器学习领域的研究问题统一到同一个框架下解决．从学习效率的角度来看，ＥＬＭ实现简单，具有极快的学习速度和较少的人为干预．从理论研究来看，即使在随机生成隐层神经元参数的情况下，ＥＬＭ仍然能够保持ＳＬＦＮ的插值能力［９］、通用逼近能力［１０］和分类能力［１１］．从结构风险最小化的角度看，ＥＬＭ的ＶＣ维依赖于隐层神经元个数［１２］，可以通过调节ＥＬＭ隐层神经元个数来控制其ＶＣ维的大小，从而在训练误差和模型复杂度之间取得折中，以达到最优的泛化性能．从实现角度来看，硬件实现和并行计算技术大大加快了ＥＬＭ的训练速度，使７期徐　睿等：极限学习机前沿进展与趋势１４６１成为可能［１３－１４］．最近ＥＬＭ还被扩展到深度学习中［１５－１６］，并取得了丰富的研究成果．这些新兴算法的提出，极大地推动了ＥＬＭ的发展，作为人工智能领域的另一个研究热点，引起了工业界和学术界广泛深入的研究．本文对近年来ＥＬＭ的最新重要研究成果进行全面系统地分析和讨论，对ＥＬＭ自提出以来的主要算法和模型进行梳理、归纳和分类，如图１所示．在此基础上，对ＥＬＭ未来的发展方向提出了几点建议．本文第２节对当前主要的ＥＬＭ算法和模型进行全面介绍、总结和归纳；第３节对ＥＬＭ网络结构优化算法进行详细分析、比较和分类；第４节系统地阐述ＥＬＭ融合与加速模型；第５节深入讨论并分析深度ＥＬＭ模型的研究进展；第６节回顾ＥＬＭ及其变体在生物医学、计算机视觉和故障诊断等应用中的最新进展；第７节对ＥＬＭ中存在的一些争议进行分析和讨论．针对当前的研究现状，指出ＥＬＭ面临的问题与挑战，并对未来的研究方向和发展趋势做出展望；第８节对全文工作进行概括总结．图１　ＥＬＭ算法和模型分类２　ＥＬＭ算法最新进展近年来，ＥＬＭ的研究已有了较为迅速的进展，表现出广阔的发展和应用潜力，吸引了大量学术界和工业界研究人员的高度关注，并取得了丰硕的研究成果．本节将从不同角度对这些重要成果进行全面系统地分析、总结和归纳．２．１　标准极限学习机给定Ｎ个任意不同的训练样本｛（ｘｉ，ｔｉ）｝Ｎｉ＝１，其中ｘｉ＝［ｘｉ１，ｘｉ２，…，ｘｉｎ］Ｔ∈Ｒｎ为输入向量，ｔｉ＝［ｔｉ１，ｔｉ２，…，ｔｉｍ］Ｔ∈Ｒｍ为对应的期望输出向量．标准的带有ｎ个输入神经元，Ｌ个隐层神经元和ｍ个输出神经元且激活函数为ｇ（ｘ）的ＥＬＭ网络，其数学模型表示如下：Ｈβ＝Ｔ（１）其中，Ｈ＝［ｈ（ｘ１）Ｔ，…，ｈ（ｘＮ）Ｔ］Ｔ＝ｇ（ｗ１·ｘ１＋ｂ１） … ｇ（ｗＬ·ｘ１＋ｂＬ）︙  ︙ｇ（ｗ１·ｘＮ＋ｂ１） … ｇ（ｗＬ·ｘＮ＋ｂＬ熿燀燄燅）Ｎ×Ｌ（２）在ＥＬＭ中，Ｈ又被称为随机特征映射矩阵［１１］，ｗｉ＝［ｗｉ１，ｗｉ２，…，ｗｉｎ］Ｔ表示连接第ｉ个隐层神经元和输入层神经元的输入权值，ｂｉ表示第ｉ个隐层神经元的偏置，β＝［β１，β２，…，βＬ］Ｔ表示输出层和隐层之间的权值矩阵，Ｔ＝［ｔ１，ｔ２，…，ｔＮ］Ｔ表示训练样本期望输出矩阵．在隐层神经元参数（ｗｉ，ｂｉ）根据任意连续采样分布概率随机生成并给出训练样本之后，隐层输出矩阵Ｈ实际上是已知的，并且保持不变．这样，式（１）就转化为求解线性系统Ｈβ＝Ｔ的最小范数最小二乘解β＾β＾＝ＨＴ（３）其中，Ｈ表示隐层输出矩阵Ｈ的Ｍｏｏｒｅ－Ｐｅｎｒｏｓｅ广义逆．２．２　正则极限学习机标准的ＥＬＭ算法①是一个基于经验风险最小化原理的学习过程，训练出的模型容易产生过拟合现象．此外，当训练样本中出现较多的离群点时，隐层输出矩阵Ｈ具有不适定性，导致模型的泛化能力和鲁棒性都会受到影响．正则化理论可以用来有效地解决上述问题［１７］，正则化本质上是结构风险最小化策略的实现，是在经验风险的基础上加入了表示模型复杂度的正则化项或惩罚项．根据统计学习理论，在经验风险最小化的同时，模型越简单，置２４６１计　　算　　机　　学　　报２０１９年① ＥＬＭ　Ｓｏｕｒｃｅ　Ｃｏｄｅｓ．ｈｔｔｐ：／／ｗｗｗ．ｎｔｕ．ｅｄｕ．ｓｇ／ｈｏｍｅ／ｅｇｂ－ｈｕａｎｇ／好的泛化能力．标准正则ＥＬＭ（Ｒｅｇｕｌａｒｉｚｅｄ　ＥＬＭ，ＲＥＬＭ）的数学模型可表示如下：ｍｉｎβ∈ＲＬ×ｍ１２βσ１ｐ＋Ｃ２ξσ２ｑｓ．ｔ．ｈ（ｘｉ）β＝ｔ　Ｔｉ－ξＴｉ，ｉ＝１，２，…，Ｎ（４）其中，σ１＞０，σ２＞０，ｐ，ｑ＝０，１／２，１，２，…，＋∞，·ｐ表示向量或矩阵的Ｌｐ范数．ξｉ＝［ξｉ１，ξｉ２，…，ξｉｍ］Ｔ表示样本ｘｉ的训练误差，βσ１ｐ为正则化项，表示模型的复杂度；ξσ２ｑ是Ｎ个不同训练样本的总误差，代表经验风险；Ｃ０称为正则化参数或惩罚参数，用以平衡经验风险和模型复杂度．特别地，当σ１＝σ２＝ｐ＝ｑ＝２时，式（４）是一个等式约束下的二次规划问题．为此，对每一个等式约束条件引入拉格朗日乘子，通过构造拉格朗日函数转化为无约束最优化问题：Ｌ（β，ξ，α）＝１２β２＋Ｃ２∑Ｎｉ＝１ξｉ２－∑Ｎｉ＝１∑ｍｊ＝１αｉ，ｊ（ｈ（ｘｉ）βｊ－ｔｉ，ｊ＋ξｉ，ｊ）（５）其中，α＝［α１，α２，…，αｎ］Ｔ，αｉ＝［αｉ１，αｉ２，…，αｉｍ］Ｔ为拉格朗日乘子向量．求解式（５）可得ＲＥＬＭ的输出权值矩阵：β＾＝ＨＴＨ＋ＩＬ（）Ｃ－１ＨＴＴ，ＬＮＨＴ　ＨＨＴ＋ＩＮ（）Ｃ－１Ｔ，Ｌ＞烅烄烆Ｎ（６）其中，当ＬＮ时为一般情况，即隐层神经元个数小于训练样本个数，此时Ｉ为Ｌ×Ｌ单位矩阵．而当训练样本的个数小于隐层神经元个数Ｎ＜Ｌ，利用Ｗｏｏｄｂｕｒｙ公式可以等价地求出β＾，此时Ｉ为Ｎ×Ｎ单位矩阵．显然，在这种情况下，计算一个Ｎ×Ｎ维逆矩阵要比计算Ｌ×Ｌ维逆矩阵高效得多．当正则化项为参数向量的Ｌ２范数时，称为岭回归（Ｌ２正则化）；当正则化项为参数向量的Ｌ１范数时，称为ＬＡＳＳＯ（Ｌ１正则化）．岭回归和ＬＡＳＳＯ是两种最典型的正则化方法，此外还有一种称为弹性网络的正则化方法，在损失函数中同时加入Ｌ１惩罚项和Ｌ２惩罚项，对这两者进行折中．Ｄｅｎｇ等人［１８］研究了隐层神经元为Ｓｉｇｍｏｉｄ函数的Ｌ２正则化ＥＬＭ，针对数据集中是否存在明显的噪声，提出了无权ＲＥＬＭ（Ｕｎｗｅｉｇｈｔｅｄ　ＲＥＬＭ）和加权ＲＥＬＭ（Ｗｅｉｇｈｔｅｄ　ＲＥＬＭ）算法．加权ＲＥＬＭ采用加权最小二乘法计算输出权值，对噪声有一定的抗干扰能力，但由于训练过程中增加了计算误差的权值过程，在数据量很大的时候，时间消耗有所增加．无权ＲＥＬＭ的计算量和传统的ＥＬＭ算法基本一样，能够处理对实时性要求很高的应用．Ｚｈａｎｇ等人［１９］研究了回归问题中的异常值问题，提出了一种异常值鲁棒ＯＲＥＬＭ（Ｏｕｔｌｉｅｒ－Ｒｏｂｕｓｔ　ＥＬＭ）算法．针对异常值的稀疏特性，首先采用Ｌ１正则化提高模型的鲁棒性，然后利用Ｌ２正则化提高模型的泛化性能．此外，一种基于交替方向迭代的增广拉格朗日法被用于求解目标损失函数．由于在目标函数中引入了额外的正则参数需要优化，ＯＲＥＬＭ通常需要较长的训练时间．Ｈｕａｎｇ等人［２０］利用流形正则化理论来处理未标注样例之间的关系，提出了基于流形正则化的半监督ＳＳ－ＥＬＭ（Ｓｅｍｉ－Ｓｕｐｅｒｖｉｓｅｄ　ＥＬＭ）和无监督ＵＳ－ＥＬＭ（Ｕｎｓｕｐｅｒｖｉｓｅｄ　ＥＬＭ）算法，分别用于处理半监督学习和无监督学习任务，大大扩展了ＥＬＭ的适用范围．ＳＳ－ＥＬＭ和ＵＳ－ＥＬＭ继承了传统ＥＬＭ的计算效率和学习能力，可以快速处理多分类和多聚类问题．文献［２１］将ＥＬＭ扩展到判别聚类，结合迭代加权（Ｉｔｅｒａｔｉｖｅ　Ｗｅｉｇｈｔｉｎｇ）、线性判别分析（Ｌｉｎｅａｒ　Ｄｉｓｃｒｉｍｉｎａｎｔ　Ａｎａｌｙｓｉｓ，ＬＤＡ）和核Ｋ－均值（Ｋｅｒｎｅｌ　Ｋ－ｍｅａｎｓ），提出了ＥＬＭＣＩｔｅｒ、ＥＬＭＣＬＤＡ和ＥＬＭＣＫＭ三种判别聚类算法．基于ＥＬＭ的判别聚类算法在ＥＬＭ输出权值的求解过程中采用正则化技术来提高聚类的准确性和鲁棒性，不仅比ＵＳ－ＥＬＭ有更少的可调参数，而且还能够处理非平衡聚类问题．ＥＬＭＣＩｔｅｒ、ＥＬＭＣＬＤＡ和ＥＬＭＣＫＭ属于离线学习算法，需要事先给定所有的训练样本，不具备在线学习能力．Ｙｉ等人［２２］将多图学习方法引入到ＥＬＭ中，提出了一种自适应多图正则化半监督ＡＭＧＲ－ＳＳＥＬＭ（Ａｄａｐｔｉｖｅ　Ｍｕｌｔｉｐｌｅ　Ｇｒａｐｈ　Ｒｅｇｕｌａｒｉｚｅｄ　Ｓｅｍｉ－Ｓｕｐｅｒｖｉｓｅｄ　ＥＬＭ）算法．ＡＭＧＲ－ＳＳＥＬＭ结合了六种不同的图构造技术，并且可以自适应地将不同权重分配给相应的图，有助于刻画出数据内在的流形结构．由于使用了多图结构，该算法的训练时间要高于使用单一图的ＳＳ－ＥＬＭ算法，特别是在大型数据集上其计算复杂度是无法容忍的．Ｉｏｓｉｆｉｄｉｓ等人［２３］将子空间学习准则引入到ＥＬＭ的优化过程中，提出了图嵌入ＧＥＥＬＭ（Ｇｒａｐｈ　Ｅｍｂｅｄｄｅｄ　ＥＬＭ）算法．该算法充分利用了图嵌入框架下的惩罚图和本征图，并且可以挖掘ＥＬＭ特征空间中数据之间的局部近邻和全局结构信息，在人脸识别和行为识别上取得了一定的效果，但和深度学习相比，其表征能力仍然有限．针对ＥＬＭ的随机特征映射不能适应７期徐　睿等：极限学习机前沿进展与趋势３４６１版日期：２０１９－０３－０１．本课题得到国家自然科学基金项目（７１５３１０１２，６１７６２０７３，７１６０１０１３）、国家社会科学基金（１８ＺＤＡ３０９）、北京市自然科学基金（４１７２０３２，４１７４０８７）、北大方正集团有限公司数字出版技术国家重点实验室开放课题资助．徐　睿，博士研究生，主要研究方向为图像处理、机器学习．Ｅ－ｍａｉｌ：ｘｕｒｕｉ１０６４＠ｒｕｃ．ｅｄｕ．ｃｎ．梁　循（通信作者），教授，博士生导师，中国计算机学会（ＣＣＦ）高级会员，主要研究领域为数据挖掘、神经网络、社会计算．Ｅ－ｍａｉｌ：ｘｌｉａｎｇ＠ｒｕｃ．ｅｄｕ．ｃｎ．齐金山，博士研究生，主要研究方向为社会计算、数据挖掘．李志宇，博士研究生，中国计算机学会（ＣＣＦ）会员，主要研究方向为社会计算、自然语言处理．张树森，博士研究生，主要研究方向为数据挖掘、社会计算．极限学习机前沿进展与趋势徐　睿　梁　循　齐金山　李志宇　张树森（中国人民大学信息学院　北京　１００８７２）摘　要　极限学习机（Ｅｘｔｒｅｍｅ　Ｌｅａｒｎｉｎｇ　Ｍａｃｈｉｎｅ，ＥＬＭ）作为前馈神经网络学习中一种全新的训练框架，在行为识别、情感识别和故障诊断等方面被广泛应用，引起了各个领域的高度关注和深入研究．ＥＬＭ最初是针对单隐层前馈神经网络的学习速度而提出的，之后又被众多学者扩展到多隐层前馈神经网络中．该算法的核心思想是随机选取网络的输入权值和隐层偏置，在训练过程中保持不变，仅需要优化隐层神经元个数．网络的输出权值则是通过最小化平方损失函数，来求解Ｍｏｏｒｅ－Ｐｅｎｒｏｓｅ广义逆运算得到最小范数最小二乘解．相比于其它传统的基于梯度的前馈神经网络学习算法，ＥＬＭ具有实现简单，学习速度极快和人为干预较少等显著优势，已成为当前人工智能领域最热门的研究方向之一．ＥＬＭ的学习理论表明，当隐层神经元的学习参数独立于训练样本随机生成，只要前馈神经网络的激活函数是非线性分段连续的，就可以逼近任意连续目标函数或分类任务中的任何复杂决策边界．近年来，随机神经元也逐步在越来越多的深度学习中使用，而ＥＬＭ可以为其提供使用的理论基础．本文首先概述了ＥＬＭ的发展历程，接着详细阐述了ＥＬＭ的工作原理．然后对ＥＬＭ理论和应用的最新研究进展进行了归纳总结，着重讨论并分析了自ＥＬＭ提出以来的主要学习算法和模型，包括提出的原因、核心思想、求解方法、各自的优缺点以及相关问题．最后，针对当前的研究现状，指出了ＥＬＭ存在的争议、问题和挑战，并对未来的研究方向和发展趋势进行了展望．关键词　极限学习机；网络结构；正则化；核学习；深度学习；在线学习；并行计算中图法分类号ＴＰ１８　　　ＤＯＩ号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０１９．０１６４０Ａｄｖａｎｃｅｓ　ａｎｄ　Ｔｒｅｎｄｓ　ｉｎ　Ｅｘｔｒｅｍｅ　Ｌｅａｒｎｉｎｇ　ＭａｃｈｉｎｅＸＵ　Ｒｕｉ　ＬＩＡＮＧ　Ｘｕｎ　ＱＩ　Ｊｉｎ－Ｓｈａｎ　ＬＩ　Ｚｈｉ－Ｙｕ　ＺＨＡＮＧ　Ｓｈｕ－Ｓｅｎ（Ｓｃｈｏｏｌ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ，Ｒｅｎｍｉｎ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｃｈｉｎａ，Ｂｅｉｊｉｎｇ　１００８７２）Ａｂｓｔｒａｃｔ　Ｅｘｔｒｅｍｅ　Ｌｅａｒｎｉｎｇ　Ｍａｃｈｉｎｅ（ＥＬＭ）ａｓ　ａ　ｎｅｗ　ｓｉｎｇｌｅ　ｈｉｄｄｅｎ　ｌａｙｅｒ　ｆｅｅｄｆｏｒｗａｒｄ　ｎｅｕｒａｌｎｅｔｗｏｒｋ（ＳＬＦＮ）ｌｅａｒｎｉｎｇ　ｆｒａｍｅｗｏｒｋ　ｈａｓ　ｏｂｔａｉｎｅｄ　ｅｘｔｅｎｓｉｖｅ　ａｔｔｅｎｔｉｏｎ　ａｎｄ　ｉｎ－ｄｅｐｔｈ　ｒｅｓｅａｒｃｈ　ｉｎｖａｒｉｏｕｓ　ｄｏｍａｉｎｓ．Ｉｔ　ｈａｓ　ｂｅｅｎ　ｗｉｄｅｌｙ　ｕｓｅｄ　ｉｎ　ｍａｎｙ　ａｐｐｌｉｃａｔｉｏｎｓ，ｓｕｃｈ　ａｓ　ａｃｔｉｏｎ　ｒｅｃｏｇｎｉｔｉｏｎ，ｅｍｏｔｉｏｎ　ｒｅｃｏｇｎｉｔｉｏｎ，ｆａｕｌｔ　ｄｉａｇｎｏｓｉｓ，ａｎｄ　ｓｏ　ｏｎ．ＥＬＭ　ｗａｓ　ｏｒｉｇｉｎａｌｌｙ　ｐｒｏｐｏｓｅｄ　ｆｏｒ“ｇｅｎｅｒａｌｉｚｅｄ”ｓｉｎｇｌｅ　ｈｉｄｄｅｎ　ｌａｙｅｒ　ｆｅｅｄｆｏｒｗａｒｄ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ　ｔｏ　ｏｖｅｒｃｏｍｅ　ｔｈｅ　ｃｈａｌｌｅｎｇｉｎｇ　ｉｓｓｕｅｓ　ｆａｃｅｄ　ｂｙｂａｃｋ－ｐｒｏｐａｇａｔｉｏｎ（ＢＰ）ｌｅａｒｎｉｎｇ　ａｌｇｏｒｉｔｈｍ　ａｎｄ　ｉｔｓ　ｖａｒｉａｎｔｓ．Ｒｅｃｅｎｔ　ｓｔｕｄｉｅｓ　ｓｈｏｗ　ｔｈａｔ　ＥＬＭ　ｃａｎ　ｂｅｅｘｔｅｎｄｅｄ　ｔｏ“ｇｅｎｅｒａｌｉｚｅｄ”ｍｕｌｔｉｌａｙｅｒ　ｆｅｅｄｆｏｒｗａｒｄ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ　ｉｎ　ｗｈｉｃｈ　ａ　ｈｉｄｄｅｎ　ｎｏｄｅ　ｃｏｕｌｄ　ｂｅａ　ｓｕｂｎｅｔｗｏｒｋ　ｏｆ　ｎｏｄｅｓ　ｏｒ　ａ　ｃｏｍｂｉｎａｔｉｏｎ　ｏｆ　ｏｔｈｅｒ　ｈｉｄｄｅｎ　ｎｏｄｅｓ．ＥＬＭ　ｐｒｏｖｉｄｅｓ　ａｎ　ｅｆｆｉｃｉｅｎｔ　ａｎｄｕｎｉｆｉｅｄ　ｌｅａｒｎｉｎｇ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ｒｅｇｒｅｓｓｉｏｎ，ｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｆｅａｔｕｒｅ　ｌｅａｒｎｉｎｇ，ａｎｄ　ｃｌｕｓｔｅｒｉｎｇ．Ｔｈｅｌｅａｒｎｉｎｇ　ｔｈｅｏｒｉｅｓ　ｏｆ　ＥＬＭ　ｓｈｏｗ　ｔｈａｔ　ｗｈｅｎ　ｌｅａｒｎｉｎｇ　ｐａｒａｍｅｔｅｒｓ　ｏｆ　ｈｉｄｄｅｎ　ｌａｙｅｒ　ｎｏｄｅｓ　ａｒｅ　ｇｅｎｅｒａｔｅｄｉｎｄｅｐｅｎｄｅｎｔｌｙ　ｏｆ　ｔｒａｉｎｉｎｇ　ｓａｍｐｌｅｓ，ａｓ　ｌｏｎｇ　ａｓ　ｔｈｅ　ａｃｔｉｖａｔｉｏｎ　ｆｕｎｃｔｉｏｎ　ｏｆ　ｆｅｅｄｆｏｒｗａｒｄ　ｎｅｕｒａｌｎｅｔｗｏｒｋ　ｉｓ　ｎｏｎ－ｌｉｎｅａｒ　ａｎｄ　ｃｏｎｔｉｎｕｏｕｓ，ｉｔ　ｃａｎ　ａｐｐｒｏａｃｈ　ａｎｙ　ｃｏｎｔｉｎｕｏｕｓ　ｏｂｊｅｃｔｉｖｅ　ｆｕｎｃｔｉｏｎ　ｏｒ　ａｎｙ制问题，Ｙｕ等人［２４］提出一种稀疏编码ＳｃＥＬＭ（Ｓｐａｒｓｅ　ｃｏｄｉｎｇ　ＥＬＭ）算法．该算法使用稀疏编码技术代替随机映射将输入特征向量映射到隐层，以提高分类准确率．在编码阶段使用基于梯度投影和Ｌ１范数的优化方法，而输出权值则通过拉格朗日乘子法求得．加权ＲＥＬＭ对零均值高斯噪声有很好的稳健性，但是其性能严重依赖于误差权值估计的准确性，特别是在复杂应用环境下，会产生高昂的计算成本，导致模型的效率降低．为了解决这一问题，Ｌｕ等人［２５］提出了一种概率正则ＥＬＭ算法．该算法考虑了建模过程中误差的分布，确保模型误差和噪声分布的一致性，通过构造一个新的目标函数来最小化模型误差的均值和方差，从而提高了模型对离群点或非高斯噪声的鲁棒性．然而，该算法无法处理具有不同噪声分布的大规模数据集．此外，如何将其扩展到处理非平衡数据、半监督和无监督的情况下还需进一步研究．Ｚｈａｏ等人［２６］将模型的偏差和方差同时引入到目标函数中进行优化，并保持Ｌ２惩罚项不变，提出了鲁棒ＲＲＥＬＭ（Ｒｏｂｕｓｔ　ＲＥＬＭ）算法．ＲＲＥＬＭ同时考虑了模型的偏差和方差，力求在两者之间取得最佳的折中，以达到增强网络泛化性能和鲁棒性的目的．可以从理论上证明，ＲＥＬＭ是ＲＲＥＬＭ的一种特例，并且ＲＲＥＬＭ拥有和传统ＥＬＭ及ＲＥＬＭ相同的计算效率．Ｃｈｅｎ等人［２７］进一步研究了不同的Ｍ估计函数和正则化项在ＥＬＭ中的作用，基于稳健回归理论，提出了一种使用迭代重加权最小二乘法（Ｉｔｅｒａｔｉｖｅｌｙ　Ｒｅｗｅｉｇｈｔｅｄ　Ｌｅａｓｔ　Ｓｑｕａｒｅｓ，ＩＲＬＳ）的鲁棒正则ＲＥＬＭ－ＩＲＬＳ（Ｒｏｂｕｓｔ　Ｒｅｇｕｌａｒｉｚｅｄ　ＥＬＭＲｅｇｒｅｓｓｉｏｎ　Ｕｓｉｎｇ　ＩＲＬＳ）回归模型．在ＲＥＬＭ－ＩＲＬＳ中，Ｌ１范数、Ｈｕｂｅｒ损失函数、Ｂｉｓｑｕａｒｅ损失函数和Ｗｅｌｓｃｈ损失函数同时被用来增强模型的鲁棒性，并使用Ｌ１正则化和Ｌ２正则化来防止过拟合．由于ＲＥＬＭ－ＩＲＬＳ需要优化的参数较多，导致算法的时间复杂度较大，因此无法有效处理大规模数据集．针对不平衡数据的分类问题，Ｘｉａｏ等人［２８］提出了ＣＣＲ－ＥＬＭ（Ｃｌａｓｓ－ｓｐｅｃｉｆｉｃ　Ｃｏｓｔ　Ｒｅｇｕｌａｔｉｏｎ　ＥＬＭ）算法，通过对不同类的错分样本施加不同的惩罚因子，实现错分样本数目和模型泛化能力的折中．和标准ＥＬＭ相比，ＣＣＲ－ＥＬＭ可以显著提高非平衡数据的分类准确率．ＣＣＲ－ＥＬＭ中的隐节点个数、正负样本权重以及核参数对模型的性能影响较大，如何开发更有效的方法来确定这些参数还有待进一步研究．上述研究表明，将正则化引入ＥＬＭ中能够在一定程度上解决过拟合问题，提高模型的鲁棒性和泛化能力．但是由于在目标函数中增加了正则化参数需要进行优化，降低了算法的学习效率．表１对当前部分正则极限学习机模型进行了汇总，并对它们的算法思想、采用的正则化方法、特征映射、鲁棒性、测试数据集和应用等方面进行了比较．表１　正则极限学习机模型模型核心思想Ｌ１正则化Ｌ２正则化流形正则化特征映射加权二乘鲁棒性评测数据集应用ＷＲＥＬＭ［１８］§结构风险§加权残差√ Ｓｉｇｍｏｉｄ √ √※人工数据“ＳｉｎＣ”※１３个基准数据集回归ＯＲＥＬＭ［１９］§权重稀疏§ＡＬＭ√ √ Ｓｉｇｍｏｉｄ √※人工数据“ＳｉｎＣ”※３个ＵＣＩ数据集回归ＳＳ－ＥＬＭ［２０］ＵＳ－ＥＬＭ［２０］§图嵌入 √ √ＳｉｇｍｏｉｄＧａｕｓｓｉａｎ√ √※５个半监督数据集※３个ＵＣＩ数据集※２个人脸数据集分类回归聚类ＡＭＧＲ－ＳＳＥＬＭ［２２］§多图构造 √ √ √ Ｓｉｇｍｏｉｄ √※４个人脸数据库※ＰｌｏｙＵ　ＦＫＰ数据库分类ＧＥＥＬＭ［２３］§图嵌入§子空间学习√ √ Ｇａｕｓｓｉａｎ※８个分类数据集※９个行为数据集分类ＳｃＥＬＭ［２４］§稀疏编码§梯度投影√ Ｓｉｇｍｏｉｄ※８个二分类数据集※８个多分类数据集分类ＲＲＥＬＭ［２６］§偏差方差最小化 √ＳｉｇｍｏｉｄＦｏｕｒｉｅｒ√ √※５个ＵＣＩ数据集※发动机推力数据分类回归ＲＥＬＭ－ＩＲＬＳ［２７］§稀疏权重§ＩＲＬＳ√ √ Ｓｉｇｍｏｉｄ √ √※人工数据“ＳｉｎＣ”※５个基准数据集回归ＣＣＲ－ＥＬＭ［２８］§错分样本损失惩罚 √ＳｉｇｍｏｉｄＧａｕｓｓｉａｎ√ √※１９个ＵＣＩ数据集※高炉状态诊断分类４４６１计　　算　　机　　学　　报２０１９年有很多种选择，既可以是显式映射，也可以是隐式映射．隐式映射巧妙利用核方法得到特征向量之间的内积，因此不需要显示地定义特征空间和映射函数．核方法实质是通过核函数隐式地将输入空间中低维的线性不可分样本映射到高维甚至无限维的特征空间，使得原空间的非线性可分问题转化为特征空间中的线性可分问题，是机器学习领域里一类非常重要的方法．传统的ＥＬＭ算法采用显式的非线性特征映射，对于比较复杂的分类、回归等非线性模式识别任务往往需要更多的隐层神经元，导致网络的结构非常复杂．Ｈｕａｎｇ等人［１１］将核函数引入到ＥＬＭ中，提出了基于核方法的ＫＥＬＭ（Ｋｅｒｎｅｌ　ＥＬＭ）算法，为回归、二分类和多分类问题提供了一个统一的学习框架．在隐层的特征映射ｈ（ｘ）具体形式未知的情况下，需要引入核函数来度量样本之间的相似度，可以根据Ｍｅｒｃｅｒ条件定义ＥＬＭ的核矩阵，表示如下：ΩＥＬＭ＝ＨＨＴ：ΩＥＬＭｉ，ｊ＝ｈ（ｘｉ）·ｈ（ｘｊ）＝Ｋ（ｘｉ，ｘｊ）（７）这样，ＫＥＬＭ模型的输出可以表示为ｆ（ｘ）＝ｈ（ｘ）β＝ｈ（ｘ）ＨＴＩＣ＋ＨＨ（）Ｔ－１Ｔ＝Ｋ（ｘ，ｘ１）︙Ｋ（ｘ，ｘＮ熿燀燄燅）ＴＩＣ＋Ω（）ＥＬＭ－１Ｔ（８）从上式可以看出，核矩阵 ΩＥＬＭ＝ＨＨＴ∈ＲＮ×Ｎ仅和输入数据ｘｉ以及训练样本的个数有关．在ＫＥＬＭ中，通过核函数Ｋ（ｘｉ，ｘｊ）将低维输入空间中的数据（ｘｉ，ｘｊ）转化为高维特征空间中的内积ｈ（ｘｉ）·ｈ（ｘｊ），与特征空间的维数无关，可以有效避免维数灾难问题．ＫＥＬＭ只需要预先选定核函数，不需要显式地定义映射函数，也不需要设置隐层神经元个数，从而节省了隐层神经元个数优化的时间．相比于传统的ＥＬＭ算法，ＫＥＬＭ用核映射代替随机映射，能够有效改善隐层神经元随机赋值带来的泛化性和稳定性下降的问题．针对二分类问题，Ｌｉｕ等人［２９］将ＥＬＭ的学习思想引入到ＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）中，提出了ＥＳＶＭ（Ｅｘｔｒｅｍｅ　Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）算法．该算法首先将输入数据映射到ＥＬＭ特征空间，然后在特征空间中采用正则最小二乘法求解分类超平面．ＥＳＶＭ仅需要求解一个简单的线性方程组，和标准的ＳＶＭ相比，具有实现简单，训练速度更快的优点．然而，ＥＳＶＭ没有考虑如何求得最大间隔分离超平面，也没有充分利用对偶算法的优点．Ｆｒéｎａｙ等人［３０］通过定义ＥＬＭ核（ＥＬＭ　ｋｅｒｎｅｌ）将ＳＶＭ和ＥＬＭ算法融合在一个框架中．ＥＬＭ　ｋｅｒｎｅｌ由传统ＥＬＭ隐层的特征映射ｈ（ｘ）扩展为核方法中的核映射得到，然后被用来代替ＳＶＭ的核函数进行训练．和传统的核函数相比，ＥＬＭ　ｋｅｒｎｅｌ不需要优化核参数，降低了计算复杂度，并且能够得到最大间隔分类超平面．Ｈｕａｎｇ等人［３１］进一步研究了基于标准优化方法的二分类ＥＬＭ算法，通过对每个样本点（ｘｉ，ｘｊ）引入一个松弛变量εｉ０，使函数间隔加上松弛变量大于等于１．此时，约束条件变成下式：ｔｉβ·ｈ（ｘｉ）１－εｉ，ｉ＝１，２，…，Ｎ（９）其中，ｔｉ∈｛－１，＋１｝，ｘｉ∈Ｒｎ，当ｔｉ＝－１时，对应的样本ｘｉ称为负类；当ｔｉ＝＋１时，对应的样本ｘｉ称为正类．这样，从标准优化理论的角度来看，ＥＬＭ的学习问题可以转化为如下二次规划问题：ｍｉｎβ，ε１２β２＋Ｃ∑Ｎｉ＝１εｉｓ．ｔ．ｔｉβ·ｈ（ｘｉ）１－εｉ，ｉ＝１，２，…，Ｎ（１０）εｉ０其中，Ｃ为惩罚参数，Ｃ取值越小，对误分类的惩罚越小，Ｃ取值越大，对误分类的惩罚越大．从式（１０）可以看出，ＥＬＭ和标准ＳＶＭ具有相似的优化目标函数，主要区别在于：（１）ＥＬＭ的特征映射ｈ（ｘ）具有随机性，即ｈ（ｘ）中的所有参数均可以随机产生．（２）ＳＶＭ的判别函数中含有偏置项，而ＥＬＭ特征空间中的分类超平面会经过原点，因此在对偶问题中少了对偏置项的等式约束条件．基于标准优化方法构建的ＥＬＭ模型要比Ｌｉｕ［２９］和Ｆｒéｎａｙ［３０］等人提出的算法具有更少的约束条件．此外，最小化输出权值β等同于最大化分类间隔２／β，这和ＳＶＭ的学习策略相一致，如图２所示．文献［３２］对ＥＬＭ的核函数以及ＥＬＭ和ＳＶＭ之间的关系进行了深入的研究和比较，详细分析了在使用相同核函数的情况下ＳＶＭ和ＬＳ－ＳＶＭ比ＥＬＭ更容易产生次优解的原因．为了能够快速处理在线大规模数据学习问题，Ｈｅ等人［３３］提出了一个并行增量ＰＩＥＳＶＭ（Ｐａｒａｌｌｅｌ　ＩｎｃｒｅｍｅｎｔａｌＥｘｔｒｅｍｅ　ＳＶＭ）分类算法．该算法首先基于并行编程框架ＭａｐＲｅｄｕｃｅ实现ＥＳＶＭ的并行化，提高ＥＳＶＭ处理大规模数据的训练速度，然后又提出了７期徐　睿等：极限学习机前沿进展与趋势５４６１来满足在线学习对现有模型进行更新的需求．ＰＩＥＳＶＭ不仅可以处理大规模数据，而且在加速比、规模增长性等评估指标方面也具有很好的扩展性．针对ＫＥＬＭ在处理大样本数据时计算复杂度和空间复杂度过高的问题，Ｄｅｎｇ等人［３４］采用Ｎｙｓｔｒｍ方法来求解核矩阵的近似低秩分解，实现了一种加速ＮＫＥＬＭ（Ｎｙｓｔｒｍ　ＫｅｒｎｅｌＥＬＭ）算法．ＮＫＥＬＭ的训练时间远低于传统的ＫＥＬＭ，适合用来处理大规模数据．ＮＫＥＬＭ的惩罚参数和核参数通常使用交叉验证法确定，模型的泛化性能对这些参数的取值非常敏感，因此如何高效自适应确定ＮＫＥＬＭ的参数还需进一步研究．此后，Ｄｅｎｇ等人［３５］又提出了一种快速的非迭代简化核ＲＫＥＬＭ（Ｒｅｄｕｃｅｄ　Ｋｅｒｎｅｌ　ＥＬＭ）算法．该算法从训练数据集中随机选择一个子集作为支撑向量，无需迭代计算节省了大量的训练时间．理论研究表明，当核函数严格正定并且所有的训练样本都被选为支撑向量时，ＲＫＥＬＭ就能零误差地逼近任意非线性函数．如何将ＲＫＥＬＭ扩展到半监督和无监督学习任务中值得进一步研究．针对海量数据学习问题，Ｂｉ等人［３６］从理论角度研究了ＫＥＬＭ，并提出了一个分布式解决方案ＤＫ－ＥＬＭ（Ｄｉｓｔｒｉｂｕｔｅｄ　Ｋｅｒｎｅｌｉｚｅｄ　ＥＬＭ）．通过在ＭａｐＲｅｄｕｃｅ上实现并行化的ＫＥＬＭ，可以有效避免单机环境下大规模核矩阵运算的大量内存消耗问题．然而，当数据集中存在较多离群点时，ＤＫ－ＥＬＭ的泛化能力和鲁棒性都会受到较大的影响，无法有效学习．传统的ＥＬＭ和ＫＥＬＭ都不具有稀疏性，其逆矩阵的计算复杂度至少与训练样本的规模呈二次方关系，因此在处理大规模二分类问题时，往往需要消耗大量的存储空间和训练时间．受序列最小优化算法的启发，Ｂａｉ等人［３７］提出了一种图２　ＥＬＭ特征空间中的最优分类超平面高效的极限学习机训练方法．该方法将优化过程中的原始大型二次规划问题分解为一系列最小的子二次规划问题迭代求解，避免了矩阵的逆运算，从而降低了时空复杂度．Ｃｈｅｎ等人［３８］将ＭＰＥ（Ｍｅａｎｐ－Ｐｏｗｅｒ　Ｅｒｒｏｒ）引入到核空间中，定义了一个新的核空间统计量ＫＭＰＥ（Ｋｅｒｎｅｌ　Ｍｅａｎ　ｐ－Ｐｏｗｅｒ　Ｅｒｒｏｒ），并将其与ＥＬＭ相结合，提出了一种鲁棒ＥＬＭ－ＫＭＰＥ学习算法．虽然ＥＬＭ－ＫＭＰＥ能够处理非高斯信号且对噪声具有一定的鲁棒性，但是如何高效地优化ＫＭＰＥ中的核参数和ｐ参数仍是一个难题．２．４　多核极限学习机ＫＥＬＭ的泛化性能在很大程度上依赖于核函数及其参数的选择，针对不同的问题如何设计相应的核函数仍然是核学习中的一个开放性问题．常用的核函数主要有：线性核函数、多项式核函数、高斯核函数和Ｓｉｇｍｏｉｄ核函数．除了上述核函数外，还有字符串核、小波核、卷积核等，这些核函数还可以作为基函数，通过线性组合或非线性组合等多核学习方法构造出混合核函数．Ｌｉｕ等人［３９］提出了一个基于多核ＥＬＭ的多源异构数据集成框架ＭＫ－ＥＬＭ（Ｍｕｌｔｉｐｌｅ　Ｋｅｒｎｅｌ　ＥＬＭ）．在ＭＫ－ＥＬＭ中，假设最优核为一组基核函数的线性组合，在训练过程中对基核函数的组合权重和ＥＬＭ的网络结构参数进行联合优化．对于不同的应用，如何自适应选择基核函数并快速确定不同核的权系数，提高ＭＫ－ＥＬＭ的训练效率仍是一个难点．针对人体动作识别中存在不平衡数据的问题，Ｗｕ等人［４０］提出了一种基于混合核函数的加权ＭＫ－ＷＥＬＭ（Ｍｉｘｅｄ－ｋｅｒｎｅｌ　ＢａｓｅｄＷｅｉｇｈｔｅｄ　ＥＬＭ）算法．该算法根据样本的分布信息，将代价敏感函数引入到ＥＬＭ中，以减少不平衡数据对分类器的影响．同时，为了进一步提高识别准确率，减少核函数对分类器的影响，用高斯核和多项式核的线性组合优化核来训练模型．由于ＭＫ－ＷＥＬＭ中需要优化的参数较多，导致算法的计算复杂度很高，因此无法有效处理大规模数据集．Ｌｉ等人［４１］研究了大规模数据集中ＥＬＭ的多核组合优化，并将其转化为一个半无限线性规划问题，提出了基于多核学习的ＭＫＬ－ＥＬＭ（Ｍｕｌｔｉｐｌｅ－ＫｅｒｎｅｌＬｅａｒｎｉｎｇ　ＥＬＭ）算法．在多核模型中，核函数既可以是给定的不同核的凸组合，也可以是同一个核的不同参数的凸组合，而最优核由黑盒学习方法得到．虽然多核ＥＬＭ算法在理论上和实验结果中表现出比单核ＥＬＭ更强的非线性表达能力和稳定性．但是随着核函数的增加，参数的优化问题也凸显出来，通常需要更多的时间进行模型选择，增加了计算复杂度．针对金融领域多源异构数据中的信息融合问６４６１计　　算　　机　　学　　报２０１９年学习和多核学习方法，提出了一种增量多核ＩＭＫ－ＥＬＭ（Ｉｎｃｒｅｍｅｎｔａｌ　ＭｕｌｔｉｐｌｅＫｅｒｎｅｌ　ＥＬＭ）算法，并将其用于智能理财顾问推荐系统中．该模型最初只设置少量隐层神经元，然后在训练过程中逐步添加新的神经元直到网络的训练结果稳定下来．ＩＭＫ－ＥＬＭ在优化过程中同时更新训练数据集和多源信息组合权重，并假设最优核为不同特性核函数的线性组合，融合多类核函数的优点，从而得到更高水平的综合特征来表示投资者的偏好．表２从算法核心思想、特征映射、测试数据集和应用这几个方面对当前最新的核极限学习机模型进行了总结．表２　核极限学习机模型模型核心思想特征映射评测数据集应用ＮＫＥＬＭ［３４］§低秩分解Ｇａｕｓｓｉａｎ　ｋｅｒｎｅｌ ※５个基准数据集分类ＲＫＥＬＭ［３５］§随机选择支撑向量Ｇａｕｓｓｉａｎ　ｋｅｒｎｅｌ※６个大规模数据集※１５个小规模数据集分类回归ＤＫ－ＥＬＭ［３６］§ＭａｐＲｅｄｕｃｅ　Ｇａｕｓｓｉａｎ　ｋｅｒｎｅｌ※４个合成数据集※４个ＵＣＩ数据集分类Ｓｐａｒｓｅ－ＥＬＭ［３７］§ＳＭＯＧａｕｓｓｉａｎ　ｋｅｒｎｅｌＰｏｌｙｎｏｍｉａｌ　ｋｅｒｎｅｌ※１５个基准数据集分类ＥＬＭ－ＫＭＰＥ［３８］§ＫＭＰＥ　Ｇａｕｓｓｉａｎ　ｋｅｒｎｅｌ※人工数据“ＳｉｎＣ”※１６个基准数据集分类回归ＭＫ－ＷＥＬＭ［４０］§多核学习§代价敏感函数Ｇａｕｓｓｉａｎ－ＧａｕｓｓｉａｎＰｏｌｙｎｏｍｉａｌ－ＧａｕｓｓｉａｎＰｏｌｙｎｏｍｉａｌ－Ｐｏｌｙｎｏｍｉａｌ※ＬＤＰＡ行为数据集※７个二分类不平衡数据集※５个多分类不平衡数据集分类ＭＫＬ－ＥＬＭ［４１］§多核学习§半无限线性规划§二次约束二次规划Ｇａｕｓｓｉａｎ－Ｐｏｌｙｎｏｍｉａｌ－Ｌｉｎｅａｒ－ＬａｐｌａｃｉａｎＧａｕｓｓｉａｎ－Ｇａｕｓｓｉａｎ※１３个分类数据集分类ＩＭＫ－ＥＬＭ［４２］§增量学习§多核学习Ｇａｕｓｓｉａｎ　ｋｅｒｎｅｌＰｏｌｙｎｏｍｉａｌ　ｋｅｒｎｅｌ※ＢＣＳｓ数据集分类回归２．５　在线序列极限学习机ＥＬＭ的学习过程通常都是在给定的训练集上完成的，即需要一次性获取所有的训练样本来进行训练．然而，对于实际应用环境而言，训练数据不是静态不变的，而是逐个或者逐批加入的，是一个随时间不断更新变化的过程．当有新的训练样本出现时，ＥＬＭ会对原有数据和新数据重新进行训练，从而导致学习效率低下，难以满足在线实时应用的需求．为了解决这一问题，Ｌｉａｎｇ等人［４３］提出了一种基于递推最小二乘法的在线序列ＯＳ－ＥＬＭ（ＯｎｌｉｎｅＳｅｑｕｅｎｔｉａｌ　ＥＬＭ）算法．该算法首先通过少量的训练样本初始化网络的输出权值，然后在增量学习过程中，利用新增的样本或样本块递推更新上一步求出的网络输出权值．ＯＳ－ＥＬＭ只对当前产生的新样本进行更新，不需要重复训练旧的样本，能够处理训练样本逐块或逐个到达的情况，并且允许样本块的大小可变，因此具有良好的在线学习能力．虽然ＯＳ－ＥＬＭ通过分块矩阵的方法避免了旧数据的重新训练，减少了模型的训练时间，但由于需要保存旧训练样本的更新矩阵，增加了空间复杂度．Ｌａｎ等人［４４］将集成的思想引入到ＯＳ－ＥＬＭ中，提出了ＥＯＳ－ＥＬＭ（Ｅｎｓｅｍｂｌｅ　ｏｆ　Ｏｎｌｉｎｅ　Ｓｅｑｕｅｎｔｉａｌ　ＥＬＭ）算法．该算法首先训练多个具有相同隐层神经元个数和激活函数的ＯＳ－ＥＬＭ子网络，然后通过简单平均的策略对这些ＯＳ－ＥＬＭ子学习器进行集成．ＥＯＳ－ＥＬＭ在一定程度上减少了隐层神经元参数随机赋值对模型稳定性产生的影响，提高了ＯＳ－ＥＬＭ的泛化性能．但由于学习过程中需要训练多个ＯＳ－ＥＬＭ并对其结果进行存储，通常需要较高的时间开销和空间成本．在诸如股票价格预测，天气预报等大量实际应用中，训练数据除了具有实时动态变化的特外性往往还具有时效性．因此，在增量学习过程中加入新样本的同时，也应该及时淘汰那些过于陈旧的样本．ＯＳ－ＥＬＭ和ＥＯＳ－ＥＬＭ显然不能很好地反映在线训练数据的时效性．针对这一问题，Ｚｈａｏ等人［４５］将遗忘机制和ＥＯＳ－ＥＬＭ相结合，提出了ＦＯＳ－ＥＬＭ（ＯｎｌｉｎｅＳｅｑｕｅｎｔｉａｌ　ＥＬＭ　ｗｉｔｈ　Ｆｏｒｇｅｔｔｉｎｇ　Ｍｅｃｈａｎｉｓｍ）算法．该算法通过设置滑动时间窗口来完成模型的在线更新，能够在学习过程中丢弃过时的数据，减少其对后续训练的不良影响，具有良好的在线数据处理能力．Ｇｕ等人［４６］提出了一种基于ＥＬＭ的时效在线序列ＴＯＳＥＬＭ（Ｔｉｍｅｌｉｎｅｓｓ　Ｏｎｌｉｎｅ　Ｓｅｑｕｅｎｔｉａｌ　ＥＬＭ）算７期徐　睿等：极限学习机前沿进展与趋势７４６１法．该算法通过计算时序数据的均值和方差并采用指数函数对新增数据分配不同的惩罚权重，同时使用一种自适应迭代方案来更新输出权值以提高模型的稳定性和收敛性．该方法在训练过程中引入了额外的迭代和停止条件，增加了模型的计算复杂度．Ｈｕｙｎｈ等人［４７］将结构风险最小化理论引入到ＯＳ－ＥＬＭ中，提出了一种基于正则ＥＬＭ的在线序列ＲｅＯＳ－ＥＬＭ（Ｒｅｇｕｌａｒｉｚｅｄ　ＯＳ－ＥＬＭ）算法．该算法在经验风险的基础上加了一个控制目标函数光滑程度的Ｔｉｋｈｏｎｏｖ正则化项，通过调节正则化参数，选择复杂度适中的模型，以达到测试误差最小的学习目的．针对在线学习中类别不平衡问题，Ｍｉｒｚａ等人［４８］提出了加权ＷＯＳ－ＥＬＭ（Ｗｅｉｇｈｔｅｄ　Ｏｎｌｉｎｅ　Ｓｅｑｕｅｎ－ｔｉａｌ　ＥＬＭ）算法．该算法采用衡量正负样本分类精度的平衡因子Ｇ－ｍｅａｎ作为分类器整体性能的评价指标，对不同的数据块施加不同的权值以使Ｇ－ｍｅａｎ尽可能最大，这样就不再需要对旧的训练样本进行权值调整，可以缓解不平衡样本分布带来的问题．在实际应用中，由于计算复杂性、存储和传输等问题，限制了大规模数据的集中处理．为了解决这一问题，Ｖａｎｌｉ等人［４９］对分布式多智能体系统中的非线性序列学习问题进行了研究，并提出了一种分布式序列分裂ＤＳＳ－ＥＬＭ（Ｄｉｓｔｒｉｂｕｔｅｄ　ＳｅｑｕｅｎｔｉａｌＳｐｌｉｔｔｉｎｇ　ＥＬＭ）算法．研究表明，ＤＳＳ－ＥＬＭ的计算复杂度仅和隐层神经元的个数呈线性关系，不仅适用于大规模数据流，而且还能以较快的速度处理非平稳环境中的数据．针对非平稳时间序列的预测问题，Ｗａｎｇ等人［５０］提出了一种基于在线序列训练的核ＯＳ－ＥＬＭＫ（Ｏｎｌｉｎｅ　Ｓｅｑｕｅｎｔｉａｌ　ＥＬＭ　ｗｉｔｈＫｅｒｎｅｌｓ）预测算法．在ＯＳ－ＥＬＭＫ中，使用隐式的核映射代替显式的特征映射函数，不需要确定隐层输出矩阵，通过计算核函数来得到网络的最终输出，避免了隐层神经元个数优化的难题．然而，ＯＳ－ＥＬＭＫ的抗干扰能力比较差，无法处理带有噪声的数据流．Ｓｃａｒｄａｐａｎｅ等人［５１］研究了ＥＬＭ理论和核自适应滤波之间的内在联系，并将核递归最小二乘法扩展到ＯＳ－ＥＬＭ框架中，提出了一种基于核函数的ＫＯＳ－ＥＬＭ（Ｋｅｒｎｅｌ　Ｏｎｌｉｎｅ　Ｓｅｑｕｅｎｔｉａｌ　ＥＬＭ）在线学习算法．该算法采用近似线性依赖和固定预算这两种稀疏化准则来控制网络结构的增长．由于在训练过程中增加了多重判断机制，ＫＯＳ－ＥＬＭ通常需要较高的时间开销．Ｄｅｎｇ等人［５２］提出了一种在线序列简化核ＯＳ－ＲＫＥＬＭ（Ｏｎｌｉｎｅ　ＳｅｑｕｅｎｔｉａｌＲｅｄｕｃｅｄ　Ｋｅｒｎｅｌ　ＥＬＭ）算法，为在线学习中的二分类、多分类和回归任务提供了一个统一的学习框架．ＯＳ－ＲＫＥＬＭ不仅支持增量学习，同时还支持学习模型中的递减更新．但是，当数据流中存在较多离群点时，ＯＳ－ＲＫＥＬＭ的鲁棒性会变得非常差，从而影响模型的泛化性能．针对非静态环境中数据流的概念漂移问题，Ｌｉｕ等人［５３］在ＯＳ－ＲＥＬＭ的基础上提出了一种带有遗忘系数的在线序列ＦＰ－ＥＬＭ（Ｆｏｒｇｅｔｔｉｎｇ　Ｐａｒａｍｅｔｅｒｓ　ＥＬＭ）算法．该算法的核心思想是对训练过程中不同时期加入的数据块施加不同的权重．但是ＦＰ－ＥＬＭ在计算遗忘参数的过程中引入了额外的可调节参数，增加了计算复杂度．Ｚｈａｎｇ等人［５４］将元认知理论扩展到ＯＳ－ＥＬＭ中，并采用主动学习方法选择最具代表性的样例加入样本池来扩充训练集的规模，提出了一种基于ＥＬＭ的元在线序列主动学习算法ＳＥＡＬ－ＥＬＭ（ＳｅｑｕｅｎｔｉａｌＡｃｔｉｖｅ　Ｌｅａｒｎｉｎｇ　Ｕｓｉｎｇ　Ｍｅｔａ－ｃｏｇｎｉｔｉｖｅ　ＥＬＭ）．该算法由认知成分和元认知成分两部分构成，将ＯＳ－ＥＬＭ作为认知成分，而元认知成分使用自我调节机制来控制认知成分的学习过程．ＳＥＡＬ－ＥＬＭ通过主动学习选择有价值的未标注样例进行标注，减少了训练所需的标注代价，同时提高了分类器的分类精度．在实际的工业生产过程中采集的样本往往带有不同统计特征的噪声，针对这一问题，Ｙａｎｇ等人［５５］提出了ＲＬＭＰ－ＥＬＭ（Ｒｅｃｕｒｓｉｖｅ　Ｌｅａｓｔ　Ｍｅａｎ　ｐ－Ｐｏｗｅｒ　ＥＬＭ）在线序列学习算法．该算法采用ＬＭＰ（Ｌｅａｓｔ　Ｍｅａｎｐ－Ｐｏｗｅｒ）误差准则来更新ＥＬＭ的输出权值，能够对具有不同统计噪声的变量进行在线预测．尽管ＲＬＭＰ－ＥＬＭ可以通过设置不同的ｐ值范围处理重尾分布和轻尾分布数据，但是如何确定准确的ｐ值才能获得最好的泛化性能目前尚不清楚．为了解决标注样本容量的限制问题，Ｙａｎｇ等人［５６］将增量拉普拉斯正则化引入到ＥＬＭ中，提出了一种半监督的ＩＬＲ－ＥＬＭ（Ｉｎｃｒｅｍｅｎｔａｌ　Ｌａｐｌａｃｉａｎ　ＲｅｇｕｌａｒｉｚａｔｉｏｎＥＬＭ）在线学习算法．该算法利用图拉普拉斯将标记样本与未标记样本合并，因此只需要少量标记样本即可实现稳健的分类和回归模型．表３对当前最新的在线序列极限学习机算法进行了归纳，并对它们的核心思想、特征映射、评测数据集和应用等方面进行了总结．８４６１计　　算　　机　　学　　报２０１９年

[返回]

上一篇：深度学习FPGA加速器的进展与趋势
下一篇：智能家居场景联动中基于知识图谱的隐式冲突检测方法研究