基于深度卷积神经网络的运动想象分类及其在脑控外骨骼中的应用 |
来源:一起赢论文网 日期:2016-12-29 浏览数:5783 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第39卷 计 算 机 学 报 Vol.39 2016 论文在线出版号 No.169 CHINESE JOURNAL OF COMPUTERS Online Publishing No.169 ——————————————— 本课题得到国家自然科学基金(No.61303137)、中国博士后科学基金(No.2015M581935)、浙江省博士后科学基金(No. BSH1502116)、浙江省科技计划项目(2015C31051, 2016C33139)资助.唐智川,男,1987年生,博士,主要研究领域为康复外骨骼、人机工程、机器学习、人机交互、脑机接口、生理信号处理.E-mail: ttzzcc@zju.edu.cn. 张克俊,*通讯作者,男,1978年生,博士,副教授,硕士生导师,中国计算机学会(CCF)会员(25933M),主要研究领域为人工智能、情感计算、设计科学、机器人、数据挖掘.E-mail: zhangkejun@zju.edu.cn. 李超,男,1991年生,博士研究生,主要研究领域为深度学习、数据挖掘、计算机视觉、人机交互.E-mail: superli@zju.edu.cn. 孙守迁,男,1963年生,博士,教授,博士生导师,主要研究领域为先进人机工程与设计、智能运动辅助装备技术、穿戴式机器人、信息与交互设计.E-mail: ssq@zju.edu.cn. 黄琦,男,1979年生,副教授,主要研究领域为计算机视觉、机器学习. E-mail: kylehq@163.com. 张三元,男,1963年生,博士,教授,博士生导师,主要研究领域为计算机图形学、CAD、图象处理与数字媒体技术. E-mail: syzhang@cs.zju.edu.cn. 基于深度卷积神经网络的运动想象分类及其在脑控外骨骼中的应用 唐智川 张克俊 李超 孙守迁 黄琦 张三元 (浙江大学计算机科学与技术学院, 杭州 310027) 摘 要 基于运动想象的脑机接口技术已经广泛的应用于康复外骨骼领域。由于脑电信号的信噪比低,使得脑机接口分类率很难提高。因此,有效的脑电特征提取与分类方法成为现在的研究热点。本文创新地采用基于深度学习理论的卷积神经网络对单次运动想象脑电信号进行特征提取和分类。首先,根据脑电信号时间和空间特征相结合的特性,针对性地设计了一个5层的CNN结构来进行运动想象分类;其次,基于想象左手运动和脚运动设计了运动想象实验范式,获得运动想象实验数据;再次,将该方法应用于公共数据集和实验数据集并建立分类模型,同时与其它三种方法(功率值+SVM、CSP+SVM和MRA+LDA)相比较;最后,将从实验数据集中获得的分类模型(具有最好分类表现)应用于上肢康复外骨骼的实时控制中,验证本文提出方法的可行性。实验结果表明,卷积神经网络方法可以提高分类识别率:卷积神经网络方法应用在公共数据集(90.75%±2.47%)和实验数据集(89.51%±2.95%)中的平均识别率均高于其它三种方法;在上肢康复外骨骼的实时控制中,也验证了CNN方法的可行性:所有被试的平均识别率为88.75%±3.42%。本文提出的方法可实现运动想象的精确识别,为脑机接口技术在康复外骨骼领域的应用提供了理论基础与技术支持。 关键词 深度学习;卷积神经网络;脑机接口;运动想象;康复外骨骼 中图法分类号 TP391 论文引用格式 唐智川,张克俊,李超,孙守迁,黄琦,张三元,基于深度卷积神经网络的运动想象分类及其在脑控外骨骼中的应用,2016,Vol.39:在线出版号 No.169 TANG Zhi-Chuan,ZHANG Ke-Jun,LI Chao,SUN Shou-Qian,HUANG Qi,ZHANG Sanyuan,Motor Imagery Classification Based on Deep Convolutional Neural Network and Its Application in Exoskeleton Controlled by EEG, Chinese Journal of Computers,2016, Vol.39: Online Publishing No.169 Motor Imagery Classification Based on Deep Convolutional Neural Network and Its Application in Exoskeleton Controlled by EEG TANG Zhi-Chuan ZHANG Ke-Jun LI Chao SUN Shou-Qian HUANG Qi ZHANG Sanyuan (College of Computer Science and Technology, Zhejiang University, Hangzhou, China 310027) 网络出版时间:2016-11-17 13:14:46网络出版地址:http://www.cnki.net/kcms/detail/11.1826.TP.20161117.1314.002.html2 计 算 机 学 报 2016年 Abstract Brain-Computer Interface (BCI) based on motor imagery (MI) has been applied in the rehabilitation exoskeleton widely. In the practical use, the low signal-noise ratio of electroencephalogram (EEG) signal results in the low classification accuracy in BCI. Therefore, many studies have focused on the improvement of feature extraction and classification algorithms. In this paper, we proposed an original method based on the deep convolutional neural network (CNN) to perform feature extraction and classification for single-trial MI EEG signal. Firstly, according to the EEG signal’s characteristic that combining time and space information, we constructed a 5-layer CNN model to classify the MI; secondly, MI experimental paradigm was designed based on imagining left hand movement and foot movement, and the experimental data of MI were collected; thirdly, the proposed method was used in the public data set and experimental data set to build classification model, compared with the other three methods (power+SVM, CSP+SVM and MRA+LDA); finally, the classification model which achieved the best classification performance was applied in real-time control of upper-limb exoskeleton to verify the effectiveness of our proposed method. The results demonstrate that CNN can further improve classification performance: the average accuracies of public data set (90.75%±2.47%) and experimental data set (89.51%±2.95%) using CNN are both higher than that using the other three methods. Furthermore, in real-time control of upper-limb exoskeleton, the average accuracy of all subjects reaches to 88.75%±3.42%, which verifies the effectiveness of the CNN method. The proposed method can recognize MI, and provides theoretical basis and technical support for BCI applications in the field of rehabilitation exoskeleton. Key words deep learning; CNN; BCI; motor imagery; rehabilitation exoskeleton 1 引言 近年来,康复型上肢外骨骼作为一种辅助的治疗设备,通过智能人机接口,可对处于不同康复期的脑卒中患者提供不同强度、不同模式的训练[1-4]。脑机接口技术(brain-computer interface,BCI)利用脑电信号(electroencephalogram,EEG)可以实现人脑与计算机或其它电子设备的通讯和控制,已经大量应用于康复训练中[5-8]。作为一种人机交互的控制手段,脑机接口技术不仅和其它传统控制方式(表面肌电信号[9-10]和力反馈[11-12])一样可以辨识患者运动意图,还可以帮助神经肌肉系统瘫痪但思维正常的患者实现与外界的交互。 不同的运动想象(如想象左手、右手、脚、舌的运动),会使大脑皮层的对应区域的脑电信号产生变化[13-14]。如想象单侧手运动时,在特定频率段大脑对侧的运动感觉区的mu节律和beta节律能量减小,而同侧的运动感觉区mu节律和beta节律能量增大,这种现象被称为事件相关去同步(event-related desynchronization,ERD)和事件相关同步(event-related synchronization,ERS)[15]。脚、舌的运动也会在大脑皮层的相应区域产生类似现象[16]。基于运动想象的脑机接口系统可以对这些不同的ERD/ERS模式进行分类,从而获得上肢外骨骼的控制信号。 卷积神经网络(convolutional neural network,CNN)是一种多层感知器(MLP)的变种,已被广泛运用于语音识别[17,18]和图像识别领域[19,20]。基于局部感受野和权值共享的概念,CNN能大大降低网络结构的复杂度,减少权值的数量[21]。由于其将原始特征空间直接作为网络输入层的输入,在网络内部进行最优化的特征提取和解码,对于样本特征维度特别高的分类问题有很重要意义。因此,与手工选取脑电信号特征相比,CNN在进行特征提取时更为省时、省力,并很大程度上解决了前者依靠经验和运气的问题。 本文创新地采用基于深度学习理论的卷积神经网络对单次运动想象EEG进行特征提取和分类。首先,提出了基于CNN的运动想象分类方法,优化CNN的结构和参数;其次,将该方法应用于公共数据集和实验数据集并建立分类模型,同时与其它三种方法相比较;最后,将从实验数据集中获得的分类模型(具有最好分类表现)应用于上肢康复外骨骼的实时控制中,验证本文提出方法的可行性。 论文在线出版号 No.169 唐智川等:基于深度卷积神经网络的运动想象分类及其在脑控外骨骼中的应用 3 2 相关工作 传统的运动想象分类方法先手工提取EEG时频特征信息,然后采用机器学习的方法建立EEG特征和运动想象之间的映射关系[22]。Huang[23]使用表面拉普拉斯变换(SLD)和功率谱密度(PSD)的特征提取方法,配合支持向量机(SVM)的分类方法进行运动想象识别,并应用于二维鼠标的控制;Lemm[24]则首先使用共同空间模式(CSP)进行特征提取,再使用线性判别分析(LDA)进行运动想象的分类。但由于脑电信号的信噪比低,脑机接口面临的主要问题之一是分类率低,一些基于传统方法(特征提取和分类模块分离)对左、右手运动想象分类的研究得出的识别率还未能高于80%[23,25-26]。如何对脑电信号进行有效地特征提取和分类,已成为运动想象辨识的重要研究内容。 CNN最早由Lecun[27]提出并应用在手写字体识别上,之后,被广泛的应用到人脸检测[28],文档分析[29],语音检测[30],车牌识别[31]等各个方面。由于CNN直接面向原始信号,可以提取更广泛、更深层、更具有区别度的特征信息。因此,可以有效避免传统方法中将特征提取和解码模块分离而导致特征提取过程中信息丢失的问题[32]。目前,已经有相关学者将CNN应用于事件相关电位(event-related potential,ERP)和心电信号(ECG)的特征提取和解码。Hubert[33]等构建了一个基于CNN的P300成分(一种ERP成分)识别方法,利用BCI Competition 公共数据集[34]进行了分类实验,识别率最高可以达到95.5%;蔡邦宇[35]使用CNN模型对视觉诱发的单次ERP信号进行时空特征分析,与支持向量机方法相比较的结果表明,CNN方法的平均Roc曲线面积提高了4.4%;Kiranyaz[36]使用一个1-D CNN对多位病人室上性异位搏动产生的ECG信号进行实时分类和检测,识别率均高于95%。这些结果表明了CNN方法在脑电信号处理中应用的可行性,但仍没有文献将CNN应用于运动想象脑电ERD/ERS模式的分类。ERP属于诱发脑电,而运动想象脑电属于自发脑电,两者产生的模式不同,导致不同的基本特性,因此分类的过程、表现不同。心电信号的产生机理与触发机制也与脑电信号相差甚大。 典型的CNN网络结构由卷积层、降采样层、全连接层组成[27]。其中卷积层与降采样层配合,组成多个卷积组,逐层提取特征,最终通过若干个全连接层完成分类。卷积操作是基于局部感受野,使用滤波器(卷积核)完成对原始图像的卷积变换;降采样层主要是为了降低数据维度[27]。CNN中层次之间的紧密联系和空间信息使得其特别适用于图像的处理和理解。但由于脑电信号是一种将时间和空间特征结合的信号,现有基于CNN的二维图像识别方法并不适用于本文。为了不使卷积运算后的特征中同时混杂空间和时间信息,卷积层中的卷积核需要针对性地设置为向量而非一般图像识别中的矩阵,使其只提取空间特征或时间特征[33]。例如,原始的EEG数据由通道(N)×时间点(T)组成,第一卷积层使用N×1的向量卷积核单独提取完整的空间特征(所有通带),第二卷积层则单独提取EEG数据的时间特征,而未采用二维图像识别中一般使用的n×n(1<n<N)矩阵卷积核。 综上所述,本文的创新点主要包括:(1)在单次运动想象EEG特征提取方面,首次引入了卷积神经网络;(2)在单次运动想象分类方面,根据脑电信号时间和空间特征相结合的特性,针对性地设计了一个5层的CNN结构来进行运动想象分类;(3)在上肢康复外骨骼的实时控制方面,创新地引入CNN分类模型,并通过实验验证了该方法的可行性。 3 基于CNN的运动想象分类方法 3.1 数据集的准备 3.1.1 公共数据集 为了验证本文提出方法的有效性,首先将其应用于公共数据集(BCI Competition IV的Data set 1数据集[37])的运动想象分类。两名被试(ds1a和ds1f)共完成200次基于提示(cue)的试验(trial),其中想象左手运动和脚运动各100次。实验范式详见文献37。但由于此公共数据集样本较少,且在外骨骼的实际控制中需要真实被试的分类模型及参与,因此本文进行了之后的实验数据采集。 4 计 算 机 学 报 2016年 图1 运动想象脑电信号数据采集 3.1.2 实验数据集 (1)实验对象与数据采集。实验招募了四名健康男性被试(年龄:27.25±1.26岁),均为右利手(通过爱丁堡利手问卷评定[38])。所有被试都是第一次参加脑电实验,并未被告知任何的实验假设。实验前均签订了知情同意书。EEG信号的采集使用荷兰BioSemi公司的ActiveTwo 64通道脑电信号采集系统。在实验过程中,我们根据10/20系统法采集28个通道的脑电数据[39],分别为FC5、 FC3、FC1、FCz、FC2、FC4、FC6、C5、C3、C1、Cz、C2、C4、C6、CP5、CP3、CP1、CPz、CP2、CP4、CP6、P5、P3、P1、Pz、P2、P4和P6。参考电极安置在左耳乳突处;接地电极由CMS和DRL两个独立电极替代。设置采样频率为1000Hz,高通滤波1Hz,低通滤波100Hz,工频陷波50Hz。在安置电极前,需用酒精擦拭皮肤,并使用导电膏降低电极与头皮之间的阻抗。 图2 单次试验的时序图 论文在线出版号 No.169 唐智川等:基于深度卷积神经网络的运动想象分类及其在脑控外骨骼中的应用 5 (2)实验范式。所有电极安置完毕后,被试坐在屏幕前,双手自然地放置在桌上,如图1 所示;实验中,应避免头部或身体的移动,并尽量不眨眼。每个被试在整个实验中需完成560次基于提示的试验,其中想象左手运动和脚运动各280次(由于之后的外骨骼实验中被试的右手会因穿戴外骨骼而运动,会产生和右手运动想象相似的ERD/ERS现象[40],所以不采用常规的左手和右手运动想象辨识)。试验的时序图如图2所示。每次试验持续8秒,前两秒屏幕显示空白,之后在屏幕中央出现一个“十”字,并发出声音提示,提醒被试者试验即将开始;从4秒到8秒,屏幕上的“十”字变为随机产生的向左或向下的箭头,被试者根据箭头指向想象左手运动或脚运动。每次试验间有2-5秒的随机间隔;每35次试验之间有3分钟的休息时间,以防止被试疲劳。 3.2 数据预处理 采集到的原始EEG首先通过滤波获得8-30Hz频率段的脑电数据(该频率段包含重要的运动分类信息[26])。为了显示每类运动想象(左手运动和脚运动)的不同ERD/ERS模式,每个被试所有试验中的C3、Cz和C4通道的脑电信号将被施以叠加平均计算。ERD/ERS可以定义为目标时间点EEG功率值相对参考时间段EEG平均功率值下降或升高的百分比[16],计算公式如下: / % 100%ARREEG EEGERD ERSEEG-=´ (1) 其中,AEEG为目标时间点EEG功率值,REEG为参考时间段EEG平均功率值。 观察ERD/ERS的时序图和脑地形图发现, ERD/ERS模式通常出现在每次试验中的第4-7 秒(参考第4章的图4),因此,本文将对这段数据进行特征提取和分类。此外,本文定义数据分段的开窗长度为50毫秒,因而每个输入样本将由一个28 通道×60 时间采样点(3s时间段×1000Hz采样率÷50ms开窗长度)的矩阵组成。 3.3 CNN的构建 脑电信号是一种具有时-空特性的信号。因此,本文针对性地设计了一种新颖的CNN结构来进行运动想象分类,如图3所示。特征提取部分需要考虑时间和空间特征,分类部分则与传统的BP神经网络类似。整个CNN由5层网络组成,第1层为输入层,第2层(卷积层)和3层(卷积层)构成特征提取部分,第3层的输出(特征值)和第4、5层(全连接层)构成分类部分。各网络层形容如下: (1)第一层(L1):该层为输入层,每个输入样本为28×60 的输入矩阵,其中28 代表通道数,60表示每个通道中的时间采样点; (2)第二层(C2):该层为卷积层(第1隐含层),主要作用是对原始输入样本进行空间滤波,因此该层与输入层之间的连接是局部连接。在该层使用8种滤波器,每种滤波器去卷积输入矩阵就得到不同特征的映射,即得到8个特征图。卷 图3 基于运动想象脑电信号分类的卷积神经网络结构示意图 6 计 算 机 学 报 2016年 积核的大小设置为[28×1],每个特征图的大小为(1×60)。卷积核设置为向量而非一般图像识别中的矩阵,其原因是不使卷积运算后的特征中混杂两种信息,只包含空间特征; (3)第三层(C3):该层为卷积层(第2隐含层),主要作用是对脑电信号在时间上的特征提取,因此也加入了局部连接和权值共享的理念。针对C2层中每个特征图使用5种滤波器,因此在经过此部分的映射后,C3层共有40个特征图。卷积核的大小设置为[1×10],每个特征图的大小为(1×6)。设置卷积步长与卷积核长度相同的原因是为了减少参数防止过拟合,在实现卷积操作的同时实现降采样; (4)第四层(F4):该层为全连接层(第3隐含层),作用是配合前一层和输出层,组成分类部分,因此该层前后都是全连接。神经元个数定为100个; (5)第五层(O5):该层为输出层,包含2个神经元,代表了二分类问题(左手运动想象或脚运动想象)。 3.4 CNN的学习过程 卷积神经网络的训练过程主要采用的是反向传播算法,即输入训练数据,先前向计算各神经元的激活值,然后再反向计算误差,并对误差求各个权值和偏置的梯度,并据此调整各个权值和偏差。 定义网络中的一个神经元为( ) ,, n l m j,其中l表示层数,m表示该层中的第m个特征图,j表示该特征图中的第j个神经元。各层中每个神经元的输入和输出表示为:( )lmxj和( )lmyj,并且 ( ) ( ) ( )ll mm y j f x j = (2) 其中,() f是激活函数。前两层隐含层(C2和C3)采用双曲正切函数作为激活函数: ( ) ( ) tanh f x a bx = (3) 其中,1.7159 a=,23b=(根据文献[41]中的建议所得)。后两层全连接层采用Sigmoid函数作为激活函数: ( )11 expxfx-=+ (4) 网络各层神经元数据间的传递关系如下: (1)第一层(L1):28通道×60时间采样点,可以表示为 ,其中 为通道数, 为采样点。 (2)第二层(C2):在卷积层中,上一层的特征图被一个可学习的卷积核进行卷积,然后通过一个激活函数,就可以得到输出特征图: ( )282 2 2,1* ( )im i j m miy j f I k b j£=æö =+ç÷ èøå (5) 其中,2mk为[28×1]的卷集核,2()mbj为偏置。 (3)第三层(C3):该层与第二层类似: ( ) ( ) ( )103 2 3 311 10 * ( )im m m miy j f y j i k b j£=æö = - ´ + +ç÷ èøå(6) 其中,3mk为[1×10]的卷积核,3()mbj为偏置。 (4)第四层(F4):C3层的所有神经元全连接该层所有的神经元: 6 404 3 4 411( ) ( ) ( ) ( )p iiiipy j f y p w p b j£ £==æö =+ç÷ èøåå (7) 其中,4()iwp为C3层神经元到F4层神经元的连接权值,4() bj为偏置。 (5)第五层(O5):F4层的所有神经元全连接该层所有的神经元: 1005 4 5 51( ) ( ) ( ) ( )iiy j f y i w i b j£=æö =+ç÷ èøå (8) 其中,5() wi为F4层神经元到O5层神经元的连接权值,5() bj为偏置。 为了保证网络能有效的进行训练和收敛,需进行网络权值和偏置的初始化。本文中网络的连论文在线出版号 No.169 唐智川等:基于深度卷积神经网络的运动想象分类及其在脑控外骨骼中的应用 7 接权值和偏置被初始化在一个[( ) 1 / , ,Ninputn l m i ±]的区间内均匀分布,其中( ) ,,Ninputn l m i为第l层,第m个特征图中与第i个神经元相连的前层神经元个数。第C2和C3层的学习率g被定义为[33] ( )2,,lmNinputNshared n l m ilg = (9) 其中,lmNshared为第l层,第m个特征图中共享权值的神经元个数。第F4和O5层的学习率g被定义为[33] ( ) ,,Ninputn l m ilg = (10) 梯度下降法被用来调节连接权值和偏置,使最终的误差达到最小。最大迭代次数设置为10000。训练过程中的loss曲线作为网络是否收敛及最优模型选择的判断。 3.5 分类 在CNN训练阶段,每个被试的数据被单独用来训练各自的分类模型。将数据集分成5份,其中3 份作为训练集(60%的数据),1 份作为检验集(20%的数据),1份作为测试集(20%的数据)。使用训练集进行模型构建,检验集进行模型最优参数选择,测试集进行模型识别率的评估。同时,为了和现有方法比较,本文还使用了以下三种方法对相同训练集建立分类模型,并在相同的测试集上进行测试: (1)功率值+SVM[42]:首先手动提取脑电信号的平均功率值(average power)作为特征值,即原始信号的平方,再通过SVM分类器进行分类; (2)CSP+SVM[43]:首先通过CSP(common spatial pattern)滤波器提取两类脑电信号各自的空间成分作为特征值,再通过SVM 分类器进行分类; (3)MRA+LDA[44]:首先通过MRA(multi-resolution analysis)提取两类脑电信号在时间、空间上的特征,再通过LDA 分类器进行分类。 本文采用识别率(accuracy)和ROC曲线进行分类模型的评估;采用精确率(precision)、召回率(recall)和F-score进行分类模型对不同类别识别表现的评估。识别率是分类器正确分类的样本数与总样本数之比: ( )( )TP TNaccuracyTP TN FP FN+=+++ (11) 其 中 ,TP=true positives ,TN=true negatives, FP=false positives, FN=false negatives。ROC曲线越靠近左上角边界,即曲线下面积(AUC)越大,表示分类器性能越好。精确率是分类为真实正例样本数与分类为正例样本数之比;召回率是分类为真实正例样本数与所有真实正例样本数之比。计算公式分别为: ,TP TPprecision recallTP FP TP FN==++ (12) F-score 是识别率的延伸,结合了精确率和召回率: ( )2recall precisionF scorerecall precision-=+ (13) 表1 所有被试在四种分类方法下测试集(公共数据集)识别率的比较 被试 CNN 功率值+SVM CSP+SVM MRA+LDA ds1a 92.50% 83.00% 84.50% 89.50% ds1f 89.00% 81.50% 87.00% 86.00% Average 90.75%±2.47% 82.25%±1.06% 85.75%±1.77% 87.75%±2.47% 8 计 算 机 学 报 2016年 图4 被试ds1a在四种方法下对测试集(公共数据集)分类生成的ROC曲线 4 实验结果分析 4.1 公共数据集结果 为了验证本文提出方法的有效性,首先将其应用于公共数据集的运动想象分类,并和功率值+SVM、CSP+SVM和MRA+LDA三种方法的分类表现相比较。两名被试在四种方法下对测试集分类的识别率如表1所示。设左手运动想象为正类,脚运动想象为负类,四种方法下对测试集分类生成的ROC曲线如图4所示(以被试ds1a为例)。通过图4和表1可以直观地发现,CNN方法的平均识别率(90.75%±2.47%)高于后三种方法( 82.25%±1.06% , 85.75%±1.77% 和87.75%±2.47%),且CNN方法的ROC曲线下面积也大于后三种方法,即分类模型性能更好。但由于此公共数据集样本较少,且在外骨骼的实际控制中需要真实被试的分类模型及参与,因此进一步地将该方法应用于实验数据集。 4.2 实验数据集结果 4.2.1 ERD/ERS分析 为了显示每类运动想象(左手运动和脚运动)的不同ERD/ERS模式,所有被试所有试验中的C3、Cz和C4通道的脑电信号被计算后叠加平均,通过相对百分比呈现(见公式(1)),如图5所示。提取脑电信号的频段为8-12Hz,提取的时间长度为从cue之前4秒到cue之后4秒(单次试验的0-8秒)。左手运动在cue出现后的0-3秒中(单次试验的4-7秒),对侧运动相关区域(C4)出现显著的ERD模式,而同侧运动相关区域(C3)和Cz区域出现较弱的ERS模式;运动后期(单次试验的7-8秒)对侧运动相关区域(C4)出现显著的ERS 图5 ERD/ERS时序图和脑地形图。在ERD/ERS时序图中,每个被试所有试验中的C3、Cz和C4通道的脑电信号被施以叠加平均计算,通过相对百分比呈现;提取脑电信号的频段为8-12Hz,提取的时间长度为单次试验的0-8秒。在ERD/ERS时序图之后提供了单次试验4-7秒时间段的脑地形图。黑色代表ERD模式,白色代表ERS模式。 论文在线出版号 No.169 唐智川等:基于深度卷积神经网络的运动想象分类及其在脑控外骨骼中的应用 9 模式。脚运动在单次试验的4-7秒中,运动相关区域(Cz)出现显著的ERD模式,而C3和C4区域则出现显著的ERS模式;无显著的运动后期ERS模式。手运动可以引起大脑皮层手部运动区域的ERD模式和脚步运动区域的ERS模式,而脚运动会引起相反的现象。因此,根据以上结果,我们选取单次试验4-7秒时间段的脑电信号作为之后分类模型训练的训练数据。为了进一步分析ERD/ERS模式,在ERD/ERS时序图之后提供了单次试验4-7秒时间段的脑地形图(如图5)。黑色代表ERD模式,白色代表ERS模式。 图6 CNN训练过程中训练集和检验集(实验数据集)的损失函数曲线(被试2) 4.2.2 CNN训练过程分析 使用训练集和检验集数据进行CNN模型训练。所有被试的数据通过训练,均能得到收敛的网络模型。以被试2为例,模型训练中的损失函数曲线(loss)如图6所示,横坐标表示训练迭代次数,纵坐标表示损失值,虚线代表训练过程中网络在训练集上的损失值,实线代表训练过程中网络在检验集上的损失值。从图中可以看到,在进行到2933 次迭代以后,检验损失达到最低点的2.0684,之后略有下降并随后保持基本稳定,训练损失则一直缓慢下降并保持基本稳定。所以可以认为网络在第2933次迭代完成后达到当前最佳的训练效果,即网络训练收敛,训练好的模型为被试2的最优分类模型。 4.2.3 分类结果分析 根据以上的训练过程,每个被试的数据通过CNN训练得到各自的分类模型。同时,用功率值+SVM、CSP+SVM和MRA+LDA三种方法对同样的数据进行训练,得到的三个分类模型与先前得到的CNN分类模型进行比较。所有被试在四种方法下对测试集分类的平均含混矩阵如图7所示。矩阵对角线(灰色格子)中的数字代表所有被试正确分类样本数和标准差的平均百分比;非对角线(白色格子)中的数字代表所有被试错误分类样本数和标准差的平均百分比。所有被试在四种方法下对测试集分类的识别率如表2所示。设左手运动想象为正类,脚运动想象为负类,四种方法下对测试集分类生成的ROC曲线如图8所示(以被试2为例)。通过图7、8和表2可以直观的发现,CNN方法的平均识别率(89.51%±2.95%)与功率值+SVM ( 80.80%±4.28% ) 、 CSP+SVM(85.27%±2.78%)和MRA+LDA(85.94%±3.05%)三种方法相比,分别提高了8.71%、4.24%和3.57%,且CNN方法的ROC曲线下面积也大于后三种方法,即分类模型性能更好。 图7 所有被试在四种方法下对测试集(实验数据集)分类的平均含混矩阵图。矩阵对角线(灰色格子)中的数字代表所有被试正确分类样本数和标准差的平均百分比;非对角线(白色格子)中的数字代表所有被试错误分类样本数和标准差的平均百分比。 10 计 算 机 学 报 2016年 图8 被试2在四种方法下对测试集(实验数据集)分类生成的ROC曲线 所有被试在四种方法下对两类运动想象分类结果的精确率、召回率和F-score的计算如表3所示。更高的精确率、召回率和F-score 值表示更好的分类表现(CNN方法)。本文采用4(四种分类方法)×2(两类运动想象)的方差分析(ANOVA)评估分类方法×运动想象类别的交互作用以及两者对分类表现的影响。置信水平为95%。ANOVA结果显示分类方法和运动想象类别之间无交互作用(p>0.05);分类方法对分类表现具有显著影响(F=6.565,p<0.001),而运动想象类别则对分类表现不具有显著影响(F=0.346,p>0.05)。 5 方法应用研究 为了验证本文方法的实际应用效果,每位被试先前训练好的CNN分类模型(具有最好的分类表现)被应用于上肢康复外骨骼的实时控制中。实验范式与训练数据采集时类似。所有电极安置完毕后,被试被要求坐在屏幕前,左手自然地放置在桌上,并在右手穿戴上肢外骨骼,如图9所示。上肢外骨骼由两段金属连杆(相当于前臂和后臂)、一个尼龙关节(相当于肘关节)、一个角度表2 所有被试在四种分类方法下测试集(实验数据集)识别率的比较 被试 CNN 功率值+SVM CSP+SVM MRA+LDA 被试1 92.86% 83.04% 89.29% 86.61% 被试2 89.29% 80.36% 84.82% 83.04% 被试3 85.71% 75.00% 83.93% 87.50% 被试4 90.18% 84.82% 83.04% 86.61% Average 89.51%±2.95% 80.80%±4.28% 85.27%±2.78% 85.94%±3.05% 表3 所有被试在四种方法下两类运动想象分类结果的精确率、召回率和F-SCORE CNN 功率值+SVM CSP+SVM MRA+LDA 左手运动 脚运动 左手运动 脚运动 左手运动 脚运动 左手运动 脚运动 被试1 精确率 0.8871 0.9800 0.9512 0.7606 0.8235 1.0000 0.8475 0.8868 召回率 0.9821 0.8750 0.6964 0.9643 1.0000 0.7857 0.8929 0.8393 F-score 0.9322 0.9245 0.8041 0.8499 0.9032 0.8799 0.8696 0.8624 被试2 精确率 0.9400 0.8548 0.9048 0.7429 0.9333 0.7910 0.9512 0.7606 召回率 0.8393 0.9464 0.6786 0.9286 0.7500 0.9464 0.6964 0.9643 F-score 0.8868 0.8983 0.7755 0.8254 0.8317 0.8618 0.8041 0.8504 被试3 精确率 0.8125 0.9167 0.7544 0.7593 0.9524 0.7714 0.8387 0.9200 召回率 0.9286 0.7857 0.7679 0.7321 0.7143 0.9643 0.9286 0.8214 F-score 0.8667 0.8462 0.7611 0.7455 0.8134 0.8571 0.8814 0.8679 被试4 精确率 0.9091 0.8947 0.8305 0.8680 0.8491 0.8136 0.8727 0.8596 召回率 0.8929 0.9107 0.8750 0.8214 0.8036 0.8571 0.8571 0.8750 F-score 0.9009 0.9026 0.8522 0.8441 0.8257 0.8348 0.8648 0.8672 论文在线出版号 No.169 唐智川等:基于深度卷积神经网络的运动想象分类及其在脑控外骨骼中的应用 11 传感器和两条气动肌肉(驱动器)组成。每个被试需完成140次基于提示的试验,其中想象左手运动和脚运动各70 次。外骨骼根据分类模型的输出结果,带动右手前臂进行伸动作(对应左手运动想象)或屈动作(对应脚运动)。同时,每次试验的4秒到8秒,屏幕中除了提示箭头,箭头上方还有实时模拟外骨骼运动的反馈条以提供视觉反馈。 图9 上肢外骨骼实时控制应用 上肢外骨骼控制策略如图10 所示。首先,被试根据屏幕中的箭头提示进行相应的运动想象,产生的原始脑电信号通过预处理输入先前训练好的分类模型;其次,分类模型进行脑电信号的特征提取和分类,输出识别结果;最后,气动肌肉控制器根据输出结果获得驱动器控制信号,驱动外骨骼并带动前臂做相应运动。外骨骼尼龙关节处的角度传感器可实时反馈角度信号,输入给屏幕上的反馈条,使其模拟外骨骼运动;同时,可以作为分类模型的输出值,结合期望值评估分类表现。 所有被试在上肢外骨骼实际控制中,平均识别率为88.75%±3.42%,CNN模型对两类运动想象分类结果的精确率、召回率和F-score的计算如表4所示。与先前的模型训练相比,平均识别率略有降低,且左手运动想象的精确率、召回率和F-score 也有所降低。可能的原因是右手的运动一定程度上干扰了左手运动想象的ERD/ERS模式(见章节3.1.2),导致左手运动想象的识别率降低。可能的解决方法是在实际应用中避免使用大脑皮层手部区域的ERD/ERS模式进行分类,如通过面部运动和脚运动或舌部运动和脚运动的分类进行上肢外骨骼的控制。但通过T检验,实际控制中的识别率和左手运动想象的精确率、召回率和F-score与模型训练时相比,并无显著性差异(p>0.05)。因此,可以认定本文方法在上肢外骨骼实时控制中的有效性。 表4 所有被试在上肢外骨骼实际控制中两类运动想象分类结果的精确率、召回率和F-SCORE 左手运动 脚运动 被试1 精确率 0.9841 0.8961 召回率 0.8857 0.9857 F-score 0.9323 0.9388 被试2 精确率 0.9194 0.8333 召回率 0.8143 0.9286 F-score 0.8637 0.8784 被试3 精确率 0.9091 0.8649 召回率 0.8571 0.9143 F-score 0.8823 0.8889 被试4 精确率 0.8676 0.8472 召回率 0.8429 0.8714 F-score 0.8551 0.8902 提示被试预处理放大,A/D,滤波特征提取卷积,降采样分类全连接层气动肌肉控制器上肢外骨骼反馈原始脑电信号特征值运动想象类别输出控制信号CNN分类模型 图10 上肢外骨骼控制策略 12 计 算 机 学 报 2016年 6 结论 本文创新地采用基于深度学习理论的卷积神经网络对单次运动想象脑电信号进行特征提取和分类。首先,提出了基于CNN的运动想象分类方法,设计CNN的结构和参数。其次,将该方法应用于公共数据集和实验数据集并建立分类模型,在两个数据集中,平均识别率和ROC曲线下面积均大于其它三种方法(功率值+SVM、CSP+SVM和MRA+LDA),获得了更好的分类表现。同时,通过对两类运动想象的精确率、召回率和F-score 进行分析和比较,发现分类方法对分类表现具有显著影响,而运动想象类别则对分类表现不具有显著影响。最后,将从实验数据集中获得的CNN分类模型应用于上肢康复外骨骼的实时控制中,验证了本文提出方法的有效性。该方法可实现运动想象的精确识别,为脑机接口技术在康复外骨骼领域的应用提供了理论基础与技术支持。 今后的工作需要将该方法应用于脑卒中患者的康复训练中(本文的实验结果暂时基于健康被试),进一步扩大不同实验人群的实验样本数量,提高方法的实际应用价值。 参 考 文 献 [1] Lo H S, Xie S Q. Exoskeleton robots for upper-limb rehabilitation: state of the art and future prospects. Medical engineering & physics, 2012, 34(3): 261-268 [2] Kiguchi K, Hayashi Y. An EMG-based control for an upper-limb power-assist exoskeleton robot. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2012, 42(4): 1064-1071 [3] Wang Dong-Yan, Li Qing-Ling, Du Zhi-Jiang, et al. Study on exoskeletal rehabilitation robot for upper limb and its control method Journal of Harbin Engineering University, 2007, 28(9): 1008-1013 (in Chinese) (王东岩, 李庆玲, 杜志江, 等. 外骨骼式上肢康复机器人及其控制方法研究. 哈尔滨工程大学学报, 2007, 28(9): 1008-1013) [4] Rahman M H, Rahman M J, Cristobal O L, et al. Development of a whole arm wearable robotic exoskeleton for rehabilitation and to assist upper limb movements. Robotica, 2015, 33(01): 19-39 [5] Tang Jian-You. Multi-degree-of-freedom artificial hand based on sEMG and EEG[master dissertation]. Hangzhou Dianzi University, Hangzhou, 2009 (in Chinese) (唐建友. 结合脑电信息的多自由度肌电假手研究[硕士学位论文]. 杭州电子科技大学, 杭州, 2009) [6] Noda T, Sugimoto N, Furukawa J, et al. Brain-controlled exoskeleton robot for BMI rehabilitation//Proceedings of the 2012 12th IEEE-RAS International Conference on Humanoid Robots (Humanoids 2012), Osaka, Japan , 2012: 21-27 [7] Contreras-Vidal J L, Grossman R G. NeuroRex: A clinical neural interface roadmap for EEG-based brain machine interfaces to a lower body robotic exoskeleton//Proceedings of the 35th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC’13), Osaka, Japan, 2013: 1579-1582 [8] Dobkin B H. Brain–computer interface technology as a tool to augment plasticity and outcomes for neurological rehabilitation. The Journal of physiology, 2007, 579(3): 637-642. [9] Rosen J, Brand M, Fuchs M B, et al. A myosignal-based powered exoskeleton system. IEEE Transactions on systems, Man, and Cybernetics-part A: Systems and humans, 2001, 31(3): 210-222 [10] Mulas M, Folgheraiter M, Gini G. An EMG-controlled exoskeleton for hand rehabilitation[C]// Proceedings of the 2005 IEEE 9th International Conference on Rehabilitation Robotics (ICORR), Chicago, USA, 2005: 371-374 [11] Gupta A, O'Malley M K, Patoglu V, et al. Design, control and performance of RiceWrist: A force feedback wrist exoskeleton for rehabilitation and training. The International Journal of Robotics Research, 2008, 27(2): 233-251 [12] Frisoli A, Salsedo F, Bergamasco M, et al. A force-feedback exoskeleton for upper-limb rehabilitation in virtual reality. Applied Bionics and Biomechanics, 2009, 6(2): 115-126 [13] Pfurtscheller G, Neuper C, Berger J. Source localization using eventrelated desynchronization (ERD) within the alpha band. Brain Topography, 1994, 6(4): 269-275 [14] Pfurtscheller G, Neuper C, Brunner C, et al. Beta rebound after different types of motor imagery in man. Neuroscience Letters, 2005, 378(3): 156-159 [15] Li Ming-Ai, Liu Jing-Yu, Hao Dong-Mei. EEG recognition of motor imagery based on improved CSP algorithm. Chinese Journal of Biomedical Engineering, 2009, 28(2): 161-165 (in Chinese) (李明爱, 刘净瑜, 郝冬梅. 基于改进 CSP 算法的运动想象脑电信号识别方法. 中国生物医学工程学报, 2009, 28(2): 161-165) [16] Pfurtscheller G, Da Silva F H L. Event-related EEG/MEG synchronization and desynchronization: basic principles. Clinical Neurophysiology, 1999, 110(11): 1842-1857 [17] Abdel-Hamid O, Mohamed A, Jiang H, et al. Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition//Proceedings of the 2012 IEEE International Conference on Acoustics, Speech and Signal (ICASSP), Kyoto, Japan, 2012: 4277-4280 [18] Deng L, Hinton G, Kingsbury B. New types of deep neural network learning for speech recognition and related applications: An overview// Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal (ICASSP), Vancouver, British, 2013: 8599-8603 [19] Lawrence S, Giles C L, Tsoi A C, et al. Face recognition: A 论文在线出版号 No.169 唐智川等:基于深度卷积神经网络的运动想象分类及其在脑控外骨骼中的应用 13 convolutional neural-network approach. IEEE transactions on neural networks, 1997, 8(1): 98-113 [20] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks//Proceedings of the Advances in Neural Information Processing Systems (NIPS), Lake Tahoe, USA, 2012: 1097-1105 [21] Zhao Zhi-Hong, Yang Shao-Pu, Ma Zeng-Qiang. Research on vehicle license plate character recognition based on CNN LeNet-5. Journal of System Simulation, 2010 (3): 638-641 (in Chinese) (赵志宏, 杨绍普, 马增强. 基于卷积神经网络 LeNet-5 的车牌字符识别研究. 系统仿真学报, 2010 (3): 638-641) [22] Lotte F, Congedo M, Lécuyer A, et al. A review of classification algorithms for EEG-based brain–computer interfaces[J]. Journal of neural engineering, 2007, 4(2): 1-24. [23] Huang D, Lin P, Fei D Y, et al. Decoding human motor activity from EEG single trials for a discrete two-dimensional cursor control. Journal of Neural Engineering, 2009, 6(4): 1-12 [24] Lemm S, Blankertz B, Curio G, et al. Spatio-spectral filters for improving the classification of single trial EEG. IEEE Transactions on Biomedical Engineering, 2005, 52(9): 1541-1548 [25] Bai O, Lin P, Vorbach S, et al. A high performance sensorimotor beta rhythm-based brain–computer interface associated with human natural motor behavior. Journal of Neural Engineering, 2007, 5(1): 24 [26] Pfurtscheller G, Neuper C, Flotzinger D, et al. EEG-based discrimination between imagination of right and left hand movement. Electroencephalography and Clinical Neurophysiology, 1997, 103(6): 642-651 [27] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324 [28] Tivive F H C, Bouzerdoum A. A new class of convolutional neural networks (SICoNNets) and their application of face detection[C]//, 2003. Proceedings of the 2003 IEEE International Joint Conference on Neural Networks, Portland, USA, 2003, 3: 2157-2162 [29] CireşAn D, Meier U, Masci J, et al. Multi-column deep neural network for traffic sign classification. Neural Networks, 2012, 32: 333-338. [30] Swietojanski P, Ghoshal A, Renals S. Convolutional neural networks for distant speech recognition[J]. IEEE Signal Processing Letters, 2014, 21(9): 1120-1124. [31] Chen Y N, Han C C, Wang C T, et al. The application of a convolution neural network on face and license plate detection[C]// Proceedings of the 18th IEEE International Conference on Pattern Recognition (ICPR'06), Hong Kong, China, 2006, 3: 552-555 [32] Ciresan D, Meier U, Schmidhuber J. Multi-column deep neural networks for image classification//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, USA, 2012: 3642-3649 [33] Cecotti H, Gräser A. Convolutional neural networks for P300 detection with application to brain-computer interfaces. IEEE transactions on pattern analysis and machine intelligence, 2011, 33(3): 433-445 [34] Blankertz B, Müller K R, Curio G, et al. The BCI competition 2003: progress and perspectives in detection and discrimination of EEG single trials. IEEE transactions on biomedical engineering, 2004, 51(6): 1044-1051 [35] Cai Bang-Yu. Temporal-spatial analysis on event-related potential in face recognition and its application in rapid face image retrieval by single-trail detection[doctor dissertation]. Zhejiang University, Hangzhou, 2015 (in Chinese) (蔡邦宇. 人脸识别中单次 ERP 时空特征分析及其快速检索的应用[博士学位论文]. 浙江大学, 杭州, 2015) [36] Kiranyaz S, Ince T, Gabbouj M. Real-Time Patient-Specific ECG Classification by 1-D Convolutional Neural Networks. IEEE Transactions on Biomedical Engineering, 2016, 63(3): 664-675. [37] Tangermann M, Müller K R, Aertsen A, et al. Review of the BCI competition IV. Front Neurosci, 2012, 6(55): 1-31. [38] Oldfield R C. The assessment and analysis of handedness: the Edinburgh inventory. Neuropsychologia, 1971, 9(1): 97-113 [39] Jasper H H, ANDREWS H L. Electro-encephalography: III. Normal differentiation of occipital and precentral regions in man. Archives of Neurology & Psychiatry, 1938, 39(1): 96-115. [40] Pfurtscheller G, Guger C, Müller G, et al. Brain oscillations control hand orthosis in a tetraplegic. Neuroscience Letters, 2000, 292(3): 211-214 [41] LeCun Y A, Bottou L, Orr G B, et al. Neural networks: Tricks of the trade. Berlin: Springer, 2012 [42] Bhattacharyya S, Khasnobish A, Konar A, et al. Performance analysis of left/right hand movement classification from EEG signal by intelligent algorithms//Proceedings of the 2011 IEEE Symposium on Computational Intelligence, Cognitive Algorithms, Mind, and Brain (CCMB), Paris, France, 2011: 1-8 [43] Sun H, Xiang Y, Sun Y, et al. On-line EEG classification for brain-computer interface based on CSP and SVM[C]// Proceedings of the 3rd IEEE International Congress on Image and Signal Processing (CISP), Yantai, China, 2010, 9: 4105-4108. [44] Martín-Smith P, Ortega J, Asensio-Cubero J, et al. A Label-Aided Filter Method for Multi-objective Feature Selection in EEG Classification for BCI[C]// Proceedings of the 13th International Work-Conference on Artificial Neural Networks, Palma de Mallorca, Spain, 2015: 133-144 14 计 算 机 学 报 2016年 TANG Zhi-Chuan, born in 1987, Ph.D. His research interests include rehabilitation exoskeleton, ergonomics, machine learning, human-computer interaction, brain-computer interface and physiological signal processing. ZHANG Ke-Jun, born in 1978, Ph.D., associate professor, M.S. supervisor. His research interests include artificial intelligence, affective computing, design science, robotics and data mining. LI Chao, born in 1991, Ph.D. candidate. His research interests include deep learning, data mining, computer vision and human-computer interaction. SUN Shou-Qian, born in 1963, Ph.D., professor, Ph.D. supervisor. His research interests include advanced ergonomics and design, intelligent motion aided equipment technology, wearable robot and information and interaction design. HUANG Qi, born in 1979, associate professor. Her research interests include computer vision and machine learning. ZHANG Sanyuan, born in 1963, Ph.D., professor, Ph.D. supervisor. His research interests include computer graphics, CAD and image processing and digital media technology. Background The upper-limb exoskeleton is designed with the goal of restoring functions and assisting activities of daily living (ADL) to those elderly, disabled and injured individuals. The brain-computer interfaces (BCI) based on electroencephalogram (EEG) have received huge interest due to their potential. A non-invasive recording procedure is safer and easy to apply, and it is potentially applicable to almost all people including those seriously amputated and paralyzed patients. However, in the practical use, the low signal-noise ratio of EEG signal results in the low classification accuracy in BCI. By using common methods (feature extraction and classification are separated), like common spatial pattern (CSP) + support vector machine (SVM), some studies on motor imagery classification (left vs. right hand) only achieved an accuracy less than 80%. Therefore, the methods of feature extraction and classification are the key of the MI recognition. In this paper, we proposed an original method based on the deep convolutional neural network (CNN) to perform feature extraction and classification for single-trial MI EEG signal. Firstly, according to the EEG signal’s characteristic that combining time and space information, we constructed a 5-layer CNN model to classify the MI; secondly, MI experimental paradigm was designed based on imagining left hand movement and foot movement, and the experimental data of MI were collected; thirdly, the proposed method was used in the public data set and experimental data set to build classification model, compared with the other three methods (power+SVM, CSP+SVM and MRA+LDA); finally, the classification model which achieved the best classification performance was applied in real-time control of upper-limb exoskeleton to verify the effectiveness of our proposed method. The results demonstrate that CNN can further improve the classification performance. The average accuracies of public data set (90.75%±2.47%) and experimental data set (89.51%±2.95%) using CNN are both higher than that using power+SVM, CSP+SVM and MRA+LDA. Furthermore, in real-time control of upper-limb exoskeleton, the average accuracy of all subjects reaches to 88.75%±3.42%, which verifies the effectiveness of the CNN method. The proposed method can recognize MI, and provides theoretical basis and technical support for BCI applications in the field of rehabilitation exoskeleton. Our research group has been working on exoskeleton, ergonomics, machine learning, deep learning, human-computer interface, brain-computer interface and affective computing for many years, especially being expert in rehabilitation exoskeleton based on multi-physiological signal. Previous research findings have published in some international journals like IEEE Transactions on Neural Systems and Rehabilitation Engineering, International Journal of Industrial Ergonomics, 论文在线出版号 No.169 唐智川等:基于深度卷积神经网络的运动想象分类及其在脑控外骨骼中的应用 15 Sensors and Neurocomputing. This research was partly supported by the National Natural Science Foundation of China (No.61303137), China Postdoctoral Science Foundation (No.2015M581935), Zhejiang Province Postdoctoral Science Foundation (No. BSH1502116), and Zhejiang Province Science and Technology Project (2015C31051, 2016C33139) |
[返回] |