基于动态采样和迁移学习的疾病预测模型 - 博士论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

博士论文

当前位置：首页 > 博士论文

基于动态采样和迁移学习的疾病预测模型

来源：一起赢论文网日期：2019-11-14 浏览数：1819 【字体：大中小】

计算机学报 2019 年 Yudong1),2) XIAO Li1) CHENG Wei5) YANG Jie6) YANG Yan7) 1)(Institute of Computing Technology Chinese Academy of Sciences, Beijing, 100080) 2)(University of Chinese Academy of Sciences, Beijing, 100049) 3)(Beijing Chao Yang Hospital Affiliate of Capital University of Medical Sciences, Beijing, 100020) 4)(Nanchang University, Jiangxi, 330000) 5)(Xiyuan Hospital, China Academy of Chinese Medical Sciences, Beijing, 100091) 6)(TCM Data Centre, China Academy of Chinese Medical Sciences, Beijing 100700) 7)(Dept. of Information, No. 983 Joint Logistic Support Force Hospital of PLA, Tianjin, 300142) Abstract The disease prediction model based on clinical manifestation of outpatient records is an important research content of Clinical Decision Support System (CDSS). The mainstream disease prediction models transform outpatient records into medical symptom sets, the diagnosis results into output labels, and use machine learning algorithms to train disease prediction models. Different incidences of diseases lead to the imbalance and small sample of diseases data, making it hard to train effective and accurate disease prediction model. Sampling techniques are the common methods to solve sample imbalance, which mainly use certain strategies to generate a balanced training dataset and train disease prediction models based on the new balanced training dataset. However, it independently trains different disease prediction models, which not considers the knowledge transfer between different disease models, which limits the performance. Transfer learning provides knowledge transferring between predictions on diseases with correlated knowledge. If transfer learning is applied to the training process of the disease prediction model, a new disease prediction model can be trained based on the existing disease prediction model. Inspired by this, this paper proposed a disease prediction model based on dynamic sampling and transfer learning. First, it trained prediction models for majority diseases, and then trained minority disease prediction model based on the majority disease prediction models, which can achieve knowledge transfer among different disease prediction models. In particular, in order to address the problem that transforming outpatient records into medical symptom sets leading to the loss of information, this paper proposed a disease prediction model based on convolution neural network, which used convolution neural network to extract semantic information. In view of achieve knowledge transfer on different disease prediction models and training models on minority diseases, this paper introduced the dynamic sampling technique to construct a balanced dataset, which used prediction results of different samples to update sample sampling probability dynamically, ensured that the model can learn more misclassification samples for improving the effectiveness of the prediction model. This paper has done an experimental evaluation on the collected outpatient records. Our disease prediction model based on dynamic sampling and transfer learning proposed in this paper had made important improvements in accuracy, recall rate and F1, especially the improvement of recall rate is of great significance. Key words disease prediction; transfer learning; dynamic sampling; convolutional neural network 1 引言医疗资源分布不均衡给社区医生带来了巨大挑战，同时很难训练充足的医生来缓解巨大的医疗压力。随着软硬件迅速发展，信息化技术广泛应用于医疗诊断过程中，为医学诊疗提供辅助支撑。临床辅助决策支持系统（Clinical Decision Support System，CDSS）根据患者当前的病症信息，依据系统知识库和推理分析计算，对病情进行分析预测，为制定诊疗方案提供辅助支持信息，是一种十分有效的辅助诊断方法，其中疾病预测模型是CDSS 的核心组成部分。目前，主流的疾病预测模型以门诊病病历临床表现为训练数据集，利用机器学习和数据挖掘技术训练疾病预测模型，从而实现依据患者现有信息进行疾病预测分析。机器学习预测模型将疾病诊断过程看作是以疾病临床表现为特征的统计分类预测问题，根据疾计算机学报胡满满等：基于动态采样和迁移学习的疾病预测模型 3 3 病临床表现建立样本特征空间，将已有病历的样本特征和对应的标记（即诊断结果）作为训练集合，采用统计分析模型训练分类预测函数，从而可以对新病历进行预测分析。然而，稀有疾病正样本数量少，主流机器学习算法对少数类样本欠学习，难以训练高效疾病预测模型，以至于无法有效检测稀有疾病。因此，稀有疾病模型训练问题是目前疾病预测模型需要重点关注的问题。此外，疾病预测模型作为一种医疗智能辅助决策支持系统，能够将可能的疾病病历召回，即取得高召回率，具有更小的决策风险和更重要的辅助决策意义。目前，解决小样本模型训练问题的主要方法有采样技术和迁移学习技术。采样技术采用一定的策略方法从原始训练样本集中生成均衡训练集，在均衡训练集上训练疾病预测模型，从而提高稀有疾病召回率，但是会导致模型准确率下降，并且独立训练不同疾病预测模型，没有充分考虑不同疾病模型之间的知识迁移性，限制了模型效果。迁移学习是运用已拥有的知识对不同但相关领域问题进行求解的一种机器学习方法，首先在大规模样本集上训练有效模型，然后将模型作为稀有疾病的预训练模型，利用基于模型的迁移学习方法在稀有疾病数据集上继续训练模型，以此实现不同疾病模型之间的知识迁移。迁移学习虽然可以提高稀有疾病预测模型效果，但是没有考虑医学小样本数据集的不均衡特点，无法充分训练高效疾病预测模型。不同科室医生在专业学习过程中，学习的基础医学知识是类似的，之后通过学习本科室疾病知识进行疾病鉴别诊断。医生在知识学习过程中具有很强的知识迁移能力，即医生在学习了诊断呼吸道感染的知识要点之后，可以很快将知识迁移到学习肺炎诊断中，从而很快掌握肺炎的诊断要点，这种知识迁移方式促进医生进行有效学习和诊断。类比医生学习过程，如果可以有效模拟医生知识迁移能力，将迁移思想运用到疾病诊断模型训练中，在已有疾病诊断模型的基础上，训练新的疾病预测模型，则可以获取高效、准确的新型疾病预测模型。稀有疾病（如肺炎）训练数据很难获取，难以训练学习高效、准确预测模型，但是一些疾病（如呼吸道感染）具有充足的训练数据集，可以有效学习高效、准确的预测模型，如何将常见疾病预测模型迁移到稀有疾病模型训练中，是构建高效、准确疾病预测模型要解决的问题。此外，神经网络算法在图像识别、分类等领域取得了很好的效果，一个重要的因素就是迁移学习的运用[1-3]。Taylor Killian[4]提出一种新型的隐马尔可夫决策过程（ Hidden Parameter Markov Decision Process，HiP-MDP），利用贝叶斯神经网络（Bayesian Neural Network，BNN）来替换高斯过程，利用迁移学习来解决现实中存在的相似学习任务之间的迁移问题。Taylor Killian 指出，在最优控制理论中存在很多类似任务，如果每次都是从头训练任务，没有充分利用任务之间的相关性，无法获取高效模型。Taylor Killian 指出原有 HiP-MDP 采用的是高斯决策过程，很难衡量非线性交互变换，而不同任务在迁移时具有很多参数和状态之间的非线性变换，高斯过程不能很好地进行建模，因此作者采用贝叶斯神经网络来替换高斯过程，将隐含参数、状态和动作作为贝叶斯网络的输入，利用贝叶斯网络捕捉更加复杂的动态系统的高层次非线性交互，用于学习在给定动作的基础上，状态经过隐含参数后的输出状态，训练一个任务的模型之后，将构建的贝叶斯网络模型进行保存，作为相似任务的预训练模型。在训练相似任务模型时，Taylor Killian 首先将预训练贝叶斯模型读取，作为本次任务训练的初始化模型，并在现有数据集上训练调整贝叶斯网络模型。本文提出了基于动态采样和迁移学习的疾病预测模型。主流疾病预测模型将门诊病历转化为医学特征集合，一方面导致了重要信息的丢失，另一方面，模型的好坏依赖于人工的特征设计以及特征设计的好坏。为了更好地表征门诊病历的高层特征以解决上述问题，本文利用卷积神经网络来自动提取门诊病历的语义信息，将门诊病历转化为向量表示。卷积神经网络通过不同的卷积核进行样本特征提取，可以提取不同长度的文本语义信息，以提高整体模型的预测性能。同时本文提出了一种新型的动态采样技术，一方面保证采集的正负样本数量均衡，另一方面，每次迭代采样时提高分类错误的样本和分类置信度不高的样本的采样概率，让模型更加关注分类错误的样本，从而提高模型对分类错误的样本和分类置信度不高的样本的关注。此外，本文在疾病预测模型的训练过程中引入了迁移学习，将样本充足的疾病的预测模型学习到的知识迁移到样本不足的疾病的预测模型中，来提高疾病预测计算机学报计算机学报 2019 年模型的效果，同时探索研究了疾病间的共现频次（共同出现在一个病历中的次数）对迁移效果的影响。本文提出的这种基于动态采样和迁移学习的疾病预测模型，首先采用卷积神经网络在多数类疾病上训练预测模型，然后将此模型作为稀有疾病的预训练模型，在稀有疾病训练集上继续训练疾病预测模型，同时将动态采样技术用于模型训练中，提高了模型效果。西医门诊病历上的实验结果表明，相比于其他疾病预测模型，本文提出的采用动态采样和迁移学习技术的新型疾病预测模型在准确率、召回率和 F1 值上均有较大提升。 2 相关工作信息技术的不断发展为构建临床决策支持系统提供了更多方法，机器学习模型被逐渐用于疾病预测模型中，大大改善了临床决策支持系统。疾病预测模型从最初的基于专家规则的预测模型，逐步发展到基于统计分析和案例分析的预测模型，再到后来的基于机器学习和深度学习的预测模型。 2.1 疾病预测模型基于专家规则的预测模型，收集专家诊断经验，转化为诊断规则信息，进而形成疾病诊断路径，从而构建诊断模型，称为专家系统。典型的专家系统包括 1976 年 Shortliffe 开发的 MYCIN 专家系统[5]，用于判断细菌感染并给出相关治疗信息，和王加宽构建的颈椎病专家诊断系统[6]。专家系统的核心是构建专家规则知识库，需要人工总结大量专家规则，维护成本高、不易拓展。随着信息技术的发展和医疗数据的信息化，基于统计分析和案例分析的疾病预测模型，采用数据挖掘技术和统计分析技术从医学数据中自动总结诊断规则和获取统计知识，避免了人工的大量参与，但需要大量医学数据，不适用样本数量上的稀有疾病。包括基于对大量医学文献进行统计分析来辅助诊断的 IBM Watson 医疗辅助诊断系统[7]。基于机器学习的疾病预测模型将疾病预测问题形式化为分类问题[8-10]，从门诊病历数据中抽取、选择特征，训练机器学习分类模型，实现疾病的预测。如 Prince 提出将贝叶斯模型运用到阿尔茨海默病预测问题中，取得了很好的效果[11]。此外，[12] 提出了一种迭代提升欠采样模型（ Under Sampling with Iteratively Boosting，USIB），进行疾病预测。USIB 迭代地从多数类样本中进行欠采样，构建多组弱分类器，通过加权组合方式集成为一个强分类器，最后基于标签最大互信息树对预测标签进行选择优化，实现疾病预测。神经网络技术被逐渐应用于疾病预测模型中。Green [13]提出了分别基于回归模型和基于神经网络的急性冠状动脉综合征诊断预测模型，其中神经网络模型取得了更好的效果。Das[14]将集成学习与神经网络模型进行结合，构建了高效的疾病预测模型。Atkov[15]提出了基于神经网络的冠心病预测模型，充分考虑了传统疾病特征这样的遗传因素，取得了很好的效果。其次，Lipton[16]对多标签病历进行建模分析，构建基于长短期记忆网络的疾病预测模型，充分考虑病人医学特征变化规律，在一些疾病上取得了很好的效果。国内也将深度学习模型用于构建疾病预测模型，如蔡航[17]将深度学习模型用于诊断肺癌，利用深度学习分析医学图像，从而进行疾病诊断分析。此外，侯桂英[18]构建了基于深度学习的高血压诊断模型，充分考虑了不同指标之间的关系，取得了不错的效果。虽然机器学习技术，包括深度学习技术在疾病预测模型中取得了很大的进展，但在由于机器学习模型倾向于将样本分到训练数据中样本量更大的类别中，故将其应用医疗领域时，亟需解决存在不均衡和样本量小特点的医疗数据上的模型构建问题，以得到高效的疾病预测效果。目前，学术界提出了很多解决小样本、不均衡数据集上模型训练方法[19, 20]，总体可以分为基于抽样技术的算法、基于集成技术的算法和基于迁移学习的算法。 2.2 采样技术基于采样技术的算法通过构造均衡训练数据集来解决数据的不均衡问题[21]，主要分为欠采样技术和过采样技术。欠采样技术从原始不均衡样本集中抽取训练样本集的子集，通过抽取部分多数类样本来降低不均衡程度，从而构造均衡训练集，如基于最近邻的采样算法[22]，基于单边采样的算法[23, 24]，基于近邻清除规则的欠采样算法算法（neighborhood cleaning rule）[25]，基于聚类的欠采样算法[26]。现欠采样技术选取部分样本作为训练集，丢失了部分多数类样本信息，虽然可以提高少数类样本召回率，但是往往导致多数类样本准确率的降低。论文[24]提出单边采样算法从多数类样本中随机抽取部分样本来欠采样。Yan-Ping Zhang[26]提出计算机学报————————— 本课题得到面向云计算的网络化操作系统(No. 2016YFB1000505)、国家自然科学基金委员会(NSFC)-广东省人民政府联合基金超级计算科学应用研究专项计划(第二期)(U1611261)资助. 胡满满，女，1993年生，硕士研究生，主要研究兴趣为机器学习和数据挖掘. E-mail：humanman@ict.ac.cn. 陈旭，男，1993年生，硕士研究生，主要研究兴趣为机器学习和数据挖掘. E-mail：chenxu@ict.ac.cn. 孙毓忠（共同通讯作者），男，1968年生，博士，研究员，计算机学会(CCF)会员(06433D)，主要研究领域为大数据智能（机器学习）分析与计算. E-mail: yuzhongsun@ict.ac.cn. 沈曦，女，1972年生，本科，助理经济师，主要研究兴趣为互联网医疗、智慧医疗产业. E-mail：shenxixi@hotmail.com. 王晓青，女，1965年，大学本科，主治医师，普儿内科，专业：呼吸道消化道新生儿，E-mail：serpenteverde@163.com. 余天洋，男，1991年生，硕士，主要研究领域为机器学习. E-mail：981323683@qq.com. 梅御东，男，1996年生，本科生，主要研究领域为机器学习和数据挖掘，智能日志分析. E-mail：meiyudong18z@ict.ac.cn. 肖立（共同通讯作者），男，1987年生，博士，副研究员，计算机学会(CCF)会员（83765M）,主要研究领域为人工智能、医学影像、计算生物. E-mail: xiaoli@ict.ac.cn. 程伟，女，1966年生，博士，主任医师，主要研究领域为中西医结合防治老年疾病. E-mail: chengwei1966@126.com. 杨杰，女，1974年生，博士，主任医师，主要研究领域为中医大数据、中医诊断学. E-mail: yangjie@ndctcm.cn. 杨焱，女，1969年生，硕士，副主任技师（高级工程师），主要研究领域为医院信息化建设. E-mail: susanyang9999@sina.com。基于动态采样和迁移学习的疾病预测模型胡满满1),2) 陈旭1),2) 孙毓忠1) 沈曦1) 王晓青3) 余天洋4) 梅御东1),2) 肖立1) 程伟5) 杨杰6) 杨焱7) 1)(中国科学院计算技术研究所, 北京 100080) 2)(中国科学院大学, 北京 100049) 3)(首都医科大学附属北京朝阳医院, 北京 100020) 4)(南昌大学, 江西 330000) 5)(中国中医科学院西苑医院, 北京 100091) 6)(中国中医科学院中医药数据中心, 北京 100700) 7)(中国人民解放军联勤保障部队第九八三医院信息科, 天津 300142) 摘要基于门诊病历临床表现的疾病预测模型是临床决策支持系统（Clinical Decision Support System，CDSS）的一个重要研究内容。主流疾病预测模型将门诊病历转化为医学特征集合，将诊断结果作为输出标签，在此基础上利用机器学习算法训练疾病预测模型。不同疾病发病率的差异性导致医学样本具有不均衡、小样本特点，难以训练高效、准确疾病预测模型。采样技术是目前解决样本不均衡问题的常用手段，其主要采用一定的策略生成均衡训练集，在均衡训练集上训练疾病预测模型，但是采样技术独立训练不同疾病的预测模型，没有考虑不同疾病模型之间的知识迁移性，限制了模型效果。迁移学习可以实现相似任务之间的知识迁移，如果将迁移学习运用到疾病预测模型训练过程中，在已有疾病诊断模型的基础上，训练新型疾病预测模型。受此启发，本文提出了基于动态采样和迁移学习的疾病预测模型，首先在多数类疾病上训练疾病预测模型，然后在此基础上训练少数类疾病预测模型，以实现不同疾病预测模型间的知识迁移。特别地，针对主流模型将疾病门诊病历转化为特征集合丢失文本信息的问题，本文提出了一种基于卷积神经网络的疾病预测模型，利用卷积神经网络提取语义信息；针对疾病模型知识迁移问题和小样本疾病训练问题，本文引入动态采样技术以构造均衡数据集，利用模型在不同样本上的预测结果来动态更新样本采样概率，目的是确保模型可以更多地关注错误分类样本和分类置信度不高的样本，从而提高预测模型的效果。本文在收集的门诊病历上进行了实验评估，实验结果表明，相对于目前主流疾病预测模型，本文提出的基于动态采样和迁移学习的疾病预测模型在准确率、召回率和 F1 值上取得了重要的提升，尤其是召回率的提升具有十分重要的意义。关键词疾病预测；迁移学习；动态采样；卷积神经网络中图法分类号 TP18 A Disease Prediction Model based on Dynamic Sampling and Transfer Learning HU Manman1),2) CHEN Xu1),2) SUN Yuzhong1) SHEN Xi1) WANG Xiaoqing3) YU Tianyang4) MEI 计算机学报胡满满等：基于动态采样和迁移学习的疾病预测模型 5 5 了基于聚类的欠采样技术，通过对多数类样本进行聚类分析进而按比例抽取样本来欠采样。论文[27]提出了一种基于样本权重进行欠采样的方法，采用聚类结果更新样本权重，基于权重进行采样得到均衡训练集。过采样技术[28]采用少数类样本合成的方法提高少数类样本数量，以构造均衡训练集。Chawla提出了经典的 SMOTE 算法[29]，根据任一少数类样本的最近 k 个少数类样本来合成一个新样本，摈弃了随机采样容易产生过拟合的问题，但存在样本重叠问题。针对 SMOTE 的样本问题，Han[30]提出了 Borderline-SMOTE，该算法更多地对处于边界上的样本进行合成，因为样本边界点更加不易区分。此外，文章[31]提出 RAMOBoost 算法，该算法通过自适应排序少数类样本，逐渐将决策边界移向难以分类的样本。 2.3 集成技术基于集成技术的算法融合集成技术和采样技术，充分利用采样技术和集成技术的优点[32-34]。Liu 等[35]提出了结合 Bagging 和欠采样技术的集成采样算法 EasyEnsemble，从多数类中有放回地采样部分样本来生成均衡训练集，多次采样训练多个基础分类器，最终加权集成为强分类器。Liang 和Cohn[36]提出 UBagging 算法，该算法将 Bagging算法用于不平衡数据集训练中，通过逐渐增加负样本采样数量来训练多个分类器，集成多个分类器以提高整体分类性能。此外，Sun 等[37]提出融合异构模型和采样技术的算法，首先利用采样技术抽取生成多个均衡数据集，将多数类样本分布在不同的训练集中，然后分别训练不同的分类器，最后利用集成技术将多个分类器组合为强分类器。融合集成技术和采样技术的算法利用多次采样来解决单次采样样本信息缺失问题，但是每次采样均采用随机采样算法，没有充分考虑不同分类器之间的关系，限制了整体性能的提升。 2.3 迁移学习技术迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法[3]。迁移学习可以分为基于特征选择的迁移学习、基于特征映射的方法以及基于权重的方法[3]。基于特征选择的方法首先识别出源领域和目标领域中共同特征，然后在源领域内基于这些特征训练分类器，最终通过目标领域特有的特征再进行分类器的优化，从而使分类器适用于目标领域的分类任务[3, 38, 39]，例如，论文[38]提出了一种基于联合聚类的迁移学习方法，用于解决领域外文档分类问题。基于特征映射方法将源领域和目标领域的数据从高维特征空间映射到低维特征空间，从而使源领域和目标领域具有相同的分布，然后，利用新空间内源领域数据集训练分类器，从而对目标领域数据进行分类预测[40-42]。基于权重的迁移方法主要包括戴文渊提出的 Tr AdaBoost 算法[43]，Tr Ada Boost 借助Boosting 技术用源领域的数据知识辅助目标领域的分类任务，，通过迭代减小误分类的源领域样本的权值，增加误分类的目标领域样本的权值，使得分类器逐渐将目标领域样本准确分类[3]。迁移学习在传统机器学习算法中被大量而广泛地研究应用，如 Tr AdaBoost 算法等，在神经网络算法中，则主要应用与图像、视频领域，在图像识别、分类等领域取得了很好的效果[1, 2]，如目标定位[44]，图像排序[45]，图像检索[46]等领域。但在自然语言领域尤其是不均衡医学数据上的疾病预测问题上缺乏探索和研究，这就是我们引入迁移学习到疾病预测领域的动机和原因之一。如果将样本充足的疾病模型学习到的知识迁移到样本不足的疾病模型的构建中，来辅助训练稀有疾病的预测模型，则可以有效解决医学数据不均衡的问题和部分稀有疾病数据不足的问题。 3 CNN 组合型疾病预测模型本文提出了基于卷积神经网络的深度学习疾病预测模型，将门诊病历转化为词语序列，利用卷积神经网络对医学门诊病历中患者体征文本信息进行语义特征提取，训练单种疾病预测模型，实现对疾病的辅助诊断。其中，将医院门诊病历中主诉、现病史和体格检查等文本信息作为输入，病历中初步诊断结果的疾病标签作为输出，将基于门诊病历的疾病预测问题抽象为文本二分类问题。同时，本文提出了将迁移学习和动态采样技术融入到疾病预测模型的训练中的方法，解决医疗病例样本不均衡的问题给疾病预测模型的训练和预测性能带来的影响，来提高疾病预测模型的预测性能。本文选择基于卷积神经网络（Convolutional Neural Network，CNN）的疾病预测模型，具有对文本自动提取语义特征进而进行分类的优点。首先，卷积神经网络中能够对文本从语义角度进行表示进而提取特征，它将文本中的字词表达为多维空计算机学报计算机学报 2019 年间的连续稠密向量，语义相似的词对应的词向量的也相近。其次，卷积神经网络是一种局部连接的网络，其特征提取是自动学习实现的，卷积与池化操作可以看成是一种局部特征提取过程，相比于传统机器学习模型，避免了人工提取特征的成本和模型实现的效果对人工提取特征的好坏的依赖。此外，主流模型从门诊病历中抽取医学特征集合，导致重要信息丢失，如将“咳嗽三天”转化为“咳嗽”，丢失了重要信息“三天”，而本文中的卷积神经网络疾病预测模型则不存在该问题。最后，CNN 的解决问题的能力比较强大，当需要解决的问题较复杂、难度较大时，需要建模较复杂的 CNN 模型，此时问题的复杂度使得算法需要足够大的样本去训练和测试模型，且复杂的 CNN 模型也需要足够大的训练样本，防止模型记住样本和防止模型的过拟合问题；当需要解决的问题较简单时，设计简单的 CNN 模型即可解决问题，而简单的 CNN 模型不需要大量的样本去训练，在本文中，疾病的诊断通构建 CNN 二分类模型实现对单个疾病的预测，且每个疾病包含的症状比较集中，任务复杂度不是很大，故使用 CNN 模型实现疾病预测是可行、必要且优越的。其次，疾病发病率的差异性导致疾病数据集具有不均衡特点，不同疾病的病例样本数量差异较大，如“呼吸道感染”的样本数量有 1219 例，而“支气管炎”的病例样本量只有 433 例。而主流模型单独训练每一个疾病的预测模型，没有考虑不同疾病预测模型之间的知识迁移性，限制了模型性能的提升。针对小样本疾病的病例样本量不足的问题和疾病间存在的共享知识的现象，本文提出了将迁移学习技术融合到疾病预测模型的训练中，改善不同疾病样本量不均衡问题带来的影响，将大样本疾病的预测模型学习的知识迁移到小样本疾病的预测模型中，进而提高疾病预测模型的收敛速度和预测性能。其中，我们提出了以疾病共现频次作为疾病预测模型迁移学习的依据，当两个疾病对间的共现频次较高时，即同时被诊断为该两个疾病对的病例较多，也即该疾病对的病例的相似性较大，共有的知识较多，病例的相似特征较多，可在这两个疾病对之间进行模型的迁移。此外，病例样本的极度不均衡特点，导致难以直接训练基于深度学习的多标签分类模型，而本文中病例的疾病预测通过对其进行每种疾病的二分类实现的。训练每种疾病的疾病预测模型时，该疾病的负样本是其他所有疾病的病例，致使疾病训练集中正样本比例明显低于负样本，而机器学习模型偏向将样本分到样本量更多的类别中，如果直接训练基于深度学习的分类模型，会导致疾病的召回率低，无法满足临床诊断需求。针对不同疾病的正负样本的不均衡问题，本文引入论文[12]中的动态采样技术，将动态采样技术融入到疾病模型的训练中，提出基于动态采样和迁移学习的深度学习疾病预测模型。首先利用 One-Vs-Rest 方式将多标签疾病训练集转化为多种疾病的二分类训练集，以训练不同疾病的诊断模型；然后，在样本数量多的疾病上训练深度学习疾病预测模型，并将训练产生的模型参数进行保存；随后在训练小样本疾病预测模型时，选取与小样本疾病共现次数最多的多数类疾病，将此多数类疾病模型参数知识迁移到少数类疾病模型训练中，即将多数类疾病模型参数作为少数类模型的初始化值，同时采用动态采样技术获取均衡数据集来训练疾病预测模型，提高整体疾病预测模型的性能。最后，本文将多个单种疾病预测模型组合为多标签疾病预测模型，整体疾病预测模型示意图如图 1 所示。计算机学报胡满满等：基于动态采样和迁移学习的疾病预测模型 7 7 模型迁移模型迁移模型迁移病例1病例2 病例N文本信息初步诊断主诉信息初步诊断主诉信息初步诊断支气管炎训练数据集呼吸道感染训练数据集肺炎训练数据集呼吸道感染文本分类模型肺炎文本分类模型基于深度学习的多标签疾病预测模型P1P2 PK支气管炎文本分类模型病例预处理模型训练生成训练集图 1 结合迁移学习和深度学习的多标签疾病预测模型框架图 3.1 基于卷积神经网络的疾病预测模型：Single CNN 在对病例进行疾病预测时，分别输入各种疾病的 CNN 疾病预测模型中，进行是否为这些疾病的二分类判断来进行病例的疾病预测。在基于 CNN的二分类疾病预测模型中，首先对病历中文本进行分词处理，转化为词语序列；然后，利用Word2Vector的 Skim-Gram 模型在医疗相关文本数据上预训练词语的词向量，将离散的词语符号表示为低维连续空间的语义向量；接下来，将病例的各词语表达为其词向量后，得到表达病例的二维词向量矩阵；最后，使用 CNN 的卷积、池化操作对病例的词向量矩阵提取特征并进行疾病的二分类。图 2 给出了基于卷积神经网络的疾病预测模型结构图。图 2 基于卷积神经网络的疾病预测模型 1） Skip-gram 词向量模型 Skip-gram 模型是一种利用单词来预测 n 窗口内的上下文单词的模型，通过最大化对数似然函数来训练模型从而获得每个词的向量表示，公式（1）给出了最大化的对数似然函数。模型的结构图如图 3 所示。 (1) 计算机学报8 计算机学报 2019 年 W(t)W(t-n)W(t-n+1)W(t-1+n)W(t+n)输入层投影层输出层图 3 Skip-gram 模型示意图 2）基于卷积神经网络的预测模型本文提出的基于 CNN 的疾病预测模型如图 2所示。模型包含一个卷积层和一个池化层，首先对二维特征矩阵进行卷积操作，其中卷积核的长度与词向量的长度一致，每一个卷积核产生一个列向量表示；针对每一个列向量采用最大池化方法选择其中最大值作为输出；将所有列向量的最大值按照顺序组成一个固定维度的向量，向量长度与卷积核数量一致，称为特征向量；将池化后的节点进行全连接分类。假设采用维向量来表示词向量，表示第 i 个单词的词向量表示。门诊病历 Case 包含 n 个词语，可以将门诊病历表示为，其中表示向量连接操作，如公式（2）所示。（2）生成文本二维矩阵表示之后，本文将结果输入到卷积层，利用卷积核来抽取训练数据中的一些语义特征。给定（a）表示词序列中第 i 个词到第 i+m-1 个词的窗口向量矩阵；（b）一个卷积核矩阵，目的是将作用到个连续的词向量产生一个输出结果。 0 0 00 1 11 2 10 1 10 2 01 0 10 -1 10 1 -1104输入特征矩阵卷积核特征映射图 4 卷积操作示意图如图 4 所示为卷积操作示意图，卷积核作用在上产生的结果可以如公式（3）计算。（3）其中通常为一个非线性函数，可以为 ReLU函数、tanh 函数等，是上述卷积核，是偏置项。为了提取文本更加丰富的数据表示，模型采用多个不同窗口的卷积核来获得更多的语义信息。通过卷积层之后，生成了维度随句子长度变化的特征图，通常维度很大，难以直接训练合适的分类模型，将这些特征图作为池化层的输入，进行维度降低，同时捕获最重要的信息。本文模型采用最大池化方法，最大池化将特征图中的最大值作为结果输出。通过池化层之后，产生了固定长度的特征向量（长度与卷积核数量一致），特征向量输入到全连接分类层进行样本分类。 3.2 基于动态采样和迁移学习的小样本疾病预测模型：CNN+TL+DS 本文在训练基于卷积神经网络的疾病预测二分类模型时，提出了一种新的动态采样技术，来降低训练数据的不均衡对疾病预测性能的影响，提出了使用迁移学习技术来提高疾病预测的性能和收敛速度。当训练数据中各类别的数据不均衡时，卷积神经网络倾向于将样本分到训练数据中样本量更大的标签类别中。而医学门诊病历样本是不均衡的，在每个疾病的二分类训练数据中，由于正样本集是该疾病的病例样本，负样本集是其他所有疾病的病例样本，负样本数量远大于正样本数量，导致疾病预测时召回率低；此外，各个疾病类别的病例样本也是不均衡的，一些常见疾病的病历样本数量较多，而部分稀有疾病的病历样本数量较少，各疾病计算机学报

[返回]

上一篇：基于P4的可编程数据平面研究及其应用
下一篇：基于多任务迭代学习的论辩挖掘方法