基于多通道自注意力机制的电子病历实体关系抽取 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

基于多通道自注意力机制的电子病历实体关系抽取

来源：一起赢论文网日期：2020-07-19 浏览数：1987 【字体：大中小】

第卷第期年月计算机学报收稿日期在线出版日期本课题得到国家自然科学基金和四川省科技计划资助宁尚明硕士研究生主要研究方向为自然语言处理滕飞通信作者博士副教授中国计算机学会会员主要研究领域为云计算数据挖掘李天瑞博士教授中国计算机学会会员主要研究领域为人工智能数据挖掘粗糙集与粒计算云计算与大数据基于多通道自注意力机制的电子病历实体关系抽取宁尚明滕飞李天瑞西南交通大学信息科学与技术学院成都西南交通大学人工智能研究院成都摘要电子病历是临床治疗过程中患者病情及治疗流程的重要载体之一其中各类实体间关系包含了大量与患者健康相关的医学信息因此对电子病历文本的深度挖掘是获取医学知识分析患者病情的有效手段之一实体的高密度分布以及实体间关系的交叉互联为电子病历实体关系的抽取带来了极大挑战应用于通识领域的实体关系抽取方法也因此受到极大的限制针对这一文本差异性本文提出一种基于多通道自注意力机制的神经网络架构相比于主流的架构该架构可强化模型对句级别语义特征的捕捉提升对电子病历专有文本特点的学习能力同时显著降低模型整体复杂度此外本文提出在该网络架构下的两种基于权重的辅助训练方法带权学习的交叉熵损失函数以及基于权重的位置嵌入前者用于缓解实体关系类别不均衡所造成的训练偏置问题从而提升模型在真实分布数据中的普适性同时可加速模型在参数空间的收敛速率后者则用于进一步放大文本字符位置信息的重要性以辅助提升网络的训练效果对比实验选用目前主流方法的个模型作为基线相继在及医学语料中进行验证相较于传统自注意力机制多通道自注意力机制的引入在模型整体指标中最高实现的性能提升在细粒度单项对比实验中引入类别权重的损失函数在小类别样本中的值最高提升近关键词关系抽取电子病历多通道自注意力语义特征中图法分类号号引言电子病历是指医务人员在医疗活动过程中使用医疗机构信息系统生成的文字符号图表图形数据影像等数字化信息并能实现存储管理传输和重现的医疗记录电子病历中诸如疾病症状治疗等实体是整个治疗流程中的核心信息而各独立实体间的关系则是医疗知识的直接表达因此通过对电子病历文本的分析与挖掘是医疗知识获取的重要手段之一该认知已得到广泛认可与实施结合自然语言处理相关技术围绕电子病历等医学文本的相关研究可为智能导诊患者问答等场景提供有效的支持与应用实体关系抽取作为自然语言处理底层任务的分支之一旨在从非结构化文本中识别各实体间的关系进而为语料库构建知识图谱构建等高层任务提供支持目前面向通识领域的关系抽取研究进展较为迅速然而受限于医学领域知识及开放数据集规模以电子病历文本为核心的实体关系抽取研究仍面临极大困难与挑战面向电子病历的实体关系抽取方法其技术难点在于高密度的实体分布以及交叉互联的实体关系该特性主要表现于单句中包含多个实体实体可能隶属于不同类别实体间产生多种类型关系并且同一实体因交叉会参与生成多个关系对以语料为例该患者进行了骨髓活检发现持续性全血细胞减少显示轻度细胞增生伴有白血病细胞该句包含两种类型的个实体实体间共产生组关系分别为骨髓活检持续性全血细胞减少骨髓活检轻度细胞增生骨髓活检白血病细胞轻度细胞增生白血病细胞具体关系释义请参照表上述例子可以明显看出简短的病程记录包含高密度的实体分布并且同一实体骨髓活检相继参与到三组关系中此外本文对语料进行统计后发现平均每个字符包含实体字符将出现个不同的实体且平均发生组实体间关系而通识领域实体关系抽取公开语料如＿中平均每个字符包括实体字符包含个不同实体且平均仅产生组关系该统计结果表明言简意赅的电子病历短文本中有较高密度的实体分布且实体间交错产生多种关系句中高密度的实体分布看似能够为模型拟合提供更为丰富的信息但对于实体关系抽取任务来说同一实体多次参与不同关系对的组成且各关系可能隶属不同类别因此在仅有的标注信息支撑下一旦模型缺乏句级别语义信息的表征能力将易导致对此类交错关系的欠拟合最终影响电子病历关系抽取的性能表现因此上述文本特点要求模型更善于捕捉与理解语义层面的特征而并非单一的时态或短语特征早期的研究成果大多基于传统统计学习方法这些方法的共性缺点是前期需要进行大量的特征工程以抽取有效的特征集如词性最短依赖路径甚至是设计具体的核函数换言之人工特征抽期宁尚明等基于多通道自注意力机制的电子病历实体关系抽取中华人民共和国卫生部电子病历基本规范试行＿取的质量将决定模型性能的上限近年来神经网络及深度学习相关技术被逐渐应用在关系抽取任务中并在通识领域取得较大的突破该类方法的最大优势在于对特征工程的裁剪在提升建模效率的同时也带来较大幅度的性能提升以循环神经网络和卷积神经网络为代表的深度学习架构目前已在电子病历实体关系抽取任务中得到成功应用在最新的研究成果中注意力机制也被成功迁移至此类任务中并在模型训练效率及特征抽取方面取得进一步突破然而这些成果仅是通识领域模型向电子病历文本的简单迁移尚未真正解决电子病历中高密度的实体分布以及复杂的实体关系对所造成的信息干扰根据上述对电子病历文本特点的分析及最新研究方法的比对本文摒弃该任务最佳基线模型的网络架构提出一种复杂度更低分类效果更为显著的模型架构其组件引入多通道自注意力机制以实现对电子病历文本句级别语义特征的深入挖掘与学习层沿用网络用于对电子病历文本浅层语义特征的捕捉与学习本文的主要贡献如下一种更为高效的神经网络架构是当前医学文本领域实体关系抽取任务的主流建模方法为进一步建模表征更全面的句级别语义特征缓解电子病历实体关系交错关联等难题并考虑整体网络的训练效率本文提出复杂度更低的网络架构其层指代循环神经网络或其相关变种网络层则由注意力机制具体实现本文在大量对比实验中验证了该架构的有效性一种更有效的自注意力机制多通道自注意力机制区别于传统自注意力机制该方法通过学习多组权重向量来拟合更为丰富的句级别语义信息从而提升模型对电子病历高密度实体分布以及复杂实体关系的特征学习能力实验比对及注意力权重可视化结果表明多通道注意力机制的引入有助于模型对句级别语义信息的捕捉与编码两种基于权重的辅助训练方法为进一步强化上述网络架构对电子病历实体关系抽取的建模效果本文针对医学文本固有的类别不均衡所造成的学习偏置问题在电子病历实体关系抽取任务中提出一种带权学习的交叉熵损失函数该方法不仅有助于模型对小类别样本的拟合同时可加速模型收敛速率此外为进一步提升位置信息对结构的训练影响本文首次提出一种面向电子病历文本的基于权重的位置嵌入方法在充分利用文本字符位置信息的同时放大目标实体附近文本的重要性并削减远距离文本对模型训练的影响相关工作实体关系抽取的相关研究成果经历了从统计学习方法到深度学习模型的演进在早期的相关研究成果中以特征工程为核心的机器学习模型成为实施该任务的主流方法其中以构建有效核函数为建模思路的支持向量机模型是较为通用的方法之一此类方法所使用的基模型虽然有较为完备的理论支撑但却依赖大量人工干预如通过繁琐的特征工程来筛选最为有效的特征集供模型学习此外为支持向量机设计有效的核函数同样是一项耗时费力的工程以神经网络为支撑的深度学习方法为通识领域关系抽取任务提供了一种新的解决思路无需进行大量的特征构造与筛选甚至仅依赖原始文本便可达到与机器学习方法同样的效果其中最为典型的代表为循环神经网络及卷积神经网络的系列架构这些方法仅使用基础神经网络模型将关系抽取任务转化为分类问题进行建模的使用有助于对文本序列前后依赖信息的学习但缺少对句法及语义层面的特征挖掘加入框架的建模方法旨在关注文本序列的局部特征但同时损失了对全局信息的把控为了同时考虑上述单一模型存在的缺陷将二者进行结合使用双向循环神经网络捕捉文本序列前后信息进而引入卷积操作进一步捕捉文本局部特征尽管能够同时考虑双向文本信息以及局部特征但其仍受限于单一模型的性能而缺乏对文本语义层面的深度挖掘等抛弃结构采用双向循环神经网络与注意力机制相结合的建模方法来进一步对句级别特征进行学习与编码近年来以深度学习方法为支撑的相关理论同样为电子病历实体关系抽取问题提供了更有效的解决思路等以为基模型对该问题进行建模并在电子病历文本上进行尝试作者认为所提取的局部特征有助于表达高密度的实体分布特性但模型对大量相距较远的实体对将缺乏判断力度等将与最大池化层计算机学报年结合作为核心网络架构并针对电子病历实体关系分布不均衡的特点推导出基于类别约束矩阵的惩罚项与损失函数一并对模型进行学习和训练该方法仍可视为卷积神经网络的简单应用并仅在数据集中进行验证因此其模型的普适性还有待探讨是循环神经网络在该任务上的成功应用之一作者使用双向循环神经网络对文本信息进行特征抽取与建模然后分别通过最大池化层与注意力机制对隐层输出做进一步编码进而通过向量拼接的方式传入层进行模型学习与分类虽然该方法率先引入双向循环网络对该任务进行建模但受限于对文本信息重要性的区分能力该模型依旧无法适用于风格差异性明显的电子病历中此后大量研究人员采用并验证了结构在电子病历关系抽取任务中的有效性该网络构建方法也同时成为主流基准模型例如将与相结合以兼顾文本局部及全局信息作者分别于层及层之后施加池化层来对冗余信息进行过滤从而更专注于对文本短语特征的学习此外文中同样对注意力机制进行了验证即将后的最大池化层替换为注意力层然而受限于梯度消失等缺陷对较长文本仍旧无法很好地进行依赖信息的学习图含有通道的网络结构事实上随着以注意力机制为核心思想的结构的提出与完善一定程度上兼顾了长文本信息的学习能力同时提升了模型整体的训练效率然而对于电子病历这样的领域专有文本传统的自注意力机制依旧在句级别语义信息的捕捉上存在缺陷因此本文针对电子病历文本的差异性及特点同时考虑模型整体的训练复杂度引入多通道自注意力机制提出一种的网络架构用于提升实体关系抽取在电子病历文本上的性能表现模型介绍本节介绍架构的网络层组织结构并着重描述以多通道注意力机制及网络为核心的模型结构及其工作原理图详细展示了该模型整体结构及内部数据变换的流程其中灰色实心框为已有技术的引用波点填充框为本文所提出内容的具体实现共包含以下个核心组件输入层原始电子病历文本按空格切分作为输入多嵌入层包含传统词嵌入层与本文所提出的基于权重的位置嵌入层词嵌入层的输入为预训练词向量位置嵌入层的参数矩阵通过随机初始化参与模型训练两种嵌入层的输出向量进行拼接作为原始文本低层特征的向量表示底层特征抽取器期宁尚明等基于多通道自注意力机制的电子病历实体关系抽取作为本文模型层的具体实现作用于多嵌入层的输出以捕捉文本序列的长短依赖特征高层特征抽取器引入多通道自注意力机制作为中组件的具体实现作用于网络之后通过拟合多组权重向量来捕捉句级别高层特征实验验证及注意力权重可视化结果表明多通道自注意力机制在兼顾时态短语等简单句法特征基础上能够进一步提升文本各成分间重要性的区分度从而有助于电子病历中复杂交错关系的分类与抽取带权学习的损失函数推导并制定出一套有效的类别权重计算方法各类别权重作为参数向量与交叉熵损失函数共同参与训练类别权重信息的引入可摒弃人工采样所引入的随机误差保证原生医学实体关系的固有分布实验结果表明该方法在改善医学实体关系类别分布不均衡问题的同时加速了训练阶段模型整体的收敛速率层及其相关变种常被用于对序列数据的建模由于文本数据可看作是具有前后依赖关系的序列数据因此同样适用于在本文所提出的结构中使用双向循环神经网络作为底层特征抽取器对层的输出做粗粒度的特征抽取与编码特殊的门控结构使其具有长短距离信息记忆的功能其核心组件包含输入门遗忘门以及输出门这些门控单元与记忆细胞相互配合共同决定对隐藏层信息的更新或是丢弃是的变体之一其特点在于双层双向的前向计算与反向传播式即为在时刻的输出其中使用对应位置求和的方式对双向隐层向量进行融合层多通道自注意力机制以自注意力机制为核心的神经网络架构近年来逐渐成为自然语言处理领域的研究热点传统自注意力机制通过学习一组权重向量来表达句中各字符的重要性以此来捕捉句中的不同成份以及句法特征然而该方法仅能对句中的简单短语时态等明显成份进行学习依旧缺乏对句级别语义特征的捕捉能力对于实体分布密集实体间关系交错出现的电子病历文本需更多关注句中不同语义成份间的信息挖掘因此本节引入多通道自注意力机制对句级别多语义信息进行表征通道是指对句子施加一次注意力机制并输出一维注意力权重向量因此多通道是指将同时对目标句进行多次注意力操作并产生多组权重向量因此区别于传统自注意力机制将输出一个维权重矩阵用于表征句子的不同成分基于该注意力权重计算方法模型将学习并对句级别高层语义特征进行表征有助于模型整体训练过程中对参数空间的快速搜索对于高密度实体分布以及实体关系交叉关联的文本特点上述方法所得到的句级别嵌入表征能够在增强语义特征表达的基础上削弱冗余信息的重要性因此针对电子病历专有的文本特点本文首次引入多通道注意力机制作为层的具体实现以提升实体关系抽取在电子病历中的建模效果多通道注意力机制的工作流程及原理如下将学习到的长短距离依赖信息进行拼接并输出隐藏层向量若设置单层隐层神经元个数为则维度为的输出将作为多通道自注意力的输入对于传统自注意力机制其注意力权重可由式与计算得到其中和分别是维度为和的可学习参数矩阵在模型实现过程中可视为感知机参数由用户设定根据上述传统自注意力机制的实施原理引入多通道概念用于扩展模型对句中各成份信息的学习能力给定通道数将在各通道中分别进行一次自注意力权重计算可看做是目标句子中第种成份的重要性因此若句中关键信息较少则通道数的增加会导致模型在训练过程中的冗余信息过多从而影响下游任务的效果本文也在实验章节验证了通道数对电子病历关系抽取的影响同时也通过权重可视化的方式直观感受多通道注意力机制对句中关键信息的捕捉能力该过程可形式化为式其中指代通道中的一组可学习权重矩阵通道数作为关键超参数需根据实际业务场景进行相应调整计算机学报年各通道自注意力的计算相互独立可通过矩阵运算实现多通道并行化若给定通道数式中的参数可扩展为维规模的维矩阵因此可将替换为并得到多通道自注意力权重的计算方式如式所示传统多头自注意力机制通过在个相同的层级结构中随机初始化权重矩阵来进行多头学习从而一定程度上避免大量冗余信息被模型学习在本文工作中通过加入约束项来使得各通道的学习过程具有较好的区分度其中代表矩阵的范数这样的计算方式可确保相同维度数字差异性越小则惩罚力度越大反之则对损失函数的惩罚力度变小该惩罚项将作为损失函数的一部分对模型一同进行训练因此每增加一个通道将会对句中某一成分进行权重拟合即可看作各通道的学习结果分别代表句中的不同成份本文节的权重热力图展示了多通道自注意力机制对句中各成分的学习与区别能力对比的多层串行结构带有约束项的多通道自注意力机制在过滤冗余信息的基础上极大简化了注意力层的网络结构一定程度上提升模型的训练效率在模型的具体实现过程中本文使用两层感知机来计算式的权重矩阵最后通过式与将与相乘再进行规范化得到自注意力层的输出即句级别语义特征的向量表征基于权重的辅助训练提升方法本节以为基础网络架构使用与多通道注意力机制相结合的具体实现作为本文电子病历关系抽取任务的解决方案在此基础上为进一步考虑电子病历文本的差异与特征并全面提升架构在电子病历文本中的学习能力提出两种基于权重的辅助训练提升方法带权学习的损失函数以及基于权重的位置嵌入计算方法带权学习的损失函数分类器常被用作对隐藏层向量的概率映射在本文模型中同样沿用层来判别句中目标实体与之间的关系输出作为分类器的输入由式与进行类别概率的计算与判别其中是分类器的参数矩阵为偏置参数矩阵分类器常被用作对隐藏层向量的概率映射在本文模型中同样沿用层来判别句中目标实体与之间的关系输出作为分类器的输入由式与进行类别概率的计算与判别其中是分类器的参数矩阵为偏置参数矩阵通识领域中实体关系抽取任务可通过引入抽样算法来缓解类别不均衡所导致的训练偏置问题然而在医疗领域数据固有的正确分布往往是失衡的例如常见病的发病率高于罕见病已是不争的事实无论是科室规模或是病案数量都造成电子病历数据分布不均衡的情形因此在该领域数据中利用采样算法来平衡数据分布是违背自然规律的做法在其上训练得到的模型不具备很好的鲁棒性基于上述分析本节首次在该任务中提出基于类别权重的损失函数以缓解类别分布不均衡问题分类器所采用的常见损失函数为交叉熵其中代表当前样本所属类别的编码是类别总数表示层将隐层向量映射为各类别的概率值式中最后一项代表正则项交叉熵损失函数的目的是为了计算训练样本当前的总体损失从而推动模型做进一步参数更新本节提出通过在损失函数中引入类别权重来调整各类别对总体损失的贡献比例从而平衡小类别样本在训练过程中的重要性其类别权重的设计思路依赖各类别样本原始分布的状况若类别对应的样本数小于全体类别样本数均值则考虑为其赋予大于的权重进而在训练过程中使小类别样本误判惩罚得到放大反之则赋予小于的权值其类别权重的具体计算方式如式所示首先定义样本总数为其中期宁尚明等基于多通道自注意力机制的电子病历实体关系抽取代表训练集中第类样本总数并按升序排序得到有序数组则代表中下标为所对应的值对求均值得到将其直接代入式方可得到各类别的相应权重最后更新式中的为并加入惩罚项则得到式即为本节所提出的带权学习的损失函数基于权重的位置嵌入层词嵌入方法是自然语言处理常用的字词表征手段而位置嵌入方法的优势和效果已在架构的相关研究中被证实因此本文模型的多嵌入层由传统的词嵌入以及本节提出的基于权重的位置嵌入层所构成其中带有权重信息的位置嵌入层将进一步强化实体附近字符的重要性并削弱远距离字符的影响原始电子病历文本可看作由不同句子构成句中的每个字符可通过嵌入表被映射为一组唯一的离散数值向量其中和分别代表词表规模以及用户指定的词向量维度那么便可由式计算得到其中是大小为的向量对于位置嵌入首先直接算得各字符与目标实体之间的相对距离其中代表句中字符的相对位置代表第个实体作为一项超参数代表用户所指定的相对距离的上限对句中所有字符进行相对距离计算后可得到两组位置向量分别代表各字符到句中两个目标实体的相对距离所构成的向量类似于每一个相对距离或可通过式被映射为唯一的离散值向量其中指代位置嵌入表代表用户指定的位置向量维度类似的是大小为的向量本节在传统位置嵌入方法的基础上提出基于权重的位置嵌入即为各字符所对应的赋予相应的权重因此式可更新为式该权重的引入将对位置信息起到放缩作用针对实体密度较大的电子病历文本来说该权重信息的引入一定程度上剔除了相对距离较远字符带来的冗余信息同时提升了实体附近字符的重要性最终多嵌入层将词嵌入与权重位置嵌入层的向量进行拼接作为最终输出即式所示实验结果与分析本节将分别对三处主要贡献多通道自注意力机制带权学习的损失函数以及基于权重的位置嵌入进行验证与比对分析实验结果表明本文所提出的模型在电子病历公开数据集上的验证效果超越了已有基线模型数据集与实验设置分别选用关系语料库与数据集进行模型验证前者是公认的电子病历实体关系评测数据集之一表详细描述了其关系类别含义及相关统计信息后者数据集包含以及数据库表展示了中所包含实体关系的含义及相关统计信息表语料集相关信息关系定义训练集测试集治疗改善医疗问题治疗恶化医疗问题治疗导致医疗问题针对医疗问题进行治疗因医疗问题而不进行治疗检验显示医疗问题进行检验以查证医疗问题医疗问题表明医疗问题无关系总和表数据集相关信息关系定义训练集测试集药物代谢动力学机制药效的相互作用同时用两种药的相关意见无任何信息的药物交互无关系总和该数据集源于三所医院的出院小结其中共包含八种实体关系治疗引起的医疗问题治疗手段管控医疗问题治疗恶化医疗问题治疗改善治愈医疗问题由于医疗问题而未计算机学报年给予治疗检验表明医疗问题为查证医疗问题而进行检验以及医疗问题表明医疗问题由于可供下载的部分仅包含份训练集以及份测试集因此预处理阶段将其进行融合后按照的比例进行训练集与测试集的重新划分对于同时包含多组实体关系的句子为不同实体对构造该句作为新样本进行扩充并将句中目标实体替换为相应实体类型例如实体替换后变为＿＿对他施与呋喃苯胺酸以防止患充血性心力衰竭该语料库包含生物医学文献的摘要部分以及中由医师撰写的所有文档共标注四种实体关系建议指同时用两种药的建议影响指药效的相互作用机制指药物代谢动力学机制以及无任何信息的药物交互原始数据集中包含份训练集以及份测试集类似于处理方法预处理阶段将同时包含多组关系的句子按照实体对进行样本扩充句中的目标实体对按照前后顺序依次替换为＿与＿其余非目标实体均替换为＿这样的预处理技巧已在相关研究中得到证实此外早期研究证明负样本的筛选有助于还原数据集实体的正确分布因此本文沿用相同的负样本过滤方法对于包含相同名称的目标实体对予以删除相应样本如果实体对间属于别名关系则删除该样本若两目标实体在句中处于并列关系则删除所属样本表所示的统计结果即为负样本过滤后的最终样本数参数设置训练集上进行折交叉验证同时使用网格搜索为两组数据集确定最佳模型参数其中核心参数最优值参见表实验中在开源数据集上使用预训练词向量作为词嵌入层的输入参与模型训练基线模型选用种类型共个模型作为基准来比对本文所提出模型的优越性其中包含现有研究中最佳性能模型基准模型详细信息如下表关键参数数据集词嵌入维度位置嵌入维度通道数层层数目学习率优化算法机器学习模型选用基于特征工程的模型作为该类别方法的代表其人工特征包括句中各词与实体间的相对距离词性以及实体标注该模型具体实现时选用库中的分类器深度学习模型分别选用以及架构的进行实验比对其模型参数均使用文献中所提到的最优值进行设置三种基线模型隶属基础神经网络的简单应用用于比对本文所提出的结构的优越性其中在现有研究中表现出最佳性能注意力机制与是注意力机制在该任务上的成功应用二者均将传统自注意力机制作为高层特征抽取器对底层或的隐层输出做进一步特征抽取与编码该类模型用于比对本文所提出的多通道自注意力机制的特征抽取能力实验环境实验基于操作系统搭载核处理器与运行时内存核心计算力源于块显卡单显卡可用显存为模型编码基于采用深度学习框架构建模型模型整体性能对比基线模型与本文所提出模型在两项数据集中的整体性能比对结果如表所示其中表示含有通道的注意力机制两项数据集所对应的最佳通道数参考表表示引入基于权重的位置嵌入层指代带权学习的损失函数表中的为本文所使用的完整模型其余包含或标识的模型将作为本节细粒度实验比对用于分别验证三项主要贡献点的有效性期宁尚明等基于多通道自注意力机制的电子病历实体关系抽取表模型性能比对类型模型机器学习基础神经网络模型本文模型及其变种表通道数对模型性能的影响模型通道数在网络架构优越性方面基于架构的模型在两项数据集中的值均超越架构的最优基线模型其最高实现的性能提升数据集此外在保证分类效果的基础上架构表现出较为明显的效率提升表训练时间一栏统计了各模型达到最佳分类效果所需的训练时长可以看出在两数据集中本文提出的模型相较于最高实现与的效率提升而完整模型也实现近与的提升该实验结果表明相比于电子病历关系抽取领域主流的架构可在保证下游关系抽取性能的基础上进一步提升模型的训练效率并降低模型整体的复杂度在模型有效性方面仅施加多通道自注意力机制的已逼近甚至超越最佳基线模型并且优于同样是结构的模型该结果证实相较于为代表的最佳基线模型网络结构具有显著优越性另一方面本文所引入的多通道自注意力机制在电子病历数据集上的表现优于传统自注意力机制对于两项基于权重的辅助训练提升方法表中的以及分别验证了带权学习损失函数和基于权重的位置嵌入方法在不同网络架构中的有效性以及普适性同时该实验结果可对比发现施加于中的两种辅助提升方法所带来的性能提升值最高提升远弱于以及值最高提升特别是带权学习的损失函数其性能提升差异更为明显最终完整模型相较于基线模型在两数据集中的值最高实现的性能优化相较于最佳基线模型其性能提升近和该对比实验结果表明本文所提出的两种辅助训练提升方法具有一定的普适性能够辅助提升模型对文本的表征能力从而进一步影响下游关系抽取任务的效果此外实验结果指出两种基于权重的辅助训练方法更加适用于基于架构的模型上述对比结果表明计算机学报年架构在电子病历数据集中表现出较大的性能提升以及较高的训练效率对于前者其原因在于以架构为基础的多通道自注意力机制能够更大限度地捕捉电子病历复杂的实体分布特性以及交错关联的实体关系而对于该架构所带来的训练效率提升的提出者在文献中分析了及模型单层网络结构的复杂度其结论为架构更具轻量级特点由此带来训练效率的大幅提升对比本文最优基线模型卷积操作的时间复杂度同时受卷积核通道数卷积核大小以及输出特征图大小的影响呈现层内连乘层间相加的形式而多通道自注意力机制由于在各通道层面采取矩阵并行运算因而其时间复杂度仅受文本序列长度影响而呈线性关系同时本文统计各对比模型训练时长表直观展示了本文模型在训练效率方面的优越性此外融入两项辅助训练提升方法的模型一方面通过多通道自注意力机制对电子病历文本特征进行较好学习另一方面结合使用带权学习的损失函数以降低参数空间的搜索范围从而进一步实现分类效果的明显提升单项性能比较以为基础架构的及其变种模型在整体性能上提升显著为进一步验证围绕该架构所提出的三处主要贡献点的性能表现本节将对其进行细粒度比对与分析多通道自注意力机制为了验证多通道自注意力机制的有效性同时确定最佳通道数表列出了模型随通道数变化的性能表现在两项数据集上验证结果均呈现随通道数增加值先增后减的趋势这样的变化规律说明通道数的增加有助于模型对句子成分的深度挖掘即能够进一步丰富语义层面的特征使得模型参数空间更容易被拟合然而由于有限句长通道数过多势必会引入部分冗余信息从而干扰模型的正常训练甚至在实验过程中观测到过拟合现象因此会发现模型性能逐渐弱化的现象表中与的对比结果可以看出多通道注意力机制的使用在两项数据集中的值分别提升近和证实多通道自注意力机制对于电子病历的文本表征能力优于传统自注意力机制值得注意的是的性能表现优于同时本文所提出的在两项数据集上却超越了这一结果表明在文本表征能力方面本文所引入的多通道自注意力机制对句级别中局部和全局信息的学习能力优于同时进一步验证了架构的优越性除上述直观对比外对比表中以及的值可以发现仅使用带权损失函数的模型其实验效果差于而在施加多通道自注意力机制的基础上引入带权损失函数的却达到三者中的最优效果且相较于实现最大幅度的性能提升这一现象表明多通道自注意力机制对句级别语义信息具有较强的学习和捕捉能力使得模型对电子病历文本有更好的表征性能而在此基础上引入带权学习的损失函数可进一步提升模型在训练阶段的拟合能力从而快速收敛至较优参数集基于权重的位置嵌入位置嵌入所携带的距离信息是网络常用的文本特征表示方法本文所提出的基于权重的位置嵌入可增强不同距离字符在网络中的特征表达能力有助于整体模型对具有复杂文本特性的电子病历进行表征与学习表中所展示的以及是带有权重位置嵌入层的模型在两项数据集上的验证结果表明模型性能相较于以及使用传统自注意力机制的模型均有轻微提升该对比结果表明一方面基于权重的位置嵌入方法在各架构中具有一定的普适性而另一方面说明针对实体高密度分布且相同实体交错参与构成不同关系对的电子病历文本含有权重的位置嵌入法能够进一步放大位置信息的重要性即降低无用句成分信息的权重提高关键特征的重要性以此扩大句成分间重要性的差异度从而提升模型对文本的表征能力此外基于权重的位置嵌入法之所以仅表现出微弱的提升其原因在于较短的有限句长最大句长为而为使得位置信息间较小的区分度不足以为模型训练贡献更多的有效特征带权学习的损失函数多通道自注意力机制单项实验中通过对比以及三项模型证实了句级别表征能力更强的多通道自注意力机制有助于带权损失函数发挥其更大功效因此本文将带权损失函数作为模型的辅助训练期宁尚明等基于多通道自注意力机制的电子病历实体关系抽取提升方法进一步分析其在不同网络架构中的普适性以及细粒度分类性能的有效性带权学习的损失函数在单项比对中带来较为明显的性能提升对于架构相比于在两项数据集中值分别提升近和并在项评价指标上超越基线最优模型此外在架构中引入该辅助训练方法的模型相较于同样实现了较为可观的性能提升该对比结果表明带权学习的损失函数具有一定的普适性且在不同架构中均具有辅助训练的提升作用特别是与本文的架构网络相结合的多通道自注意力机制其提升效果更为显著为了进一步观测引入带权学习损失函数的架构对类别不均衡数据的拟合能力表详细展示了单类别细粒度性能表现结合表与表对两项数据集类别分布的统计情况可以直观发现对于小类别样本的分类能力相较于基线模型有显著提升例如以及其中在类上实现的最大提升对于多数类样本模型同样实现较为可观的性能提升在中等规模类别上的验证结果弱于基线模型其原因在于该类关系所包含的两项实体为同类相较于其他类型样本多通道自注意力机制将因此代入较多冗余信息从而影响模型在该类别的拟合能力此外实验过程中发现类的指标随训练轮数的增加先升后降同样验证了因冗余信息而导致的模型过拟合现象表细粒度类别性能对比关系损失函数的优劣直接影响模型对参数空间的拟合效果无论是粗粒度的整体比对还是细粒度的类别对比都证实引入带权学习的损失函数提升了模型对参数空间的拟合能力此外实验过程中发现类别权重的损失函数在保证模型性能的同时加速了训练过程的收敛速率图展示了类别权重对模型收敛速度的影响情况该实验基础参数设置基于表所示的最佳参数仅修改损失函数类型进行对比实验两数据集上分别进行次实验每轮记录一次当前测试集的值并通过设定早停机制来中断训练对次结果中每轮取均值作为该轮真实值从图中可以看出数据集上带权损失函数在到轮之间便可达到最优而使用普通交叉熵损失函数时则需轮左右模型到达收敛数据集上表现出同样的规律这一验证结果表明本文所提出的基于类别权重的交叉熵损失函数在带来模型性能提升的同时加速了模型收敛速率其原因在于各类别对总体损失的贡献得到平衡因此一定程度上缩小了模型的参数搜索空间从而提升模型的收敛速率图带权损失函数对模型收敛速率的影响注意力效果案例分析图所示的热力图展示了多通道注意力机制对句级别特征的学习效果该案例来源于语料集实体间关系为预处理时将目标实体替换为相应实体类型如图中的＿以及计算机学报年＿图图分别展示了通道数对句级别语义特征的学习效果颜色越深表示该字符具有较高的注意力权重反之代表较低的重要性通道数为可认为与传统自注意力机制等价相比于通道的注意力效果传统自注意力机制误将给予较高权重并且未能较好地对该例关系判别起重要作用的和赋予更高的注意力权重该对比结果证实了多通道自注意力机制能够更好地捕捉句中的关键语法成分热力图中可直观看到各句子成分被赋予差别更大的重要度进一步提升有用句成分信息对文本表征的能力从而保证模型在电子病历关系抽取中的性能随着通道数的增加字符间重要性的区分度有所下降结合表的比对结果可知通道数过高会导致冗余信息的引入从而使得模型出现过拟合现象总之该例的注意力权重可视化结果表明句级别语义特征能够在多通道注意力机制的作用下得到更好的捕捉和表达如案例中的以及连接词图多通道注意力权重热力图结论本文提出并验证了网络架构在电子病历实体关系抽取任务中的有效性首次引入多通道自注意力机制作为层并围绕上述架构提出两种基于权重的辅助训练提升方法以提升模型对电子病历专属文本特点的表征与学习能力模型整体主要包含三层核心网络结构多通道自注意力层通过拟合多组权重向量来表达句子各成分间重要性以此捕捉句级别语义信息采用矩阵操作实现多通道注意力的并行计算以代入惩罚项的方式来尽可能避免对冗余信息的过多学习单项对比验证及注意力权重可视化结果表明相比于传统自注意力机制多通道注意力机制能够有效捕捉实体密度高实体间关系复杂等文本特征针对医疗领域数据分布的独特性首次在该任务提出类别权重计算方法并与损失函数同时参与训练以此实现对数据真实分布的拟合同时保证模型在各类别中的学习能力该损失函数显著提升模型对小类别样本的拟合能力同时加速模型的收敛速率位置嵌入与注意力机制的搭配使用已在各领域得到证实针对电子病历高密度的实体分布特性本文为字符间相对位置赋予权重以此得到的位置嵌入层与传统词嵌入层进行向量拼接作为文本信息的初级表征该嵌入层计算方法实现了对位置信息的有效放缩提升了距离特征在模型训练过程中的区分度经过粗细粒度的实验验证与比对本文所提出的模型及其相关变种在及数据集中均表现出较好的优越性其中在三项评价指标上均取得最佳效果相较于最优基线模型指标分别表现出和的明显提升其中在单项比对中多通道注意力机制的使用和基于类别权重的损失函数带来最为明显的性能提升该实验效果表明本文所提出的方法能够实现对电子病历文本特殊性的掌控无论是句级别语义特征的挖掘还是数据集真实分布的拟合都实现较好的匹配与迎合此外仅使用与多通道注意力机制相结合的模型在性能表现上超越这一验证结果表明模型复杂度更低的结构在该任务中同样能够实现较好的性能本文探索的方法正是为进一步提升模型对文本特征的表征能力从而提升实体关系抽取在电子病历上的性能这一切入点也是当下的主流思路之一在未来工作中我们将进一步探索本文方法的横向扩展性能并探索高密度实体期宁尚明等基于多通道自注意力机制的电子病历实体关系抽取分布及实体关系复杂多变领域文本的通用解决方案此外相比于通识领域电子病历文本仍存在很多独特差异性如中医的文言式句法因此电子病历文本特征的表达能力仍是有较大的研究与提升空间这也是我们将在未来亟待研究和解决的问题之一参考文献杨锦锋关毅何彬等中文电子病历命名实体和实体关系语料库构建软件学报杨锦锋于秋滨关毅等电子病历命名实体识别和实体关系抽取研究综述自动化学报计算机学报年期宁尚明等基于多通道自注意力机制的电子病历实体关系抽取

[返回]

上一篇：基于改进的有效区域基因选择与跨模态语义挖掘的图像属性标注
下一篇：基于谱聚类的无监督特征选择算法