基于多通道自注意力机制的电子病历实体关系抽取 |
来源:一起赢论文网 日期:2020-07-19 浏览数:1719 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第 卷 第 期年 月计 算 机 学 报收稿 日 期 在 线 出 版 日 期 本课题得到国家自然科学基金 和四川省科技计划 资 助宁 尚 明硕 士 研 究 生 主要研究方向为自然语言处理 滕 飞通 信 作 者 博 士副 教 授中国计算机学会会 员主要研究领域为云计算 数 据 挖 掘 李 天 瑞博 士教 授中国计算机学会 会 员主 要 研究领域为人工智能 数 据 挖 掘粗糙集与粒计算 云计算与大数据基于多通道自注意力机制的电子病历实体关系抽取宁尚明 滕 飞 李天瑞西南交通大学信息科学与技术学院 成 都西南交通大学人工智能研究院 成 都摘 要 电子病历是临床治疗过程中患者病情及治疗流程的重要载体之一 其中各类实体间关系包含了大量与患者健康相关的医学信息 因 此对电子病历文本的深度挖掘是获取医学知识分析患者病情的有效手段之一 实 体的高密度分布以及实体间关系的交叉互联为电子病历实体关系的抽取带来了极大挑战应用于通识领域的实体关系抽取方法也因此受到极大的限制针对这一文本差异性 本文提出一种基于多通道自注意力机制的神 经 网 络 架 构 相 比 于 主 流 的 架 构该架构可强化模型对句级别语义特征的捕捉提升对电子病历专有文本特点的学习能力 同时显著降低模型整体复杂度此 外本文提出在该网络架构下的两种基于权重的辅助训练方法 带权学习的交叉熵损失函数以及基于权重的位置嵌入 前者用于缓解实体关系类别不均衡所造成的训练偏置问题从而提升模型在真实分布数据中的普适性 同时可加速模型在参数空间的收敛速率后者则用于进一步放大文本字符位置信息的重要性 以 辅 助 提 升 网络的训练效果 对比实验选用目前主 流 方 法 的 个模型作为基线 相 继 在 及 医学语料中进行验证 相较于传统自注意 力 机 制多通道自注意力机制的引入在模型整体 指 标 中 最 高 实 现 的 性 能 提 升 在细粒度单项对比实验 中引入类别权重的损失函数在小类别样本中的 值 最 高 提 升 近关 键 词 关 系 抽 取电 子 病 历多通道自注意力 语 义 特 征中 图 法 分 类 号 号引 言电 子 病 历 是 指 医 务 人 员 在 医 疗 活 动 过 程 中 使用医疗机构信息系统生成的文字符号图表图形数据影像等数字化信息 并能实现存储管理传输和重现的医疗记录 电 子 病 历 中 诸 如 疾 病症 状治疗等实体是整 个 治 疗 流 程 中 的 核 心 信 息 而 各 独立实体间的关系则是医疗知识的直接表达因此通过对电子病历文本的分析与挖掘是医疗知识获取的重要手段之一该认知已得到广泛认可与实施 结合自然语言处理 相 关 技 术 围绕电子病历等医学文本的相关研究可为智能导诊患者问答等场景提供有效的支持与应用实体关系抽取作为自然语言处理底层任务的分支之一旨在从非结构化文本中识别各实体间的关系进而为语料库构建 知识图谱构建等高层任务提供支持 目前面向通识领域的关系抽取研究进展较为迅速然而受限于医学领域知识及开放数据集规模以电子病历文本为核心的实体关系抽取研究仍面临极大困难与挑战面 向 电 子 病 历 的 实 体 关 系 抽 取 方 法 其 技 术 难点在于高密度的实体分布以及交叉互联的实体关系该特性主要表现于单句中包含多个实体实体可能隶属于不同类别 实体间产生多种类型关系 并且同 一 实 体 因 交 叉 会 参 与 生 成 多 个 关 系 对 以语 料 为 例该患者 进 行 了 骨 髓 活 检发 现 持 续 性 全 血细胞 减 少显 示 轻 度 细 胞 增 生 伴 有 白 血 病 细胞该句包含两种类型的 个 实 体实 体 间 共 产 生组关系分别为骨髓活检持续性全血细胞减少骨髓活检轻度细胞增生 骨 髓 活检 白血病细胞 轻度细 胞 增 生白血病细胞 具 体 关 系 释 义 请 参 照 表 上述例子可以明显 看 出 简短的病程记录包含高密度的实体分布并且同 一 实 体 骨 髓 活 检 相 继 参 与 到三组关系中此外本 文 对 语 料 进 行统计后发现平均每 个字符包含实体字符将出现 个不同的实体且平均发生 组实体间关系而通识领域实体关系抽取公开语料如 _中平 均 每 个 字 符包 括 实 体 字 符 包 含个不同实体且平均仅产生 组关系该统计结果表明言简意赅的电子病历短文本中有较高密度的实体分布且实体间交错产生多种关系句中高密度的实体分布看似能够为模型拟合提供更为丰富的信息但对于实体关系抽取任务来说同一实体多次参与不同关系对的组成 且各关系可能隶属不同类别因此在仅有的标注信息支撑下一旦模型缺乏句级别语义信息的表 征 能 力 将易导致对此类交错关系的欠拟合最终影响电子病历关系抽取的性能表现因此上述文本特点要求模型更善于捕捉与理解语义层面的特征而并非单一的时态或短语特征早期的研究成果大多基于传统统计学习方法 这些方法的共性缺点是前期需要进行大量的特征工程以抽取有效的特征集 如词性最短依赖路径甚至是设计具体的核函数 换言之人工特 征 抽期 宁 尚 明 等 基于多通道自注意力机制的电子病历实体关系抽取中华人民共和国卫生部 电子病历基本规范 试 行_取的质量将决定模型性能的上限近年来神经网络及深度学习相关技术被逐渐应用在关系抽取任务中并在通识领域取得较大的突破 该类方法的最大优势在于对特征 工 程 的 裁 剪在提升建模效率的同时也带来较大幅度的性能提升 以循环神 经 网 络和卷积神经网络为代表的深度学习架构目前已在电子病历实体关 系 抽 取 任 务 中 得 到 成 功 应 用 在最新的研究成果 中 注意力机制也被成功迁移至此类任务中并在模型训练效率及特 征抽取方面取得进一步突破 然 而这些成果仅是通识领域模型向电子病历文本 的 简 单 迁 移尚未真正解决电子病历中高密度的实体分布以及复杂的实体关系对所造成的信息干扰根据上述对电子病历文本特点的分析及最新研究方法 的 比 对 本 文 摒 弃 该 任 务 最 佳 基 线 模 型 的网 络 架 构 提 出 一 种 复 杂 度 更低分类效 果 更 为 显 著 的模型架构其 组件引入多通道自注意力机制以实现对电子病历文本句级别语义特征的深入挖掘与 学 习 层 沿 用 网 络用于对电子病历文本浅层语义特征的捕捉与学习 本文的主要贡献如下一种更为高效的神经网络架构是当前医学文本 领 域 实 体 关 系 抽 取 任 务 的 主流建模方法为进一步建模表征更全面的句级别语义特征缓解电子病历实体关系交错关联等难题并考虑整体网络的 训 练 效 率 本文提出复杂度更低的网 络 架 构 其层指 代 循 环 神 经 网 络 或 其 相 关 变 种 网 络层则由注意力 机 制 具 体 实 现本 文 在 大 量 对比实验中验证了该架构的有效性一 种 更 有 效 的 自 注 意 力 机 制 多 通 道 自 注意力机制区别于传统自注意力机制 该方法通过学习多组权重向量来拟合更为丰富的句级别语义信息从而提升模型对电子病历高密度实体分布以及复杂实体关系的 特 征 学 习 能 力实验比对及注意力权重可视化结果 表 明 多通道注意力机制的引入有助于模型对句级别语义信息的捕捉与编码两 种 基 于 权 重 的 辅 助 训 练 方 法 为 进 一 步强化上述网络架构对电子病历实体关系抽取的建模效果本文针对医学文本固有的类别不均衡所造成的学习偏置问题 在电子病历实体关系抽取任务中提出一种带权学 习 的 交 叉 熵 损 失 函 数 该 方 法 不 仅有助于模型对小 类 别 样 本 的 拟 合同时可加速模型收敛速 率此 外为进一步提升位置信息对结构的训练影 响 本 文 首 次 提 出 一 种 面 向 电子病历文本的基于权重的位置嵌入方法 在 充 分 利用文本字符位置 信 息 的 同 时放大目标实体附近文本的重要性并削减远距离文本对模型训练的影响相关工作实体关系抽取的相关研究成果经历了从统计学习方法到深度学 习 模 型 的 演 进在早期的相关研究成果中以特征工程为核心的机器学习模型成为实施该任务的主流 方 法 其 中以构建有效核函数为建模思路的支持向量机模型是较为通用的方法之一 此类方法所使用的基模型虽然有较为完备的理论支撑但却依赖大量人工干预 如通过繁琐的特征工程来筛选最为有效的特征集供模型学习 此外为支持向量机设计有效的核函数同样是一项耗时费力的工程以神经网络为支撑的深度学习方法为通识领域关系抽取任务提供了一种新的解决思路 无 需 进 行大量的特征构造 与 筛 选 甚至仅依赖原始文本便可达到与机器学 习 方 法 同 样 的 效 果 其 中 最 为 典型的代表为循环神经网络 及卷积 神 经 网络 的系列架 构 这 些 方 法 仅 使 用 基 础 神经网络模型将关系抽取任务转化为分类问题进行建模 的使用有助于对文本序列前后依赖信息的学习但缺 少 对 句 法 及 语 义 层 面 的 特 征 挖 掘加 入框架的建模方法旨在关注文本序列的局部特征但同时损失了对全局信息的把控为了同时考虑上述单一 模 型 存 在 的 缺 陷 将 二 者 进 行 结合使用双向循环神经网络捕捉文本序列前后信息进而引 入 卷积操作进一步捕捉文本局部特征 尽管 能够同时考虑双向文本信息以及局部特征但其仍受限于单一模型的性能而缺乏对文本语义层 面 的 深 度 挖 掘 等 抛 弃 结构采用双向循环神经网络与注意力机制相结合的建模方法来进一步对句级别特征进行学习与编码近 年 来以深度学习方法为支撑的相关理论同样为电子病历实体关系抽取问题提供了更有效的解决思 路 等 以 为 基 模 型 对 该 问 题 进 行 建模 并 在 电 子 病 历 文 本 上 进 行 尝 试 作 者 认 为所提取的局部特征有助于表达高密度的实体分布特性但模型对大量相距较远的实体对将缺乏判断力度 等 将 与 最 大 池 化 层计 算 机 学 报 年结合作为核心网络架构并针对电子病历实体关系分布不均衡 的 特 点 推导出基于类别约束矩阵的惩罚 项与 损 失 函 数 一 并 对 模 型 进 行 学 习 和 训练 该方法仍可视为卷积神经网络的简单应用并仅在 数据集中进行验证 因此其模型的普适性 还 有 待 探 讨 是 循 环 神 经 网 络 在 该 任 务上的成功应用之一 作者 使 用 双 向 循 环 神 经 网 络对文本信息进行特征抽取与建模然 后 分别通过最大池化层与注意力机制对隐层输出做进一步编码进而 通 过 向 量 拼 接 的 方 式 传 入 层进行模型学习与 分 类 虽然该方法率先引入双向循环网络对该任务进行 建 模 但 受 限 于 对 文本信息重要性的 区 分 能 力 该模型依旧无法适用于风格差异性明显的电子病历中 此后大量研究人员采用并验证 了 结 构 在 电 子 病 历关系抽取任务中 的 有 效 性 该网络构建方法也同时成为主 流 基 准 模 型 例 如 将 与相结合以兼顾文本局部 及 全 局 信 息 作 者 分 别 于层 及 层之后施加池化层来对冗余信息进行过滤从而更专注于对文本短语特征的学习此外文中同样对注意力机制进行了验证 即 将后 的 最 大 池 化 层 替 换 为 注 意 力 层 然 而受 限 于梯度消 失 等 缺 陷 对较长文本仍旧无法很好地进行依赖信息的学习图 含 有 通 道 的 网 络 结 构事实 上 随 着 以 注 意 力 机 制 为 核 心 思 想 的结构的提出与完善 一 定 程 度 上 兼 顾 了长文本信息的学 习 能 力 同时提升了模型整体的训练效率 然 而对 于 电 子 病 历 这 样 的 领 域 专 有 文本传统的自注意力机制依旧在句级别语义信息的捕捉上存在缺陷 因此本文针对电子病历文本的差异性及特点同时考虑模型整体的训练复杂度引入多通道自注 意 力 机 制 提 出 一 种的网 络 架 构 用于提升实体关系抽取在电子病历文本上的性能表现模型介绍本 节 介 绍 架 构 的 网络层组 织 结 构 并 着 重 描 述 以 多 通 道 注 意 力 机 制及 网 络 为 核 心 的模型结构及其工作原理图 详细展示了该模型整体结构及内部数据变换的流程 其中灰色实心框为已有技术的引用波点填充框为本文所提出内容的具体实现共包含以下 个核心组件输入层 原始 电 子 病 历 文 本 按空格切分作为输入多 嵌 入 层 包 含传统 词 嵌 入 层 与 本 文 所 提 出 的基于权重 的 位 置 嵌 入 层词嵌入层的输入为预训练词向量 位 置 嵌 入层的参数矩阵通过随机初始化参与模型训练 两 种嵌入层的输出向量进行拼接作为原始文本低层特征的向量表示底层特征抽取 器期 宁 尚 明 等 基于多通道自注意力机制的电子病历实体关系抽取作 为 本 文 模 型 层 的具体实现作用于多嵌入层的输出 以捕捉文本序列的长短依赖特征高层特征 抽 取 器引入 多 通 道 自 注 意 力 机 制 作 为中 组 件 的 具 体 实 现 作 用 于网络之后通过拟合多组权重向量 来捕捉句级别高层特征实验验证及注意力权重可视化结果表明多通道自注意力机 制 在 兼 顾 时 态短语等简单句法特征基础上能够进一步提升文本各 成分间重要性的区分度从而有助于电子病历中复杂交错关系的分类与抽取带权学习的损失函数推导并制定出一套 有 效 的 类 别 权 重 计 算方法各类别权重作为参数向量与交叉熵损失函数共同参与训练类别权重信息的引入 可摒弃人工采样所引入的随机 误 差 保证原生医学实体关系的固有分布实验结果表明该方法在改善医学实体关系类别分布不均衡 问 题 的 同 时加速了训练阶段模型整体的收敛速率层及 其 相 关变种常被用于对 序 列 数 据 的 建 模由于文本数据可看作是具有前后 依 赖 关 系 的 序 列 数 据 因 此 同 样 适用于 在 本 文 所 提 出 的 结 构中使用双 向 循 环 神 经 网 络 作 为 底 层 特征抽取 器对 层的输出做粗粒度的特征抽取与编码特殊 的 门 控 结 构 使 其 具 有 长 短 距 离 信息记忆的功能其核心组件包含输入门 遗忘门以及输出门 这 些 门 控 单 元 与 记 忆 细 胞相 互 配 合 共 同 决 定 对 隐 藏 层 信 息 的 更 新或是丢弃 是 的 变 体 之 一 其 特点在于双层双向的前向计算与反向传播式 即为在 时 刻 的 输 出 其 中 使 用 对 应 位 置求和的方式对双向隐层向量进行融合层 多通道自注意力机制以自注意力机制为核心的神经网络架构近年来逐渐成为自然语 言 处 理 领 域 的 研 究 热 点 传 统 自 注意力机制通过学习一组权重向量来表达句中各字符的重要性以此来捕捉句中的不同 成份以及句法特征然而该方法仅能对句中的简单短语时态等明显成份进行学习依旧缺乏对句级别语义特征的捕捉能力对于实体 分 布 密 集 实 体 间 关 系 交 错 出 现 的 电子病历文本需更多关注句中不同语义成份间的信息挖掘因此本节引入多通道自注意力机制对句级别多语义信息进行表征通道是指对句子施加一次注意力机制并输出一维注意力权重向量 因 此多 通 道是 指 将同时对目标句进行多次注意力操作并 产 生 多 组 权重向量因此区 别 于 传 统 自 注 意 力 机 制 将输出一个 维权重矩阵用于表征句子的不同成分基于该注意力权 重 计 算 方 法模型将学习并对句级别高层语义特征 进 行 表 征 有助于模型整体训练过程中对参数空间 的 快 速 搜 索对于高密度实体分布以及实体关系交叉关联的文本特点上 述 方 法 所 得到的句级别嵌入表征能够在增强语义特征表达的基础上削弱冗余信 息 的 重 要 性 因 此针 对 电 子 病 历专有的文本特点 本文首次引入多通道注意力机制作为 层的具体实现以提升实体关系抽取在电子病历中的建模效果多通道注意力机制的工作流程及原理如下将学习到的长短距离依赖信息进行拼接并输出 隐 藏 层 向 量 若设置单层 隐层神经 元 个 数 为 则 维 度 为的输出 将 作 为 多 通 道 自 注 意 力的输入对于传统自注意力机制 其注意力权 重 可由式 与 计 算 得 到 其 中 和 分 别 是 维 度为 和 的 可 学 习 参 数 矩 阵 在 模 型 实 现 过程中可视为感知机参数 由用户设定根据上述传统自注意力机制的实施原理引 入 多 通 道 概 念 用于扩展模型对句中各成份信息的学习能力 给定通道数 将 在 各 通道 中分别进行一次自注意力权重计算 可 看 做 是目标句子中第 种成份的重要 性 因 此若 句 中 关 键信息较少则通道数的增加会导致模型在训练过程中的冗余信息过多 从而影响下游任务的效果 本文也在实验章节验证了通道数对电子病历关系抽取的影响同时也通过权重可视化的方式直观感受多通道注意力机制对句中关键信息的捕捉能力 该 过 程可形式化为式 其中 指 代 通 道 中 的 一 组 可学习权重矩 阵 通 道 数 作为关键超参数 需 根 据实际业务场景进行相应调整计 算 机 学 报 年各通道自注 意 力 的 计 算 相 互 独 立可 通 过 矩 阵运算实现多通道并行化 若 给 定 通 道 数式 中的参数 可扩展为 维规模的 维矩阵因此可将 替换 为 并 得 到 多 通 道 自 注 意 力权重的计算方式 如式 所示传 统 多 头 自 注 意 力 机 制通过在 个 相 同 的 层 级 结 构 中 随 机 初 始 化 权重矩阵来进行多 头 学 习 从而一定程度上避免大量冗余信息被模型学习 在本文工作中 通过 加入约束项 来使得各通道的学习过程具有较好的区分度其中 代表矩阵的 范 数这 样的计算方式可确保相同维度数字差异性越小 则 惩罚力度越大反之则对损失函数的惩罚力度变小该惩罚项将作为损失函数的一部分对模型一同进行训练 因此每增加一个 通 道 将 会 对 句 中 某一成分 进行 权 重 拟 合 即 可 看 作 各 通 道 的 学 习 结果分别代表句中 的 不 同 成 份本 文 节 的 权 重 热力图展示了多通道自注意力机制对句中各成分的学习与区别能 力对 比 的 多 层 串行结构带有约束项的多通道自注意力机制在过滤冗余信息的基础 上 极大简化了注意力层的网络结构一定程度上提升模型的训练效率在 模 型 的 具 体 实 现 过 程 中 本 文 使 用 两 层感知机 来计算式 的 权 重 矩 阵 最后通过式 与 将 与 相乘再进 行 规 范 化 得到自注意力 层 的 输 出 即句级别语义特征的向量表征基于权重的辅助训练提升方法本 节 以 为 基 础 网 络架构使用 与多通 道 注 意 力 机 制 相 结 合 的具体实现作为本文电子病历关系抽取任务的解决方案在此基础上为进一步考虑电子病历文本的差异与特征并 全 面 提 升 架 构在电子病历文本 中 的 学 习 能 力提出两种基于权重的辅助训练提升 方 法 带权学习的损失函数以及基于权重的位置嵌入计算方法带权学习的损失函数分类器常被用作对 隐 藏 层 向 量 的 概 率映射在本文模型中同样沿用 层 来 判 别 句中目标 实 体 与 之 间 的 关 系 输 出作为分类器的输 入 由 式 与 进 行 类 别 概率的计算与 判 别 其 中 是 分 类 器 的 参数矩阵 为偏置参数矩阵分类器常被用作对 隐 藏 层 向 量 的 概 率映射在本文模型中同样沿用 层 来 判 别 句中目标 实 体 与 之 间 的 关 系 输 出作为分类器的输 入 由 式 与 进 行 类 别 概率的计算与 判 别 其 中 是 分 类 器 的 参数矩阵 为偏置参数矩阵通识领域中实体关系抽取任务可通过引入抽样算法来缓解类别不均衡所导致的训练偏置问题 然而在医疗领域数据固有的正确分布往往是失衡的例如常见病的发病率高于罕见病已是不争的事实无论是科室规模 或 是 病 案 数 量都造成电子病历数据分布不均衡的情形 因此在该领域数据中利用采样算法来平衡数据分布是违背自然规律的做法 在其上训练得到的模型不具备很好的鲁棒性 基 于 上述分析本节首次在该任务中提出基于类别权重的损失函数以缓解类别分布不均衡问题分类器所采用的常 见 损 失 函 数 为 交 叉熵其中 代表当前样本所属类别的 编 码是类别总 数 表 示 层 将 隐 层 向 量 映 射 为各类别的概率值式 中最后一项代表 正则项交叉熵损失函数的目的是为了计算训练样本当前的总体损失从而推动模型做进一步参数更新 本节提出 通 过 在 损 失 函 数 中 引 入 类 别 权 重来调整各 类 别 对 总 体 损 失 的 贡 献比例从而平衡小类别样本在训练过程中的重要性其类别权重的设计思路依赖各类别样本原始分布的状况若类别 对应的样本 数 小 于 全 体 类 别 样 本数均值则考虑为其赋予大于 的权重进而在训练过程中使小类别样本误判惩罚得到放大 反 之 则 赋予 小于 的权值其类别权重 的具体计算方式如式 所示首先定义样本总数为 其中期 宁 尚 明 等 基于多通道自注意力机制的电子病历实体关系抽取代表训练集中第 类样本总 数并按升序排序得到有序 数 组 则 代 表 中 下 标 为 所对应的值对 求 均 值 得 到 将 其 直 接 代入式 方可 得 到 各 类 别 的 相 应 权 重 最 后更新式 中的为 并加入惩罚项 则得到式 即为本节所提出的带权学习的损失函数基于权重的位置嵌入层词嵌入方法是自然语言处理常用的字词表征手段而位 置 嵌 入 方 法 的 优 势 和效果 已 在 架 构 的 相 关 研 究 中 被 证实 因此本 文 模 型 的 多 嵌 入 层 由 传 统 的 词 嵌 入以及本节提出的基于权重的位置嵌入层所构成 其中带有权重信息的位置嵌入层将进一步强化实体附近字符的重要性 并削弱远距离字符的影响原 始 电 子 病 历 文 本 可 看 作 由 不 同 句 子 构 成 句中 的每个字符 可通过嵌入表被映射为一组唯一的离散数 值 向 量 其 中 和 分 别 代 表 词 表规模以及用户指定的词向量维度那么 便 可 由 式计算得到其 中 是 大 小 为 的 向量对于位置嵌入首先直接算得各字符与目标实体之间的相对距离 其中代表句 中 字符的 相 对 位 置 代 表 第 个 实 体 作 为 一 项 超参数代表用户所 指 定 的 相 对 距 离 的 上 限 对 句 中 所有字符进行相对距离计算后可得到两组位置向量分别代表各 字 符 到 句 中 两 个 目 标 实 体 的 相 对距离 所 构 成 的 向 量 类 似 于 每 一个相对距离 或 可通 过 式 被 映 射 为 唯 一的离散值向量其中 指代位置嵌入表代表用户指定的位置向量维 度 类 似 的 是 大小为 的 向量本节在传统 位 置 嵌 入 方 法 的 基 础 上 提 出 基 于权重的位置 嵌 入 即 为 各 字 符 所 对 应 的 赋 予 相应的权重 因 此式 可 更 新 为 式该权重的引入将 对 位 置 信 息 起 到 放 缩 作 用 针 对 实体密度较大的电 子 病 历 文 本 来 说该权重信息的引入一定程度上剔除了相对距离较远字符带来的冗余信息同时提升了实体附近字符的重要性最终多嵌入层将词嵌入与权重位置嵌入层的向量进行拼接作为最终输出 即式 所示实验结果与分析本节将分别对 三 处 主 要 贡 献多通道自注意力机制带权学习的损失函数以及基于权重的位置嵌入进行验证与比 对 分 析 实 验 结 果 表 明 本 文 所 提出的模型在电子病历公开数据集上的验证效果超越了已有基线模型数据集与实验设置分别选 用 关 系 语 料 库 与数据集进行模型验证 前者是公认的电子病历实体关系评测数据集之一 表详细描述了其关系类别含义及相关统计信息后者 数 据 集 包 含 以 及 数 据库表 展示了 中所包 含 实 体 关 系 的 含 义 及 相关统计信息表 语料集相关信息关 系 定 义 训 练 集 测 试 集治疗改善医疗问题治疗恶化医疗问题治疗导致医疗问题针对医疗问题进行治疗因医疗问题而不进行治疗检验显示医疗问题进行检验以查证医疗问题医疗问题表明医疗问题无 关 系总 和表 数据集相关信息关 系 定 义 训 练 集 测 试 集药物代谢动力学机制药效的相互作用同时用两种药的相关意见无任何信息的药物交互无 关 系总 和该数据集源于 三 所 医 院 的 出 院小结 其 中 共 包 含 八 种 实 体关系治疗引 起 的 医 疗 问 题 治 疗 手 段 管 控医疗问题 治疗恶化医疗问题 治疗改善治愈 医 疗 问 题 由 于 医 疗 问 题 而 未计 算 机 学 报 年给予治疗 检验 表 明 医 疗 问 题 为查证医疗问 题 而 进 行 检 验 以 及 医 疗 问 题 表明医疗问题 由于可供 下 载 的 部 分 仅 包 含份训练集以及 份 测 试 集 因此预处理阶段将其进行融合后按照 的比例进行训练集与测试集的重新划分对于同时包含多组实体关系的句子为不同实体对构造该句作为新样本进行扩充 并 将句中目标实体替换为相应实体类型 例 如实 体 替 换 后 变 为_ _ 对他施与呋喃苯胺酸以防止患充血性心力衰竭该 语 料 库 包 含生物 医 学 文 献 的 摘 要 部 分 以 及中由医师撰写的所有文档 共标注四种实体关系 建议 指同时用两种药的建议 影响指药效的相互作用 机 制 指 药 物 代 谢动力 学 机 制 以 及 无 任 何 信 息 的 药 物 交 互 原始数 据 集 中 包 含 份 训 练 集 以 及 份 测 试 集类似于 处理方法预处理阶段将同时包含多组关系的句子按照实体对进行样本扩充 句 中 的 目 标实体对按照前后顺序依次替换为 _ 与_其 余 非 目 标 实 体 均 替 换 为 _ 这样的预处理 技 巧 已 在 相 关 研 究 中 得 到 证 实此外早期研 究 证明负样本的筛选有助于还原数据集实 体 的 正 确 分 布因此本文沿用相同的负样本过滤方 法 对于包含相同名称的目标实体对予以删除相应样本 如果实体对间属于别名关系则删除该样本若两目标实体在句中处于并列关系则删除所属样本 表 所示的统计结果即为负样本过滤后的最终样本数参数设置训练集上进行 折交叉验证同时使用网格搜索 为 两 组 数 据 集 确 定 最 佳 模型 参 数其 中 核 心 参 数 最 优 值 参 见 表 实 验 中 在开源 数 据 集 上 使 用 预 训 练 词向量作为词嵌入层的输入参与模型训练基 线 模 型 选 用 种 类 型 共 个 模 型 作 为 基 准来比对本文所提出模型的优越性其 中 包 含 现 有研 究 中 最 佳 性 能 模 型 基 准 模 型 详 细 信 息如 下表 关 键 参 数数 据 集 词 嵌 入 维 度 位 置 嵌 入 维 度 通 道 数 层 层 数 目 学 习 率 优 化 算 法机器 学 习 模 型 选 用 基 于 特 征 工 程 的模型 作为该类别方法的 代 表 其 人 工 特 征 包 括 句中各词与实体间的相对距离词 性 以 及 实 体标注 该 模 型 具 体 实 现 时 选 用库 中的 分类器深 度 学 习 模 型 分 别 选 用以及 架构 的进行实验比对其模型参数均使用文献中所提到的最优值进行设置 三种基线模型隶属基础神经网络的简单 应 用 用 于 比 对 本 文 所 提 出 的结 构 的 优 越 性 其 中 在现有研究中表现出最佳性能注 意 力 机 制 与是注意力机制在该任务上的成功应用 二 者均将传统自注意力机制作为高层特征抽取器 对 底层 或 的 隐 层 输 出 做 进 一 步 特 征 抽 取 与编码该类模型用于比对本文所提出的多通道自注意力机制的特征抽取能力实验环境实 验 基 于 操 作 系 统 搭 载核 处理器与运 行时内存核心计算力源于 块显卡单显 卡 可 用 显 存 为模型 编 码 基 于 采 用 深 度 学 习框架构建模型模型整体性能对比基线模型与本文所提出模型在两项数据集中的整体性能比 对 结 果 如 表 所 示其 中 表 示含有 通道的注意 力 机 制 两项数据集所对应的最佳通道数 参考表 表示引入基于权重的位置嵌入层 指 代 带 权 学 习 的 损 失 函 数 表 中的 为 本 文 所 使 用 的 完整模型其余包 含 或 标 识 的 模型将作为本节细 粒 度 实 验 比 对用于分别验证三项主要贡献点的有效性期 宁 尚 明 等 基于多通道自注意力机制的电子病历实体关系抽取表 模 型 性 能 比 对类 型 模 型机 器 学 习基 础 神 经网 络 模 型本 文 模 型及 其 变 种表 通道数对模型性能的影响模 型 通 道 数在 网 络 架 构 优 越 性 方 面 基 于架 构 的模型在 两 项 数 据 集 中 的 值 均 超 越架 构 的 最 优 基 线 模 型其最高 实 现 的 性 能 提 升 数 据 集 此外在 保 证 分 类 效 果 的 基 础 上架构表现出较为明显的效率 提 升表 训 练时间 一栏统计了各模型达到最佳分类效果 所 需 的 训 练 时 长可 以 看 出 在 两 数 据 集中本文提出的 模型相 较 于 最 高 实 现与 的效 率 提 升 而 完 整 模 型也 实 现 近 与的提升该实验结果表明 相比于电子病历关系抽取领域主流的 架 构可在保证下游关系抽取性能的基础上进一步提升模型的训练效率 并降低模型整体的复杂度在 模 型 有 效 性 方 面 仅 施 加 多 通 道 自 注 意 力 机制 的 已 逼 近 甚 至 超 越最佳基线 模 型 并且优于同样是结 构 的 模型该结果证 实相 较 于 为 代 表的最 佳 基 线 模 型网络结构具有显著优越性 另一方面本文所引入的多通道自注意力机制在电子病历数据集上的表现优于传统自注意力机制 对于两项基于权重的辅助训练提升方法表 中的以 及分别验证了带权学习损失函数和基于权重的位置嵌入方法在不同网络架构中的有效性以及普适性同 时该 实 验 结 果 可 对 比 发 现 施 加 于中的两种辅助提升方法所带 来 的 性 能 提 升值 最 高 提 升 远 弱 于以 及 值 最 高 提 升特别是带权学习的损失函数 其性能提升差异更 为 明 显最 终完 整 模 型相较 于 基 线 模 型 在 两 数 据 集 中 的值最高实现 的 性 能 优 化 相 较 于 最 佳 基 线模型其 性 能 提 升 近 和 该 对 比 实 验结果表明本文所提出的两种辅助训练提升方法具有一定的普适性 能够辅助提升模型对文本的表征能力从而进一 步 影 响 下 游 关 系 抽 取 任 务 的 效 果此外实验结果指出两种基于权重的辅助训练方法更加适用于基于 架构的模型上述对 比 结 果 表 明计 算 机 学 报 年架构在电子病历数据集中表现出较大的性能提升以及较高的训练效率 对于 前 者其 原 因 在 于 以架构为 基 础 的 多 通 道 自 注 意 力 机 制 能 够 更大限度地捕捉电子病历复杂的实体分布特性以及交错关联的实体关 系 而对于该架构所带来的训练效率提升 的提出者 在 文 献 中 分 析 了及 模型单层网络结构的复杂度其结论为 架构更具轻量级特点由此带来训练效率的大幅提升 对比本文最优基线模型 卷积操作的时间复杂度同时 受 卷 积 核通道数卷积核大小以及输出特征图大小的影响呈现层内连乘层间相加的形式 而多通道自注意力机制由于在各通道 层 面 采 取 矩 阵 并 行 运 算 因 而 其 时间复杂度仅受文本序列长度影响而呈线性关系 同时本文统计各对比模型训练时长 表 直观展示了本文模型在训练效率方面的优越性此外融入两项辅助训 练 提 升 方 法 的 模型一方面通过多通道自注意力机制对电子病历文本特征进行较好 学 习 另一方面结合使用带权学习的损失函数以降 低 参 数 空 间 的 搜 索 范 围 从 而 进 一步实现分类效果的明显提升单项性能比较以 为 基 础 架 构 的及其变 种 模 型 在 整 体 性 能 上 提 升 显著为进一步验证围绕该架构所提出的三处主要贡献点的性能表现本节将对其进行细粒度比对与分析多通道自注意力机制为 了 验 证 多 通 道 自 注 意 力 机 制 的 有 效 性 同 时确定最佳通道数 表 列出了模型随通道数变化的性能表现在两项数据集上 验证结果均呈现随通道数增加 值 先 增 后 减 的 趋 势 这样的变化规律说明通道数的增加有助于模型对句子成分的深度挖掘即能够进一步丰富语义层面的特征使得模型参数空间更容易被 拟 合 然 而由 于 有 限 句 长 通 道 数过多势必会引入 部 分 冗 余 信 息从而干扰模型的正常训练甚至在实验过程中观测到过拟合现象因此会发现模型性能逐渐弱化的现象表 中 与 的 对比结果可以看出 多通道注意力机制的使用在两项数 据 集 中 的 值 分 别 提 升 近 和 证实多通道自注意力机制对于电子病历的文本表征能力优于传 统 自 注 意 力 机 制值 得 注 意 的 是的性能表现优于 同 时 本 文 所 提 出的 在两项数据集上却超越了这一结果表明在文本表征 能 力 方 面 本文所引入的多通道自注意力机制对句级别中局部和全局信息的学习能力优于 同时进一步验证了架构的优越性除上 述 直 观 对 比 外 对 比 表 中以 及 的值可以发 现仅 使 用 带 权 损 失 函 数 的模型其实验效果差于 而 在 施 加 多通道自注意力机制的基础上引入带权损失函数的却 达 到 三 者 中 的 最 优 效 果且相较 于 实 现 最 大 幅 度 的 性 能 提 升这一现象表明多通道自注意力机制对句级别语义信息具有较强的学习和捕捉能力使得模型对电子病历文本有更好 的 表 征 性 能而在此基础上引入带权学习的损失函数可进一步提升模型在训练阶段的拟合能力从而快速收敛至较优参数集基于权重的位置嵌入位置嵌入所 携 带 的 距 离 信 息 是 网络常用的文本特 征 表 示 方 法本文所提出的基于权重的位置嵌入可增强不同距离字符在网络中的特征表 达 能 力 有助于整体模型对具有复杂文本特性的电子病历进行表征与学习表中所展示的 以及是带有权重位置嵌入层的模型在两项数据集上 的 验 证 结 果 表 明 模 型 性 能 相 较 于以及使用传统自注意力机制的模型均有轻微提升 该对比结果表明 一方面基于权重的位置嵌入方法在各架构中具有一定的普适性而另一方面说明 针对实体高密度分布 且相同实体交错参与构成不同关系对的电子病历文本 含 有 权重的位置嵌入法能够进一步放大位置信息的重要性即降低无用句成分信息的权重提高关键特征的重要性以此扩大句成分间重要性的差异度 从而提升模型对文本的表征能力 此外基于权重的位置嵌入法之所以仅表现出微弱的提升其原因在于较短的有限句 长 最 大 句 长 为 而 为使得位置信息间较小的区分度不足以为模型训练贡献更多的有效特征带权学习的损失函数多通道 自 注 意 力 机 制 单 项 实 验 中通 过 对 比以及三项模型证实 了 句 级 别 表 征 能 力 更 强 的 多 通道自注意力机制有助于带权损失函数发挥其更大功效因此本文将带权损失函数作为模型的辅助训练期 宁 尚 明 等 基于多通道自注意力机制的电子病历实体关系抽取提升方法进一步分析其在不同网 络架构中的普适性以及细粒度分类性能的有效性带权学习的损失函数在单项比对中带来较为明显的性能提升对于 架构相 比 于 在两项数据 集 中 值 分 别 提 升 近 和 并在 项评价指标上超越 基 线 最 优 模 型此外在 架构中引入该辅助训练方 法 的 模 型 相 较 于同样实现了较为可 观 的 性 能 提 升 该对比结果表明带权学习的损失函数具有一定的普适性且在不同架构中均具有辅助训练的提升作用特 别 是 与 本 文 的 架 构 网 络 相 结 合 的 多通道自注意力机制 其提升效果更为显著为了进一步观测引入带权学习损失函数的架构对类别不均衡数据的拟合能力表 详细展示了单类别细粒度性能表现结合表 与 表 对 两 项 数 据 集 类 别 分 布 的 统 计 情况可以 直 观 发 现 对 于 小 类别样本的分类能力相较于基线模型有显著提升 例如 以 及 其 中 在类上实 现 的 最 大 提 升 对 于 多 数 类 样 本模型同样实现较为可观的性能提升在中等 规 模 类 别 上的验证结果弱于基线模型 其 原 因 在 于 该 类 关 系 所 包含的两项实体为同类 相较于其他类型样本 多通道自注意力机制将因此代入较多冗余信息 从 而 影 响模型在该类别的 拟 合 能 力 此 外实 验 过 程 中 发 现类的 指标随训练轮数的增加先升后降同样验证了因冗余信息而导致的模型过拟合现象表 细粒度类别性能对比关 系损失函数的优劣直接影响模型对参数空间的拟合效果无论是粗粒度的整体比对还是细粒度的类别对比都证实引入带权学习的损失函数提升了模型对参数空间的 拟 合 能 力 此 外实验过程中发现类别权重的损失函数在保证模型性能的同时 加 速了训练过程的收敛 速 率 图 展示了类别权重对模型收敛速度的影 响 情 况 该实验基础参数设置基于表 所示的最佳 参 数 仅修改损失函数类型进行对比实验两数据集上分别进行 次实验每 轮记录一次当前 测 试 集 的 值并通过设定早停机制来中断训练对 次结果中 每 轮 取均值作为该轮真 实 值从 图 中 可 以 看 出数据集上带权损 失 函 数 在 到 轮 之 间 便 可 达到最优而使用普通交叉熵损失函数时则 需 轮左右模型到达收敛 数 据 集 上 表 现 出 同 样 的 规律这一验证结果表明 本文所提出的基于类别权重的交叉熵损失函数在带来模型性能提升的同时 加速了模型收敛速 率 其原因在于各类别对总体损失的贡献得到平衡 因此一定程度上缩小了模型的参数搜索空间从而提升模型的收敛速率图 带权损失函数对模型收敛速率的影响注意力效果案例分析图 所示的热力图展示了多通道注意力机制对句级别特征的学习效果该 案 例 来 源 于 语 料集实体间关系为 预处理时将目标实 体 替 换为 相 应 实 体 类 型 如 图 中 的 _以 及计 算 机 学 报 年_图 图 分别展 示 了 通 道数对句级别语义 特 征 的 学 习 效 果颜色越深表示该字符具有较高的 注 意 力 权 重反之代表较低的重要性通道数为 可认为与传统自注意力机制等价相比于 通道的注 意 力 效 果 传统自注意力机制误将给予较高权重并 且 未 能 较 好 地 对 该 例关系判别起重 要 作 用 的 和 赋 予 更高的注意力权重 该对比结果证实了多通道自注意力机制能够更好地捕捉句中的关键语法成分 热 力图中可直观看到 各句子成分被赋予差别更大的重要度进一步提升有用句成分信息对文本表征的能力从而保证模型在电子病历关系抽取中的性能 随着通道数的增加 字符间重要性的区分度有所下降结合表 的比对结果可知通道数过高会导致冗余信息的引入从而使得模型出现过拟合现象 总之该例的注意力权重可视化结果表明句级别语义特征能够在多通道注意力 机 制 的 作 用 下 得 到 更 好 的 捕 捉 和 表达如案例中的 以及连接词图 多通道注意力权重热力图结 论本 文 提 出 并 验 证 了网络架构在电子病历实体关系抽取任务中的有效性首次引入多通道自 注 意 力 机 制 作 为层并围绕上述架构提出两种基于权重的辅助训练提升方法以提升模型对电子病历 专属文本特点的表征与学习能力 模型整体主要包含三层核心网络结构 多通道自注意力层通过拟合多组权重向量来表达句子各 成 分 间 重 要 性以此捕捉句级别语义信息采用矩阵操作实现多通道注意力的并行计算以代入惩罚项的方式来尽可能避免对冗余信息的过多学习单项对比验证及注意力权重可视化结果表明相比于传统自注意力机制 多通道注意力机制能够有效捕捉 实 体 密 度 高实体间关系复杂等文本特征 针对 医 疗 领 域 数 据 分 布 的 独 特 性首 次在该任务提出类别权重计算方法并与损失函数同时参与训练以此实现对数据真实分布的拟合同时保证模型在各类别 中 的 学 习 能 力该损失函数显著提升模型对小类别 样 本 的 拟 合 能 力同时加速模型的收敛速率 位置嵌入与注意力机制的搭配使用已在各领域得到 证 实 针对电子病历高密度的实体分布特性本文为字符间相对位置赋予权重以此得到的位置嵌入层与传统词嵌入层进行向量拼接 作为文本信息的初 级 表 征 该嵌入层计算方法实现了对位置信息的有 效 放 缩 提升了距离特征在模型训练过程中的区分度经 过 粗 细 粒 度 的 实 验 验 证 与 比 对 本 文 所 提 出的模型及其相关 变 种 在 及数据集中均表现出较好的优越性 其 中在三项评价指标上均取得最佳 效 果 相 较 于 最 优 基 线 模 型指标分别表现出 和 的 明 显 提 升其中在单项比对中多通道注意力机制的使用和基于类别权重的损失函数带来最为明显的性能提升该实验效果表明 本文所提出的方法能够实现对电子病历文本特殊 性 的 掌 控 无论是句级别语义特征的挖掘还是数据集真实分布的拟合都实现较好的匹配与 迎 合此 外仅 使 用 与 多 通 道 注 意 力机制相结合 的 模 型 在 性 能 表 现 上超越 这一验证结果表明 模型复杂 度 更低 的 结 构 在 该 任 务 中 同样能够实现较好 的 性 能 本文探索的方法正是为进一步提升模型对文本特征的表征能力 从 而 提 升 实体关系抽取在电子病历上的性能这一切入点也是当下的主流思路之一 在未来工作中我们将进一步探索本文方法的 横 向 扩 展 性 能并探索高密度实体期 宁 尚 明 等 基于多通道自注意力机制的电子病历实体关系抽取分布及实体关系复杂多变领域文本的通用解决方案此外相比于 通 识 领 域 电子病历文本仍存在很多独特差异性如中医的文言式句法 因此电子病历文本特征的表达能力仍是有较大的研究与提升空间这也是我们将在未来亟待研究和解决的问题之一参 考 文 献杨 锦 锋关 毅何 彬 等中文电子病历命名实体和实体关系语 料 库 构 建 软 件 学 报杨 锦 锋 于 秋 滨 关 毅 等 电子病历命名实体识别和实体关系抽取研究综述 自 动 化 学 报计 算 机 学 报 年期 宁 尚 明 等 基于多通道自注意力机制的电子病历实体关系抽取 |
[返回] |