基于语境交互感知和模式筛选的隐式篇章关系识别 |
来源:一起赢论文网 日期:2020-10-01 浏览数:1526 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第 卷 第 期年 月计 算 机 学 报收 稿 日 期 在 线 出 版 日 期 本 课 题 得 到 国 家 自 然 科 学 基 金 天津市自然科学基金国家重点研发计划项目 天津市科技项目 资 助郭 凤 羽博 士 研 究 生 中国计算机学会 学 生会 员主要研究方向为自然语言处理篇 章 关 系 识 别 贺 瑞 芳通 信 作 者 博 士教 授中国计算机学会会 员主要研究领域为自然语言处理社会媒体挖掘及机器学习 党 建 武博 士教 授博 士 生 导 师 中 国计 算 机 学 会 会 员主要研究领域为语音识别 语 音 对 话言语认知脑机理 言 语 理 解基于语境交互感知和模式筛选的隐式篇章关系识别郭凤羽 贺瑞芳 党建武天津大学智能与计算学部 天 津天津市认知计算与应用重点实验室 天 津日本北陆先端科学技术大学院大学 石 川 县 日 本摘 要 隐式篇章关系识别是篇章分析 中一项具有挑战性的子任务旨在推断出同一篇章内相 邻 文 本 片 段 称 为 论 元之间潜在的语义连接关系例 如时 序 关 系 因 果 关 系 等 如何有效地表征篇章论元以及挖掘论元间的交互信息是实现该任务的核心要素 传统研究注重篇章中人工总结的表层语言特征 即 情 感 词 极 性位置特征和动词类型等 存在数据稀疏和预处理错误级联的问题 导致机器学习模型性能不高新近的深度神经网络模型则自动提取篇章论元中的特征 利用注意力或记忆机制等捕获论元的重要信息并组合不同神经网络提取大 量 关 系 特 征 以提升模型识别性能 然 而其忽略了表示过程中论元间双向非对称的交互信息 以 及 识 别 过 程中论元间交互模式的稀疏特性受认知学相关理论的启发本文提出基于语境交互感知和模式筛选的隐式篇章关系 识 别 方 法 首 先通过双向长短期记忆网络 分 别 编码两 个 论 元以获取带有上下文语境信息的论元表示 其次建模其动态交互注意力机制以自动学习论元之间的非对称 关 联 矩 阵 进而得到融合语境交互感知信息的论元表示 最 后利用带有稀疏约束的张量神经网络捕捉具有篇章关系指示性的深层交互模式从 而 提 升 模 型 的 识 别 性 能 语料库上的实验结果表 明本文提出方法的精确率在其四分类上改善了关 键 词 隐式篇章关系识别 双向长短期记忆网络 交互注意力机制 稀 疏 约 束张 量 神 经 网 络中 图 法 分 类 号 号引 言篇章关系识 别 是 篇 章 分 析 的 核 心 任 务 之 一旨在自动判别同一篇章内部两个相邻或跨度在一定范围内的文本片段之间的语义连接关系例如时序关系扩展关系等这里文本片段指具有完整语义的文字序列包括有 子 句句 子 或 句 群 等 该 任 务 在 自然语言处理的其它研究中有广泛的应用例如篇章连接词能有效地改善统计机器翻译 的 性 能对 话系 统 整 合 篇 章 信 息 以 生 成 具 有 逻 辑 关 系 的 回 复抽取式摘要 可利用篇章关系选取文章中具有重要意义的句子作为候选句子等参 照 命 题 库 中 的 谓 词论 元结构宾 州 篇 章 树 库将 篇 章 中 含 有 语 义 关系的 文 本 片 段 标 记 为 连 接 词论 元结 构 具 体 地由 连 接 词 连 接 的 两 个文本片段称为论 元 连接词所引导的其中一个论元记作 另一个为 作 为 整 体 论计 算 机 学 报 年在宾州树库 的基础上对其动词 的 配 价 关 系进行标注建立了命题树库元对根据论元之间是否存在显式连接词篇章关系可以分为显式和隐式篇章关系 其中隐式篇 章 关系则缺乏直观明确的连接线索 需 要 从 论 元 对 中抽取句法语义等相关特征进行间接地分析推断由于篇章论元本身 结 构 的 复 杂 性语义的歧义性以及上下文信息的不 确 定 性 等 问 题使得隐式篇章关系识别难度 加 大 成为篇章分析领域的研究瓶颈 因此本文专注于隐式篇章关系的识别传统特征工 程 和 机 器 学 习 的 方 法 大 多 侧 重于人工标注的语言学特征及总结的规则如从论元对中提取 词 性 信 息 布 朗 聚 类 词 对和依存句法特 征 等 然 而这 些 特 征 过 于 依 赖人工总结耗时 耗 力且受限于有限的语言学资源容易引发一系列问题 数 据 稀 疏如 利 用 词 袋 模型 表示篇章论元当不同的词汇作为完全不同的特征 时 由于不常见的词汇在训练数据中出现次数较少 在词表 中 呈 现 稀 疏 化 预 处 理错误级联如预处理中生成了错误的依存句法树则该特征错误会在 后 续 识 别 过 程 中 存 在 从 而 导 致 训练不充分影响篇章关系识别性能近 年 来深 度 神 经 网 络 被 成 功 应 用 于 隐 式 篇 章关系识别任务中 使其识别性能取得了有效的提升主要包括 基 础 的 神 经 网 络 如卷积神经网络循 环 神 经网络 等将 篇 章论元映射成低维 的 稠 密 向 量从而计算并识别论元之间的语义关 系 但这些方法大多单独建模每个论元仅挖掘各论元的自身特征 忽略了两者在表示学习过程中的关联线 索 利 用 注 意 力 记 忆 或门控机制捕捉 论 元 的 重 要 信 息 以 辅 助 篇 章 语义理解该类方法虽比基础模型获得了更多关键线索 但仍未考虑到论元在表示过程中的交互关联特征 基 于 复 杂 混 合 神 经 网 络 的 模 型 则是利用不同双线性模型 单层网络 或 其 它 门 控 相 关 网 络等方法以挖掘论元之间的深层交互特征 另 外部分模型采用 网络框架 构建论元之间的交互关联性然而此类方法未能有效抽取篇章关系的特定模式此外认知学相关理论表明 根据不同的阅读目标人们会选取不同的阅读策略 进而抽取不同的线索信息 这 里在判断两个文本片段的语义关系时人 们 一 般 会 对 其 进 行 前 后 多 次 查 看 在 提 高 其阅 读 流 畅 度 的 同 时 找 出 相 关 的 线 索 以 加 深 文 本理 解从 而 确 定 篇 章 关 系具 体 如 例 所 示一 般地将 以 斜 体 表 示 以 粗 体 表 示 如 果仅通 过 单 次 阅 读 关 注 具 有 对 比 情 感 极 性 的 词 对该论元对可能被错误地识别为比较 关 系 而 通 过 前 后 多 次 反 复 阅读查找整体论元信息 能够推断其正确的偶然关系同 时 发 现 该过程中论元之间的交互是非对称的即 和 两 个 方向所关注的信息是不同的例源 于 此 阅 读 策 略 的 启 发 我 们 提 出 一 种 新 颖 的隐式 篇 章 关 系 识 别 模 型具体来 讲我们侧重在表示阶段建模论元之间非对 称 的 交 互 关 联设计交互注意力机制以得到具有交互特性的论元表示针 对 识 别 过 程中交互 模 式 的 有 效 筛 选我 们 采 用 张 量 神 经 网 络抽取论元之间丰富的语义关联特 征 并加入稀疏约束以过滤冗余或噪声信息从而获取特定的篇章关系模式以辅助任务识别本文主要贡献如下从人们双向阅读策略的认知角度建模篇章论元从交互模式的稀疏性角度挖掘关系特征 将两者融入一个新颖的隐式篇章关系识别框架中利 用 进 行 篇 章 论 元 编 码 建 模 动态交互注意力机 制 自动计算论元之间的双向注意力向量得到具有非对称语境交互感知的论元表示采用张量神经网络在更高维度上捕获丰富的关系特征并在训练过程中加入稀疏约束 从而筛选出更具有指示性的交互模式 以提升识别性能本文第 节综合分析和总结了相关工作 第节详细论述本文提出的基于语境交互感知和模式筛选的隐式篇章关系 识 别 方 法第 节介绍实验数据的准备模型评估方法以及对比实验设置 第 节给出实验结果的分析和讨论 第 节进行总结和展望相关工作自 年发布人工标注的英文篇章关系语料库 以 来涌 现出大量篇章关系研究相关的工作从传统机器学习方法到目前的深度神经网络模型传统方法包括基于语言学特征规则的和基于概率统计等不同方法期 郭 凤 羽 等 基于语境交互感知和模式筛选的隐式篇章关系识别例如 等 人 构 建 了 相 关 词 法 句 法 特 征 引入情感词极性动词短语长度动词类型等特征识别篇章 关 系 类 型 等 人 在 的 工 作 基 础 上构建论元的句法 树 和 依 存 句 法 树 等 特 征 以 改 善 其模型的识别性能 等 人 使 用 布 朗 聚 类词对等语言特征进一步提高隐式篇章关系识别能力但此类方法过于依赖人工标注的表层语言特征和所总结的语言规则 存在数据稀疏性问题 且难以捕捉篇章丰富的 语 义 信 息 而深度神经网络将论元对中的单词进 行 分 布 式 表 示 得 到 论 元 的 向 量 表 征进而可在高维空间中体现论元之间的相关性 从而有效地识别篇章 关 系其 中与本文相关的工作有以下几个方面篇章论元表示篇章论元的有效表示是隐式篇章关系识别任务的首要条件大多神经网络模型的前提是将论元表征为低维连续 稠 密 向 量 等 人 首 次 将 论 元的表层语言特征进行词向量编码以改善模型识别性能继而在 年利用句法分析和共指实体等语言特征以 增 强 论 元 表 示 等 人 通 过 分 析 各 个篇 章 关 系 的 语 言 特 性 信 息并 将 其 编 码 为 复 杂 的 特征作为论元 的 语 义 表 示 然 而这 类 研 究 单 独 编 码论元没能反映出表示过程中需要关注的重点信息针 对 存 在 的 问 题 研 究 者 们 将 注 意 力 或 门 机 制整合到神经网络 模 型 中 以捕获篇章论元的核心特征如 等人 提出 一 种 层 级 注 意 力 机 制用 以 捕获不同粒度上的 重 要 语 义 信 息但这些方法未考虑在表示过程中两者之间的交互关联线索论元间交互模式的挖掘在 获 得 篇 章 论 元 重 要 信 息 的 基 础 上 大 量 工 作聚焦于如何利用复杂神经网络的方法挖掘论元间丰富的 交 互 模 式 特 征 等 人 设 计 了 新 颖 的 门机制相关的深度 神 经 网 络 模 型通过门控来组合双线性模型和单 层 网 络 以 捕 获 更 多 的 交 互 模 式等人 计算论元中所有单词对的线性关系和二次关系以体 现 论 元 之 间 的 交 互 特 征 等 人 利用基于注意力的神经网络捕获论元间的交互特征同时使用多任务学习模型抽取辅任务中无标注数据的相关特征将其作为关联知识以增强主任务中论元表示从而提升识别性能 等人 认 为 论 元 不能独立于段落或 其 相 关 段 落 级 结 构 来 理 解 从 而 设计段落级神经网络以获取论元之间的相互依赖 关系之间的连续性和关系模式此 外注 意 到 张 量 神 经 网 络 能 够 有 效 地 建 模 数据的多重关系并在自然语言处理的不同任务中得到成 功 验 证如 实 体 关 系 抽 取 中 文 分 词 和 情感分析 等在 隐 式 篇 章 关 系 识 别 中 等 人 将张量层融合到多视角框架以捕获更高维度的交互特征但他们并未区分所获取的交互关系特征中存在的冗余或噪声信息 忽略了交互模式的稀疏特性 尽管已有研究通过稀疏正则化过滤冗余权重来获取紧凑神经网络 但由于仅修正了网络结构 未针对任务本身特性进 行 改 善 因此交互模式中冗余或噪声信息仍未得到有效解决认知理论的启发篇章理解属于人工智能中的认知智能人们理解篇章含义和语义 关 系 的 认 知 行 为 给 本 文 任 务 带 来 了新的启发研究 者 们 从 认 知 角 度 分 析 模 拟 人 们 的 阅读行为从而建模各自的任务 等 人 的 研 究 展示了人们大脑 如 何 存 储 和 唤 醒 记 忆 等 人在 等 人 工 作 基 础 上 构建语义记忆单元以 分布式形式存储篇章的相关知识 辅助篇章关系识别等人 则设计多层注意力机制模拟反复阅读策略挖掘可判断篇章关系的特定词汇以辅助识别隐式篇章关系 等人 将 最 初 编 码 所 得 的 论 元 表示作为指导模仿多次阅读过程 动态获得论元的关键线索以达到逐步深入理解篇章语义的目的综 上前人工作在论元表示阶段未考虑论元之间非对称的语义 关 联 特 性 在关系识别阶段未区分所获取的交互关系的稀疏特性 实际阅读过程中 两个论元在不同的阅读顺序中具有不同的语义信息而该信息在篇章关系识别过程中可能会产生不同的语义关系特征即论元之间的交互信息是非对称的本文将从这两个 角 度 深 入 探 索以建模交互感知的论元表示和稀疏 关 系 模 式 筛 选从而改善隐式篇章关系的识别性能研究框架本文将隐式篇 章 关 系 识 别 任 务 形 式 化 为 多 分 类问题本节首先 给 出 模 型 的 整 体 框 架 如 图所示主要包括两大部分 语境交互感知的论元表示实现保留论元自身上下文信息的同时建 模 论 元间非对称的交互信息表示 稀 疏 交 互 模 式 筛 选获取论元对不同层面的关系特征其中在模型训练过程中实现了对关系特征稀疏特性的处理 下 面 将详细介绍模型中的各个部分计 算 机 学 报 年图 基于语境交互感知和模式筛选的隐式篇章关系识别框架语境交互感知的论元表示如何有效编码篇章论元是篇章关系识别任务的核心之一虽然许多深度神经网络 模型能够编码篇章论元但大多为单独建模两个论元 无法获取丰富的语义特征同时源于认 知 相 关 理 论 的 启 发考虑到人们的阅读 策 略 即通过前后文查看并寻找篇章的重要线索进而判断具体的篇章关系 其 中不同的阅读顺序从 前 向 后从 后 向 前 可 能 关 注 到 不同的篇章焦点线索 帮助关系的决策 而且前后方向的篇章线索也是非对称的 因此我们需要从两个方向建模论元之间的非对称语义信息嵌入层数据或特征的分布式表示是神经网络建模的前提为了利用神经网络编码两个论元我们将论元中原始 单 词 的 独 热 编 码 转 换 为 分 布 式 表示嵌入层可以看作是一个简单的映射层通过查找表操作索引实现单词嵌入 以捕捉单词的内在属性我们将词汇表中的每个单词与向量表示 相关联起 来其 中 是 词 向 量 的 维 度 每 个 论 元 被 视 为词向量序列表示为其中 分别是 中第个单词和 中第个单词 则是 句子长度基本论元表示考虑到循 环 神 经 网 络 适合建模序列化数据但存在梯度消失或爆炸 且难以处理长距离依赖问题因此我们采用 长 短 期 记 忆 网 络建 模 篇 章 论 元 给 定论元中词向量 表 示 通 过 式 进 行 每个位置 上状态序列计算其中向量 分 别 表 示 在 位 置 处 输 入门遗 忘 门输 出 门 记 忆 单 元 和 隐 藏 状 态 和是网络中相对应的权重和偏置 表示 激 活函数 表示元素 级 乘 法 运 算 具 体 来 讲 输 入 门 控制当前输入哪部 分 被 存 储 遗忘门控制所保留的历史信息输出门决定有多少信息作为输出由于 仅 考 虑 到 单 一 方 向 序 列 的 历 史 信息而未来语境信息也有助于序列建模 故我们采用编码篇章论元分别从前向和反向编码输入序列可以捕 获 历 史 和 未 来 的 上 下 文 信 息从 而 得到位置 上的两 个 表 示 前 向 隐 藏 状 态 和 反 向 隐藏状态 然后将 两 者 连 接 起 来 得 到 中 间 表 示同理给定论元对 得 到 其 中 每个单词的中间表示 进而获取其整体表示显然通过基本 编 码 所 得 的 两 个 论 元表示之间没有任何关联 也就是说即使两者之间存在篇章关系目前却是相互独立的 为了充分挖掘论元表示阶段中二者之间的语义关联我 们 探 索 一 种期 郭 凤 羽 等 基于语境交互感知和模式筛选的隐式篇章关系识别新的论元表示语境交互感知的注意力机制针 对 前 向 和 后 向 论 元 阅 读 的 不 对 称 语 义 信 息我们设计两种注意力机 制 静 态 交 互 注 意 力 根据论元中所有词 对 信 息 手动构建论元之间的关联矩阵 动 态 交 互 注 意 力 在 建 模 过 程 中 通 过 参数更新而自动学习到相应的非对称关联矩阵静态交互注意力首先我们通过内积 操 作 构 建 篇章论元之间的交互联系 利用式 计算论元对中所有词对 的 语 义 联 系 从而建立关联矩阵矩阵中每 个 元 素 体 现 了 中 第 个 词和 中第 个词的关联性得分其中 和 分别是 的 中间表示其次针对 中每个词我们在矩阵 中进行逐列 以获得对应 上的概率 分 布同 样地采用逐行 以得到考虑 中每个词时所对应 上的 如以下公式所示其中 表 示 中 第 个 词在位置 上的注意力值 表 示中第 个 词 在 位 置 上 的 注 意 力 值 我 们 将称作 在 位 置 上 的 的 注 意力 是 的 注 意 力 这 一 过 程的注意力向量是根据 计算所 得故称为静态注意力 如图 所示图 整合静态注意力机制的论元表示然 后通过论元对的整体交互信息来表征其语义 联系我们对 和 分别进行平均操作 得到两个论元各自的注意力值最后整合论 元 相 应 的 注 意 力 值 到 由所编码的论元表 示 中 得到蕴含有论元对的非对称关联特征和上下文信息的最新论元表示然而这 里 的 静 态 交 互 注 意 力 向 量 是 根 据编码论元的中间状态所产生具 有 一 定 的局限性不能够捕获更多论元之间所隐含的关系特征为此我 们 设 计 面 向 篇 章 关 系 的 动 态 注 意 力 机制 以深入 挖 掘 论 元 之 间 的 关 联 性 下 面 将 给出详细的阐述动态交互注意力动态 交 互 注 意 力关注输入的论元 对 使其中一个论元的语义信息在某种程度上会影响另一个论元的语义表示计算 反之亦然其主要思路是 根 据 产 生 的 两 个 论元的中间状态进行相关联特征的度量 由 模 型 自 动学到其注意力向量 如图 的表示阶段示意正 如 前 面 所 述 我 们 得 到 两 个 论 元 对 应 的 表 示矩阵 然 后 通 过计算式 学习到关联矩阵其中 作为由神经网络所学习的参数矩阵通过从 均匀分布中随机采样来初始化并在模 型 训 练 过 程 中 进 行 参 数 更 新 我 们 使 用作为激活函数而 矩 阵 的 元 素 是 列 向 量和 相 关 性 得 分 即篇章论元之间单词对的隐藏向量的对齐得分 之后我们分别沿着横向和纵向对 进行池化操作以 生 成 重 要 的 特 征 向 量 其 形 式化为式 与 根 据 实 验 验 证 表 明 平 均 池 化的 效 果 比 最 大 池 化更好故我们采用平均池化操作其中 解释为关于 的 中第单词上下文的重 要 性 得 分 是 关 于 的 中 第单词上下文的重要性得分 继而我们得到两个论元对应的池化向量计 算 机 学 报 年然后利 用 函 数 将 向 量 和 概 率化分别得到 注 意 力 向 量 和 其具体的每个元素由式 和 计算所得最后可得融合论元间交互信息和上下文语境的新论元表示 和 此表示学习过 程 在 一 定 程度上反映了人们的双向阅读策略需要注意的是本文 模型选择动态注意力机制以自动学习出论元之间更丰富的关联特征基于张量神经网络的论元交互模式挖掘不 同 篇 章 关 系 存 在 其 自 身 特 定 的 关 系 特 征 这些特征由论元之 间 的 交 互 模 式 所 体 现 可 以 隐 含 地标识出篇章关系 然而如何捕获有效的交互模式是篇章关系识别的关键所在一般衡量论元之间的交互模式方法有双向性模型和单层 网 络 等 其 中双线性模型通过特定关系这里指论元之间 的 语 义 关 联 关 系的 双 线 性 形 式简单且有效地结合两个向量之间的强线性交互 具体如式 所示其中仅有参数 但 其 不 能 获 取 非 线 性 交互特征单层网络通过标准非线性操作隐式地连接两个论元捕获其非线性交互 被定义为其中 是 一 个 标 准 非 线 性 函 数是隐藏层 的 大 小 但 其 以 论 元 之 间的弱交互信息为代价 未能挖掘丰富的交互特征张量神经 网 络 通过整合双线性模型和单层网络可以捕获更高维度中的 线性和非线性交互信息同 时 等 人 利 用 代 替 标 准神经网络直接计算两个实体向量 在多个维度上关联得分进行实体关系推 理 以 证 实 的 有 效 性与其相似本文旨在建模两个篇章 论元之间的语义关系因此我们利用 挖 掘 论 元 之 间 深 层 次 的语义交互特征以促进隐式篇章关系识别张 量 是 一 种 描 述 向 量 标 量 或 其 它 高 维 表 征 各自间关系 的 几 何 对 象 参 考 前 人 工 作 我 们 采用三阶张量直接建模论元之间的语义连接关系 如式 所示其中 是标 准 非 线 性 函 数 表 示 由个矩阵构成的张量 反 映 了 两 个 论 元 之 间 的 二 维交互式 中 表 示 双 线 性 张 量 项计 算 可 得 向 量而 的元素是根据对应的张量片 计算所得 其 等效于 个双线性模型同时捕获篇章论元之间的线性交互关联在模型训练过程中 也 是 在 均 匀 分 布中随机采样得到初始值 通过模型训练进行参数更新随着的增加模 型 的 参 数 和 计 算 难度也随之增加因此选择合适数目的张量片十分重要其它参数 是标准形式 神经网络的 参 数 具 体 设 置 在 实 验 部 分 进 行 介 绍 这里每个张量片均可看作为一个特征抽取器 以抽取论元之间复杂的语义连接特征稀疏交互模式筛选和篇章关系识别由 张 量 神 经 网 络 所 输 出 的 复 杂 关 系 矩 阵 体 现了两个篇章论元之间的语义关系得分 我 们 将 其 视为关系特征重新转换为向量 将其作为多层感知器的输入具 体 地将 转 换 的 向 量 输 入 到 全 连 接 隐 藏层得到更加抽象 的 表 示 然后连接到输出层 利 用函数计算不同关系类别的概率从 而 得 到最终的识别结果给定包 含 个 任 务 实 例 分 别表示一个论元对 及 其 关 系 标 签我们采用交叉熵损失来评估预测关系表示真实关系的程度定义为其中 表示第 个 标 签 的 预 测 概 率 是 篇 章关系类别的数量经 过 动 态 注 意 力 增 强 论 元 表 示张 量 神 经 网 络捕获论元间不同方面的语义交互关联特征然而并非所有交互关联 征 都 是 有 效 的可能存在一些影响系统性能的冗余或噪声交互信息也就是说高维度的关系特征具有稀疏性 一般情况下机器学习方法通过规则项来约 束 模 型 使其具有一定特性 例 如期 郭 凤 羽 等 基于语境交互感知和模式筛选的隐式篇章关系识别稀疏低秩 或 平 滑 等 规则项可以是模型参数的范数不同范数的选择对参数的约束效用也不一样其中 和 范数可以实现稀疏 约 束 前者是指向量中非零元素的个数 后者是指向量中元素的绝对值之和然而对 的 求 解 是 一 个 难 问 题研 究 者 们大多采用其最优凸 近 似 来 进 行 求 解 以 稀 疏 化 相应的参数因此我们选取 稀疏规则算子以实现张量抽取特征的稀疏性 为了移除不相关交互特征 利用 对 张 量 项 进 行 约 束 使 每 个 张 量 片 中 大 部分 值 为 从 而 筛 选 出 具 有 指 示 性 的 交 互 模 式另外利用 正则化避免模型过拟合的问题 具体训练目标为其中 是 关 于 参 数 的 正 则 化 项 包 含 两 部 分见式 是张量片 的 参 数 是 模 型 中 其 它 参数特别地 是 对 张 量 片 的 稀 疏 约 束 为 了 获取各个方面的重要值正则化项 在 处 不 可 微 故 而 为 了 最 小 化 目标函数我们采用近端梯 度 下 降 法 将 目 标 优 化 为平滑和非平滑项的 组 合 具 体 计 算 如 式所示其他其中 是近似 数 学 操 作 是 软 阈 值 方 法 表示学习率实验准备实验数据近 年 来不 同 架 构 的 篇 章 语 料 构 建 使 篇 章 级 相关研究受到越来 越 多 研 究 者 的 关 注 宾 州 篇 章 树 库于 年发 布是 目 前 规 模 最 大 的 英 文 篇章关系 语 料 库 其 借 鉴 篇 章 词 汇 化 树 形 连 接 语 法理论 从华 尔 街 日 报 的 篇文章中标注了个 篇 章 关 系 该篇章关系被定义为一个 级层次意义 结 构最 上 层 是 类 别 第 二层是类型 第三层是子类型本文仅针对第一层的四大类隐式篇章语义关系进 行 识 别 即 比 较 关 系 偶 然 关 系扩 展 关 系 和 时 序 关 系其实例分别对应如例 所示例其中比较关系一般是突显两种情况的差异 偶然关系主要描述论元之间主观或客观的影响 扩 展 关 系是涵盖扩大的论 元 论 述 范 围并推动其叙述向前发展的语义关系时序关系是反映论元之间在时间上的关联特性这些篇章关系中没有显式的语言线索且可能存在歧义表述 导致其识别的难度增加与前人工 作 一 致 我 们 选 用 语 料 中小章 作 为 训 练 集 小 章 作 为 测 试 集 小章作为验 证 集 注 意扩 展 关 系 的 数 据 设 置 遵 循 了等人 的方法未 将 实 体 关 系关系合并作为扩展 关 系 表 给出了数据在各个隐式篇章关系中的分布情况表 中隐式篇章关系数据统计关 系 类 型 训 练 集 验 证 集 测 试 集比 较 关 系偶 然 关 系扩 展 关 系时 序 关 系总 数为了与目前篇章关系识别的先进模型进行比较我们采 用 两 种 实 验 设 置 多 元 分 类 即 四 分类 四个独立二分类 前 者 用 于 评 估 模计 算 机 学 报 年型的整体性能符合任务本身四个关系的真实设置后者评估单一关 系 的 二 分 类 性 能即单一关系为正例其它关系均 为 负 例 可 在 一 定 程 度 上 解 决 语 料 不平衡的问题在二分类中除了扩展关系之外其它关系数量较少 故每个关系的训练数据均使用相同数量的 正 例 和 负 例负例从相应的集合中随机选择同时验 证 集 和 测 试 集 不 作 改 变保 持 自身的自然状态参数设置在本文 模型训练过程我们首先对 语 料进行预处理例如将语料中的单词均转换为小写等我们使用 预训练的 词 嵌 入 表 示 并 尝 试 其不同维度 的 向 量 表 示 最 终 选 择 维 度为 的词向 量如果预训练的词向量中未出现当前 单 词则 该 单 词 由 均 匀 分 布 随 机 初 始 化而生成向 量 表 示 每 个 论 元 的 长 度 被 设 置 或 填 充 为同时参照已有研究 通过比 较 不 同 的中间层 表 示 长 度 的 实 验 结 果 且 选 择 将 其 设 置 为其它参数从 均匀分布中随机初始化生成为 了 保 证 实 验 结 果 的 稳 定 性我 们 在 模 型 训 练过程中取 次结果的平均值 进而使用简单网格搜索算法进行参数选择 根据在验证集上的调整 确定模型最终参数部分超参的设置如表 所示表 模型中部分超参设置超 参 数 数 值初 始 化 学 习 率大 小张 量 片 的 数 量评估方法为了有效评 估 本 文 模 型 对 四 种 隐 式 篇章关系的识别性 能 我们采用篇章关系识别中通用的评测标 准 值 和 精 确 率 其 中值是准确率 和 召 回 率 的 调 和 均值可以更好地衡量模型性能对比实验设计对比模型为了验证本文所提 模型的有效性我 们从篇章论元表示 交互模式挖掘和认知启发三个方面选择以下与本文相关的具有代表性的系统作为对比模型篇章论元表示采用递归神经网络建模论元的句法分析树并沿树状结构得到实体表示 将论元与实体组合作为最终论元表示提 出 一 种 堆 叠 式 神 经 网 络 模 型包括卷积神经网络获取不 同 粒 度 局 部 特 征 协 同门控网络特征控制重要信息的比重以 辅 助 篇 章 关系识别注意尽管在一定程度上其捕获论元之间交互特征但从模型整体分析本文认为其主要体现了论元表示的建模详 细 分 析 四 类 关 系 的 语 言 特 性总结其 独 特 语 义 特 征 和 衔 接 手 段即 主 题 连 续 性和 归 因 信 息 针 对性通过建模这些语言特征作为论元的语义表示 采用朴素贝叶斯分类器进行隐式篇章关系的识别论元之间交互特征设计 门 控 相 关 的 神 经 网 络 模 型以便捕获篇章论 元 中 单 词 对 之 间 的 线 性 和非线性语义交互 使用池化操作选择最具信息性的交互特征采用简单的神 经 网 络 模 型识别隐式篇章关 系 将词向量加权平均作为论元表示计算论元中词对的交互得分作为论元之间交互特征在利用基于注意力机制的神经网络学习论元表示的同时 考虑两个论元的交互 并采用多任务学习从辅任务中获取标注及未标注语料的相关知识将篇章语言单元由从句扩大到段落引入一种段落级神经网络以建模论元之间的相互依赖性篇章关系的连续性 并预测段落中论元之间语义关系的顺序认知角度受 人 们 理 解 篇 章 语 义 的 启 发构建语义记忆网 络 其中浅层编码器学习论元的表示语义编码器进一步建模论元的深层语义特征 并利用注意力检索出最相关特征通过设计基于 多 层 注 意 力 的 神 经网络模型 来模仿 人 们 反 复 阅 读 策 略选 择识别隐式篇章关系过程中可能关注的词汇信息 注意本文参照其论文设置 选取 层和 层注意力需 要 说 明 的 是 文 中 选 用 的 代 表 性 系 统 模 型 为直接引用原始论 文 中 的 结 果由于所有模型都是遵循相同语料和数据划分 因此具有可比性消融模型分 别 编 码 两 个 论 元 将 两 者 的 表 示期 郭 凤 羽 等 基于语境交互感知和模式筛选的隐式篇章关系识别直接拼接起来作为后续全连接隐藏层的输入 之 后用 进行篇章关系分类弥 补 了 的 不 足采 用 两 个保留历史和未 来 上 下 文 信 息如 小 节所述以更好地建模论元对静态构建论元对 的 交 互 关 联 矩 阵整合注意力向量于论元表示见式改进 了 的 单 一 性 由 模 型 自 动 学 习 到 论 元 对之间的交互关联性 将其融入到基础论元表示中 具体见式在编码论元后利用张量神经网络来捕捉不同方面的丰富的语义关联特征融 合和张量神经网络 采用 池 化 操 作 从 丰 富 的 交互特征中选择前 个重要关系模式特征与相似 和 张 量 层 相 结 合 池 化 操 作 选择前 个重要关系模式特征实验结果与分析本节首先给出 模型对比系统和消 融 模型分别在四分类和二分类上各自的实验结果 然 后通过对比分析探讨本文模型的优缺点 最后对模型的主要模块进行分析验证与对比模型的比较表 展示了对比系统及本文模型在四分类任务上的实验结果通过观察可以得到以下结论整 体 上侧重篇章论元表示的系统的性能低于侧重论元间交互特征的和受认知理论启发的方法导致这种现象的原因可能是侧重篇章论元表示的系统对论元的 独 立 并 行 编 码忽略了论元之间的关联特性另外与侧重论元间交互的方法相比认知理论启发的系统尽管从人类阅读角度设计模型但其 值并 未 得 到 明 显 的 提 升这可能是因为其焦点均集中于论 元 各 自 的 重 要 信 息 而 未 探 索 这 些信息之间的关联 性 而恰好这些关联信息在一定程度上可以反映出语义关系 本文 模型则 在 考虑论元交互式表 示 的 同 时 挖掘论元对之间的语义交互 关 系 取 得 了 比 其 它 系 统 好 的 结 果 其 中模型自动学习到 交 互 感 知 的 新 颖 论 元 表 示取得了更高的性能具体来讲 作为侧重篇章论元表示的方法代表其识别性能最低 其他 两 类 中和 获得了 较 好 的 精 确 率 表 明 通 过 深 入 挖掘篇章中重要线 索 扩大篇章语言单元的粒度均能够增强篇章论元 的 理 解 以改善隐式篇章关系的识别性 能而 的 精 确 率 都 稍 高 于其原因可能是 篇章本身 核 心 线 索 的 指 示 作 用 高于更大语言粒度的语义表示 利 用 注 意 力 机 制 捕获许多重要特性 信 息 的 同 时过多的注意力层会产生更多参数从而导 致 过 拟 合 问 题 的值 高 于 的 而 精 确 率 却 低 于在 和精确率方 面 的 性 能 均 超过 这些结果也在一定程度上反映了原因的可能性值得注意的是与 在 和 精 确 率 上 取 得 最高值 的 和 相 比本 文 模型的 值和 精 确 率 均 获 得 了 提 升特 别 是 精 确 率比 高了 这 可 能 是 论 元 之 间 非 对称的双向交互表示和稀疏关系模式选择的共同作用从而有效地提升了隐式篇章关系识别性能表 各个系统在四分类任务上的性能模 型注 未列出系统模型表明没有获取该项结果和 分 别 表 示 层 层 注 意 力关于 二 分 类表 给 出 各 个 模 型 在 四 个 关 系 上的 性能结果通过观察可以得到以下结论在 四 大 类 关 系 中 所有模型在时序关系上的 值均最 低其原因可能是时序关系在语料库中所占的比例最小 仅有 而 随 着 不 同 关 系 类 别中实例数 量 的 增 加 其 值 也 随 之 上 升 这 表 明 语料的规模大小对隐式篇章关系的识别是至关重要的本文 模型在扩展关系识别上取得了最好性能其中的原因可能有两个方面 扩 展 关系实例中可能存在一些容易混淆的词对 通 过 非 对称交互注意 力 的 编 码 而 获 得 不 同 信 息 对 于 复杂的论元对需要进一步加深理解 从而捕获具有指示性和交互特性的关 系 特 征 模 型 则 能 有 效融合这两个方面偶 然 关 系 方 面 虽 然 未 取 得 最 好 性计 算 机 学 报 年能其 值低于 的 但也取得了与可比较的 结 果 这 可 能 是 因 为 利用辅任务添加了未标注数据的相关特征作为知识扩大了语料库增强了论元的表示 即不仅考虑到篇章内部语义还引入了相关知识 另 外 和均 与 本 文 工 作 十 分 相 关不 同 的 是 我 们 在表示层面加入交 互 感 知 以及训练过程加入稀疏约束这可能是 取 得 更 好 性 能 的 原 因 分 别 获得了 和 的改善在比较关 系 上 得 到 了 最 优 性 能其值超 过 模 型 的 这 是 由 于针对 语 料 进 行 详 细 分 析 发 现 了 篇 章 关 系的独特语义信息 主题连续性和归因的论元衔接手段这些特征能够反映各个关系的特定模式从其他三类关系的结果也表现这一现象然而其需要复杂的特征工程进行描述 不具有强泛化能力 特别是时序关系 由 于 实 例 数 量 较 少 不 能 有 效 获取其特征导致性能较低表 各个系统在二分类任务上的性能模 型 比 较 偶 然 扩 展 时 序与消融模型的比较设计消融模 型 以 验 证 中 动 态 注 意 力 机制张量神经网络及其稀疏约束的有效性实验结果见表 所示针对二分类我们得到以下结论表 首先给出了 和 模型实验结果作为基线 方 法 其 中 在 四 类 关 系 上的实验性能均较差 虽 然 保留了历史和未来上下文 信 息 优 于 仅 存 储 历 史 信 息 的 但结果却并未得到 很 高 的 提 升其原因可能是这两个方法对论元的编码都是独立 并行的没有从任务本质出发从而设计具有篇章特征的编码方法与 和 相 比基 于 注 意 力 机制的方法 实 现 了 更 好 的 性 能 特 别地 的 值 在 比 较 偶 然 和 时 序 三 个 关 系 上分别比 提高了 这表明通过建立论元对中所有词对的关联以描述论元之间的交互特性能够获取特定的语义关系线索 改善篇章 关 系 识 别 的 性 能 而 则 在 比 较扩 展 关系上取得了更大的改进 即 分 别 高 于 模 型 达这证明交互感知的论元表示有助于隐式篇章关系识 别 且由动态注意力机制捕获的非对称双向关联特 征 更 加 丰 富优于以词对为基础所构建的静态注意力矩阵 注意我们对实验结果进行了显著性检验表 明 其 在 单 侧 检 验 中 均 显 著此外 模型在整体上取得了与 不相上下的实验性 能 这种现象说明张量层所挖掘的丰富且复杂的交互关系特征对该任务是有效的和 模型比前两类方法的性能都更好这意味着交互感知的表示学习和丰富关系模式的融合可以更好地改善篇章关系识别的结果其 中 在四类关系上的实验性能比均略有提升这表明神 经 网 络 动 态 学 习 的 注意力向量可能包含更多不同方面的信息然 而在各 个 关 系 上 的 性 能 均 低 于 本 文模型导致这一结果的原因是前者利用 池 化操作选取前 个 重 要 特 征 无法保证从全局角度可得到有效的重要交互模式而 在的基础上增加了对张量项的稀疏约束 从而筛选出更具有指示性的交互关系模式 另外也表明注意力机制张量神经网络及其稀疏约束的融合 有效提高了隐式篇章关系识别性能表 消 融 模 型 在 数据上的实验性能模 型二 分 类比 较 关 系 偶 然 关 系 扩 展 关 系 时 序 关 系四 分 类期 郭 凤 羽 等 基于语境交互感知和模式筛选的隐式篇章关系识别与此同时观察发现消融模型四分类结果趋势与二分类基本一致 证明了 各模块的有效性不同组件对模型性能的影响在 模型中动态交互注意力机制和张量神经网络均可改 善 隐 式 篇 章 关 系 的 识 别 本 小 节 将对两者分别进行详细地讨论分析动态交互注意力机制的影响为了直观地理解两个篇章论元之间的交互关联性我们对前 文 中 例 进 行 可 视 化 表 示 如 图 所示其中展示了三个模型相应的交互关联矩阵仅用融入静 态 注 意 力 机 制 和 融 入 动 态 注 意 力机制图中两个论元中词对所对应位置的背景颜色呈现了其相关性 颜色越深则表明所对应的词对的相关性越强图 中的三个子图充分展示了上述例子所描述的 现 象 具 体 分 析 图 中词 对获 得 了 较 高 的 相关性得分而其它词对的得分显得十分随机这表明仅用 模型可能受到语料库中词对频率的影响即 和 这些词经常在语 料 库 中 共 存故得分会相对较高 同时图中没有反映出一些关联性较强的词对信息图 作为对 比观 察 发 现 其 存 在 更 多 较高得分 的 词 对 其 中 一 些 并 未 在 图 中 出 现这表明交互注意力在一定程度上捕获了论元之间的关联特征进一步图 更 好 地 显 示 了 其 关 联 信 息即与 和 相 关 联 的 词 对 得 分 比图 较为平均可能意味其 语 义 理 解 范 围 更 加 广泛这有助于加深对篇章的理解从而准确推断其隐式的篇章关系图 不同方法所获取的篇章论元之间关联性张量片数量的影响张量神经网络探究了多个维度上两个向量的关联性其多个维度是由张量片的数量所体现故我们分析了张量片不同数量对四类隐式篇章关系识别的影响即 在 模 型 张 量 层 中 设 置不同大小的张量片 得到其在四种关系上对应的值注意当片数为 时其直接退化为一个简单的单层网络模型图 不同数量的张量片对四类关系的影响从图 可 知随 着 张 量 片 数 量 的 增 加在四类关系 上 的 值 均 有 所 提 升 这 表 明 复 杂 的张量层能够捕获更多表征论元之间交互模式的特征然而张量片的增加可能会使模型待学习参数变多消耗更多计算 资 源 延长其计算时间 还 可 能 导致模型过拟合因此通 过 实 验 分 析 我 们 在模型中选择张量片数为 保 证 合 理 计 算 的 同 时 获得有效的识别性能总结与展望本 文 抓 住 隐 式 篇 章 关 系 的 主 要 挑 战 受 认 知 科学相关理论启发 提出了基于语境交互感知和模式筛选的隐式 篇 章 关 系 识 别 方 法 以 便 更 好地理解篇章论元和选择重要交互模式进行高效识别通过设计动态交互注意力机制以刻画论元间双向非对称的内在 关 联 也就是将人们的双向阅读策略通过自动学习建模到融合语境交互感知的论元表示中由于识别过程中隐含的篇章论元认知交互具有海量和稀疏特 性 本文采用带有稀疏约束的张量神经网络挖掘具有篇章关系指示性的有效交互模计 算 机 学 报 年式从而提 升 模 型 的 识 别 性 能在 语 料 库 上的实验结果显示了论元之间双向非对称的交互感知信息和稀疏模式筛选的有效性 与此同时我们分析了张量神经网络中不同数量的张量片对模型性能的影响同时采用实例分析展示了交互注意力机制的特点进一步表明了各模块对隐式篇章关系识别的促进作用然而本 文 工 作 也 存 在 一 些 问 题 尽 管模型可以筛选出 更 具 有 指 示 性 的 交 互 模 式但其不具有可解 释 性 这也是神经网络模型面临的主要困难之 一 模型仅仅关注于篇章论元间的关联性信 息 忽略了更广范围的篇章语境信息因此未来研 究 工 作 中 我们将尽可能探索指示性模式的可解释 性 建模更高层级篇章单元例 如句群段落之间的关系或利用外部关联知识来增强篇章语义理解实现更准确的隐式篇章关系识别致 谢 衷心感谢各位审稿专家对本文工作的指导!参 考 文 献奚 雪 峰 孙 庆 英 周 国 栋 面向意图性的篇章话题结构分析研 究 与 展 望 计 算 机 学 报期 郭 凤 羽 等 基于语境交互感知和模式筛选的隐式篇章关系识别计 算 机 学 报 年期 郭 凤 羽 等 基于语境交互感知和模式筛选的隐式篇章关系识别 |
[返回] |