基于语境交互感知和模式筛选的隐式篇章关系识别 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

基于语境交互感知和模式筛选的隐式篇章关系识别

来源：一起赢论文网日期：2020-10-01 浏览数：1811 【字体：大中小】

第卷第期年月计算机学报收稿日期在线出版日期本课题得到国家自然科学基金天津市自然科学基金国家重点研发计划项目天津市科技项目资助郭凤羽博士研究生中国计算机学会学生会员主要研究方向为自然语言处理篇章关系识别贺瑞芳通信作者博士教授中国计算机学会会员主要研究领域为自然语言处理社会媒体挖掘及机器学习党建武博士教授博士生导师中国计算机学会会员主要研究领域为语音识别语音对话言语认知脑机理言语理解基于语境交互感知和模式筛选的隐式篇章关系识别郭凤羽贺瑞芳党建武天津大学智能与计算学部天津天津市认知计算与应用重点实验室天津日本北陆先端科学技术大学院大学石川县日本摘要隐式篇章关系识别是篇章分析中一项具有挑战性的子任务旨在推断出同一篇章内相邻文本片段称为论元之间潜在的语义连接关系例如时序关系因果关系等如何有效地表征篇章论元以及挖掘论元间的交互信息是实现该任务的核心要素传统研究注重篇章中人工总结的表层语言特征即情感词极性位置特征和动词类型等存在数据稀疏和预处理错误级联的问题导致机器学习模型性能不高新近的深度神经网络模型则自动提取篇章论元中的特征利用注意力或记忆机制等捕获论元的重要信息并组合不同神经网络提取大量关系特征以提升模型识别性能然而其忽略了表示过程中论元间双向非对称的交互信息以及识别过程中论元间交互模式的稀疏特性受认知学相关理论的启发本文提出基于语境交互感知和模式筛选的隐式篇章关系识别方法首先通过双向长短期记忆网络分别编码两个论元以获取带有上下文语境信息的论元表示其次建模其动态交互注意力机制以自动学习论元之间的非对称关联矩阵进而得到融合语境交互感知信息的论元表示最后利用带有稀疏约束的张量神经网络捕捉具有篇章关系指示性的深层交互模式从而提升模型的识别性能语料库上的实验结果表明本文提出方法的精确率在其四分类上改善了关键词隐式篇章关系识别双向长短期记忆网络交互注意力机制稀疏约束张量神经网络中图法分类号号引言篇章关系识别是篇章分析的核心任务之一旨在自动判别同一篇章内部两个相邻或跨度在一定范围内的文本片段之间的语义连接关系例如时序关系扩展关系等这里文本片段指具有完整语义的文字序列包括有子句句子或句群等该任务在自然语言处理的其它研究中有广泛的应用例如篇章连接词能有效地改善统计机器翻译的性能对话系统整合篇章信息以生成具有逻辑关系的回复抽取式摘要可利用篇章关系选取文章中具有重要意义的句子作为候选句子等参照命题库中的谓词论元结构宾州篇章树库将篇章中含有语义关系的文本片段标记为连接词论元结构具体地由连接词连接的两个文本片段称为论元连接词所引导的其中一个论元记作另一个为作为整体论计算机学报年在宾州树库的基础上对其动词的配价关系进行标注建立了命题树库元对根据论元之间是否存在显式连接词篇章关系可以分为显式和隐式篇章关系其中隐式篇章关系则缺乏直观明确的连接线索需要从论元对中抽取句法语义等相关特征进行间接地分析推断由于篇章论元本身结构的复杂性语义的歧义性以及上下文信息的不确定性等问题使得隐式篇章关系识别难度加大成为篇章分析领域的研究瓶颈因此本文专注于隐式篇章关系的识别传统特征工程和机器学习的方法大多侧重于人工标注的语言学特征及总结的规则如从论元对中提取词性信息布朗聚类词对和依存句法特征等然而这些特征过于依赖人工总结耗时耗力且受限于有限的语言学资源容易引发一系列问题数据稀疏如利用词袋模型表示篇章论元当不同的词汇作为完全不同的特征时由于不常见的词汇在训练数据中出现次数较少在词表中呈现稀疏化预处理错误级联如预处理中生成了错误的依存句法树则该特征错误会在后续识别过程中存在从而导致训练不充分影响篇章关系识别性能近年来深度神经网络被成功应用于隐式篇章关系识别任务中使其识别性能取得了有效的提升主要包括基础的神经网络如卷积神经网络循环神经网络等将篇章论元映射成低维的稠密向量从而计算并识别论元之间的语义关系但这些方法大多单独建模每个论元仅挖掘各论元的自身特征忽略了两者在表示学习过程中的关联线索利用注意力记忆或门控机制捕捉论元的重要信息以辅助篇章语义理解该类方法虽比基础模型获得了更多关键线索但仍未考虑到论元在表示过程中的交互关联特征基于复杂混合神经网络的模型则是利用不同双线性模型单层网络或其它门控相关网络等方法以挖掘论元之间的深层交互特征另外部分模型采用网络框架构建论元之间的交互关联性然而此类方法未能有效抽取篇章关系的特定模式此外认知学相关理论表明根据不同的阅读目标人们会选取不同的阅读策略进而抽取不同的线索信息这里在判断两个文本片段的语义关系时人们一般会对其进行前后多次查看在提高其阅读流畅度的同时找出相关的线索以加深文本理解从而确定篇章关系具体如例所示一般地将以斜体表示以粗体表示如果仅通过单次阅读关注具有对比情感极性的词对该论元对可能被错误地识别为比较关系而通过前后多次反复阅读查找整体论元信息能够推断其正确的偶然关系同时发现该过程中论元之间的交互是非对称的即和两个方向所关注的信息是不同的例源于此阅读策略的启发我们提出一种新颖的隐式篇章关系识别模型具体来讲我们侧重在表示阶段建模论元之间非对称的交互关联设计交互注意力机制以得到具有交互特性的论元表示针对识别过程中交互模式的有效筛选我们采用张量神经网络抽取论元之间丰富的语义关联特征并加入稀疏约束以过滤冗余或噪声信息从而获取特定的篇章关系模式以辅助任务识别本文主要贡献如下从人们双向阅读策略的认知角度建模篇章论元从交互模式的稀疏性角度挖掘关系特征将两者融入一个新颖的隐式篇章关系识别框架中利用进行篇章论元编码建模动态交互注意力机制自动计算论元之间的双向注意力向量得到具有非对称语境交互感知的论元表示采用张量神经网络在更高维度上捕获丰富的关系特征并在训练过程中加入稀疏约束从而筛选出更具有指示性的交互模式以提升识别性能本文第节综合分析和总结了相关工作第节详细论述本文提出的基于语境交互感知和模式筛选的隐式篇章关系识别方法第节介绍实验数据的准备模型评估方法以及对比实验设置第节给出实验结果的分析和讨论第节进行总结和展望相关工作自年发布人工标注的英文篇章关系语料库以来涌现出大量篇章关系研究相关的工作从传统机器学习方法到目前的深度神经网络模型传统方法包括基于语言学特征规则的和基于概率统计等不同方法期郭凤羽等基于语境交互感知和模式筛选的隐式篇章关系识别例如等人构建了相关词法句法特征引入情感词极性动词短语长度动词类型等特征识别篇章关系类型等人在的工作基础上构建论元的句法树和依存句法树等特征以改善其模型的识别性能等人使用布朗聚类词对等语言特征进一步提高隐式篇章关系识别能力但此类方法过于依赖人工标注的表层语言特征和所总结的语言规则存在数据稀疏性问题且难以捕捉篇章丰富的语义信息而深度神经网络将论元对中的单词进行分布式表示得到论元的向量表征进而可在高维空间中体现论元之间的相关性从而有效地识别篇章关系其中与本文相关的工作有以下几个方面篇章论元表示篇章论元的有效表示是隐式篇章关系识别任务的首要条件大多神经网络模型的前提是将论元表征为低维连续稠密向量等人首次将论元的表层语言特征进行词向量编码以改善模型识别性能继而在年利用句法分析和共指实体等语言特征以增强论元表示等人通过分析各个篇章关系的语言特性信息并将其编码为复杂的特征作为论元的语义表示然而这类研究单独编码论元没能反映出表示过程中需要关注的重点信息针对存在的问题研究者们将注意力或门机制整合到神经网络模型中以捕获篇章论元的核心特征如等人提出一种层级注意力机制用以捕获不同粒度上的重要语义信息但这些方法未考虑在表示过程中两者之间的交互关联线索论元间交互模式的挖掘在获得篇章论元重要信息的基础上大量工作聚焦于如何利用复杂神经网络的方法挖掘论元间丰富的交互模式特征等人设计了新颖的门机制相关的深度神经网络模型通过门控来组合双线性模型和单层网络以捕获更多的交互模式等人计算论元中所有单词对的线性关系和二次关系以体现论元之间的交互特征等人利用基于注意力的神经网络捕获论元间的交互特征同时使用多任务学习模型抽取辅任务中无标注数据的相关特征将其作为关联知识以增强主任务中论元表示从而提升识别性能等人认为论元不能独立于段落或其相关段落级结构来理解从而设计段落级神经网络以获取论元之间的相互依赖关系之间的连续性和关系模式此外注意到张量神经网络能够有效地建模数据的多重关系并在自然语言处理的不同任务中得到成功验证如实体关系抽取中文分词和情感分析等在隐式篇章关系识别中等人将张量层融合到多视角框架以捕获更高维度的交互特征但他们并未区分所获取的交互关系特征中存在的冗余或噪声信息忽略了交互模式的稀疏特性尽管已有研究通过稀疏正则化过滤冗余权重来获取紧凑神经网络但由于仅修正了网络结构未针对任务本身特性进行改善因此交互模式中冗余或噪声信息仍未得到有效解决认知理论的启发篇章理解属于人工智能中的认知智能人们理解篇章含义和语义关系的认知行为给本文任务带来了新的启发研究者们从认知角度分析模拟人们的阅读行为从而建模各自的任务等人的研究展示了人们大脑如何存储和唤醒记忆等人在等人工作基础上构建语义记忆单元以分布式形式存储篇章的相关知识辅助篇章关系识别等人则设计多层注意力机制模拟反复阅读策略挖掘可判断篇章关系的特定词汇以辅助识别隐式篇章关系等人将最初编码所得的论元表示作为指导模仿多次阅读过程动态获得论元的关键线索以达到逐步深入理解篇章语义的目的综上前人工作在论元表示阶段未考虑论元之间非对称的语义关联特性在关系识别阶段未区分所获取的交互关系的稀疏特性实际阅读过程中两个论元在不同的阅读顺序中具有不同的语义信息而该信息在篇章关系识别过程中可能会产生不同的语义关系特征即论元之间的交互信息是非对称的本文将从这两个角度深入探索以建模交互感知的论元表示和稀疏关系模式筛选从而改善隐式篇章关系的识别性能研究框架本文将隐式篇章关系识别任务形式化为多分类问题本节首先给出模型的整体框架如图所示主要包括两大部分语境交互感知的论元表示实现保留论元自身上下文信息的同时建模论元间非对称的交互信息表示稀疏交互模式筛选获取论元对不同层面的关系特征其中在模型训练过程中实现了对关系特征稀疏特性的处理下面将详细介绍模型中的各个部分计算机学报年图基于语境交互感知和模式筛选的隐式篇章关系识别框架语境交互感知的论元表示如何有效编码篇章论元是篇章关系识别任务的核心之一虽然许多深度神经网络模型能够编码篇章论元但大多为单独建模两个论元无法获取丰富的语义特征同时源于认知相关理论的启发考虑到人们的阅读策略即通过前后文查看并寻找篇章的重要线索进而判断具体的篇章关系其中不同的阅读顺序从前向后从后向前可能关注到不同的篇章焦点线索帮助关系的决策而且前后方向的篇章线索也是非对称的因此我们需要从两个方向建模论元之间的非对称语义信息嵌入层数据或特征的分布式表示是神经网络建模的前提为了利用神经网络编码两个论元我们将论元中原始单词的独热编码转换为分布式表示嵌入层可以看作是一个简单的映射层通过查找表操作索引实现单词嵌入以捕捉单词的内在属性我们将词汇表中的每个单词与向量表示相关联起来其中是词向量的维度每个论元被视为词向量序列表示为其中分别是中第个单词和中第个单词则是句子长度基本论元表示考虑到循环神经网络适合建模序列化数据但存在梯度消失或爆炸且难以处理长距离依赖问题因此我们采用长短期记忆网络建模篇章论元给定论元中词向量表示通过式进行每个位置上状态序列计算其中向量分别表示在位置处输入门遗忘门输出门记忆单元和隐藏状态和是网络中相对应的权重和偏置表示激活函数表示元素级乘法运算具体来讲输入门控制当前输入哪部分被存储遗忘门控制所保留的历史信息输出门决定有多少信息作为输出由于仅考虑到单一方向序列的历史信息而未来语境信息也有助于序列建模故我们采用编码篇章论元分别从前向和反向编码输入序列可以捕获历史和未来的上下文信息从而得到位置上的两个表示前向隐藏状态和反向隐藏状态然后将两者连接起来得到中间表示同理给定论元对得到其中每个单词的中间表示进而获取其整体表示显然通过基本编码所得的两个论元表示之间没有任何关联也就是说即使两者之间存在篇章关系目前却是相互独立的为了充分挖掘论元表示阶段中二者之间的语义关联我们探索一种期郭凤羽等基于语境交互感知和模式筛选的隐式篇章关系识别新的论元表示语境交互感知的注意力机制针对前向和后向论元阅读的不对称语义信息我们设计两种注意力机制静态交互注意力根据论元中所有词对信息手动构建论元之间的关联矩阵动态交互注意力在建模过程中通过参数更新而自动学习到相应的非对称关联矩阵静态交互注意力首先我们通过内积操作构建篇章论元之间的交互联系利用式计算论元对中所有词对的语义联系从而建立关联矩阵矩阵中每个元素体现了中第个词和中第个词的关联性得分其中和分别是的中间表示其次针对中每个词我们在矩阵中进行逐列以获得对应上的概率分布同样地采用逐行以得到考虑中每个词时所对应上的如以下公式所示其中表示中第个词在位置上的注意力值表示中第个词在位置上的注意力值我们将称作在位置上的的注意力是的注意力这一过程的注意力向量是根据计算所得故称为静态注意力如图所示图整合静态注意力机制的论元表示然后通过论元对的整体交互信息来表征其语义联系我们对和分别进行平均操作得到两个论元各自的注意力值最后整合论元相应的注意力值到由所编码的论元表示中得到蕴含有论元对的非对称关联特征和上下文信息的最新论元表示然而这里的静态交互注意力向量是根据编码论元的中间状态所产生具有一定的局限性不能够捕获更多论元之间所隐含的关系特征为此我们设计面向篇章关系的动态注意力机制以深入挖掘论元之间的关联性下面将给出详细的阐述动态交互注意力动态交互注意力关注输入的论元对使其中一个论元的语义信息在某种程度上会影响另一个论元的语义表示计算反之亦然其主要思路是根据产生的两个论元的中间状态进行相关联特征的度量由模型自动学到其注意力向量如图的表示阶段示意正如前面所述我们得到两个论元对应的表示矩阵然后通过计算式学习到关联矩阵其中作为由神经网络所学习的参数矩阵通过从均匀分布中随机采样来初始化并在模型训练过程中进行参数更新我们使用作为激活函数而矩阵的元素是列向量和相关性得分即篇章论元之间单词对的隐藏向量的对齐得分之后我们分别沿着横向和纵向对进行池化操作以生成重要的特征向量其形式化为式与根据实验验证表明平均池化的效果比最大池化更好故我们采用平均池化操作其中解释为关于的中第单词上下文的重要性得分是关于的中第单词上下文的重要性得分继而我们得到两个论元对应的池化向量计算机学报年然后利用函数将向量和概率化分别得到注意力向量和其具体的每个元素由式和计算所得最后可得融合论元间交互信息和上下文语境的新论元表示和此表示学习过程在一定程度上反映了人们的双向阅读策略需要注意的是本文模型选择动态注意力机制以自动学习出论元之间更丰富的关联特征基于张量神经网络的论元交互模式挖掘不同篇章关系存在其自身特定的关系特征这些特征由论元之间的交互模式所体现可以隐含地标识出篇章关系然而如何捕获有效的交互模式是篇章关系识别的关键所在一般衡量论元之间的交互模式方法有双向性模型和单层网络等其中双线性模型通过特定关系这里指论元之间的语义关联关系的双线性形式简单且有效地结合两个向量之间的强线性交互具体如式所示其中仅有参数但其不能获取非线性交互特征单层网络通过标准非线性操作隐式地连接两个论元捕获其非线性交互被定义为其中是一个标准非线性函数是隐藏层的大小但其以论元之间的弱交互信息为代价未能挖掘丰富的交互特征张量神经网络通过整合双线性模型和单层网络可以捕获更高维度中的线性和非线性交互信息同时等人利用代替标准神经网络直接计算两个实体向量在多个维度上关联得分进行实体关系推理以证实的有效性与其相似本文旨在建模两个篇章论元之间的语义关系因此我们利用挖掘论元之间深层次的语义交互特征以促进隐式篇章关系识别张量是一种描述向量标量或其它高维表征各自间关系的几何对象参考前人工作我们采用三阶张量直接建模论元之间的语义连接关系如式所示其中是标准非线性函数表示由个矩阵构成的张量反映了两个论元之间的二维交互式中表示双线性张量项计算可得向量而的元素是根据对应的张量片计算所得其等效于个双线性模型同时捕获篇章论元之间的线性交互关联在模型训练过程中也是在均匀分布中随机采样得到初始值通过模型训练进行参数更新随着的增加模型的参数和计算难度也随之增加因此选择合适数目的张量片十分重要其它参数是标准形式神经网络的参数具体设置在实验部分进行介绍这里每个张量片均可看作为一个特征抽取器以抽取论元之间复杂的语义连接特征稀疏交互模式筛选和篇章关系识别由张量神经网络所输出的复杂关系矩阵体现了两个篇章论元之间的语义关系得分我们将其视为关系特征重新转换为向量将其作为多层感知器的输入具体地将转换的向量输入到全连接隐藏层得到更加抽象的表示然后连接到输出层利用函数计算不同关系类别的概率从而得到最终的识别结果给定包含个任务实例分别表示一个论元对及其关系标签我们采用交叉熵损失来评估预测关系表示真实关系的程度定义为其中表示第个标签的预测概率是篇章关系类别的数量经过动态注意力增强论元表示张量神经网络捕获论元间不同方面的语义交互关联特征然而并非所有交互关联征都是有效的可能存在一些影响系统性能的冗余或噪声交互信息也就是说高维度的关系特征具有稀疏性一般情况下机器学习方法通过规则项来约束模型使其具有一定特性例如期郭凤羽等基于语境交互感知和模式筛选的隐式篇章关系识别稀疏低秩或平滑等规则项可以是模型参数的范数不同范数的选择对参数的约束效用也不一样其中和范数可以实现稀疏约束前者是指向量中非零元素的个数后者是指向量中元素的绝对值之和然而对的求解是一个难问题研究者们大多采用其最优凸近似来进行求解以稀疏化相应的参数因此我们选取稀疏规则算子以实现张量抽取特征的稀疏性为了移除不相关交互特征利用对张量项进行约束使每个张量片中大部分值为从而筛选出具有指示性的交互模式另外利用正则化避免模型过拟合的问题具体训练目标为其中是关于参数的正则化项包含两部分见式是张量片的参数是模型中其它参数特别地是对张量片的稀疏约束为了获取各个方面的重要值正则化项在处不可微故而为了最小化目标函数我们采用近端梯度下降法将目标优化为平滑和非平滑项的组合具体计算如式所示其他其中是近似数学操作是软阈值方法表示学习率实验准备实验数据近年来不同架构的篇章语料构建使篇章级相关研究受到越来越多研究者的关注宾州篇章树库于年发布是目前规模最大的英文篇章关系语料库其借鉴篇章词汇化树形连接语法理论从华尔街日报的篇文章中标注了个篇章关系该篇章关系被定义为一个级层次意义结构最上层是类别第二层是类型第三层是子类型本文仅针对第一层的四大类隐式篇章语义关系进行识别即比较关系偶然关系扩展关系和时序关系其实例分别对应如例所示例其中比较关系一般是突显两种情况的差异偶然关系主要描述论元之间主观或客观的影响扩展关系是涵盖扩大的论元论述范围并推动其叙述向前发展的语义关系时序关系是反映论元之间在时间上的关联特性这些篇章关系中没有显式的语言线索且可能存在歧义表述导致其识别的难度增加与前人工作一致我们选用语料中小章作为训练集小章作为测试集小章作为验证集注意扩展关系的数据设置遵循了等人的方法未将实体关系关系合并作为扩展关系表给出了数据在各个隐式篇章关系中的分布情况表中隐式篇章关系数据统计关系类型训练集验证集测试集比较关系偶然关系扩展关系时序关系总数为了与目前篇章关系识别的先进模型进行比较我们采用两种实验设置多元分类即四分类四个独立二分类前者用于评估模计算机学报年型的整体性能符合任务本身四个关系的真实设置后者评估单一关系的二分类性能即单一关系为正例其它关系均为负例可在一定程度上解决语料不平衡的问题在二分类中除了扩展关系之外其它关系数量较少故每个关系的训练数据均使用相同数量的正例和负例负例从相应的集合中随机选择同时验证集和测试集不作改变保持自身的自然状态参数设置在本文模型训练过程我们首先对语料进行预处理例如将语料中的单词均转换为小写等我们使用预训练的词嵌入表示并尝试其不同维度的向量表示最终选择维度为的词向量如果预训练的词向量中未出现当前单词则该单词由均匀分布随机初始化而生成向量表示每个论元的长度被设置或填充为同时参照已有研究通过比较不同的中间层表示长度的实验结果且选择将其设置为其它参数从均匀分布中随机初始化生成为了保证实验结果的稳定性我们在模型训练过程中取次结果的平均值进而使用简单网格搜索算法进行参数选择根据在验证集上的调整确定模型最终参数部分超参的设置如表所示表模型中部分超参设置超参数数值初始化学习率大小张量片的数量评估方法为了有效评估本文模型对四种隐式篇章关系的识别性能我们采用篇章关系识别中通用的评测标准值和精确率其中值是准确率和召回率的调和均值可以更好地衡量模型性能对比实验设计对比模型为了验证本文所提模型的有效性我们从篇章论元表示交互模式挖掘和认知启发三个方面选择以下与本文相关的具有代表性的系统作为对比模型篇章论元表示采用递归神经网络建模论元的句法分析树并沿树状结构得到实体表示将论元与实体组合作为最终论元表示提出一种堆叠式神经网络模型包括卷积神经网络获取不同粒度局部特征协同门控网络特征控制重要信息的比重以辅助篇章关系识别注意尽管在一定程度上其捕获论元之间交互特征但从模型整体分析本文认为其主要体现了论元表示的建模详细分析四类关系的语言特性总结其独特语义特征和衔接手段即主题连续性和归因信息针对性通过建模这些语言特征作为论元的语义表示采用朴素贝叶斯分类器进行隐式篇章关系的识别论元之间交互特征设计门控相关的神经网络模型以便捕获篇章论元中单词对之间的线性和非线性语义交互使用池化操作选择最具信息性的交互特征采用简单的神经网络模型识别隐式篇章关系将词向量加权平均作为论元表示计算论元中词对的交互得分作为论元之间交互特征在利用基于注意力机制的神经网络学习论元表示的同时考虑两个论元的交互并采用多任务学习从辅任务中获取标注及未标注语料的相关知识将篇章语言单元由从句扩大到段落引入一种段落级神经网络以建模论元之间的相互依赖性篇章关系的连续性并预测段落中论元之间语义关系的顺序认知角度受人们理解篇章语义的启发构建语义记忆网络其中浅层编码器学习论元的表示语义编码器进一步建模论元的深层语义特征并利用注意力检索出最相关特征通过设计基于多层注意力的神经网络模型来模仿人们反复阅读策略选择识别隐式篇章关系过程中可能关注的词汇信息注意本文参照其论文设置选取层和层注意力需要说明的是文中选用的代表性系统模型为直接引用原始论文中的结果由于所有模型都是遵循相同语料和数据划分因此具有可比性消融模型分别编码两个论元将两者的表示期郭凤羽等基于语境交互感知和模式筛选的隐式篇章关系识别直接拼接起来作为后续全连接隐藏层的输入之后用进行篇章关系分类弥补了的不足采用两个保留历史和未来上下文信息如小节所述以更好地建模论元对静态构建论元对的交互关联矩阵整合注意力向量于论元表示见式改进了的单一性由模型自动学习到论元对之间的交互关联性将其融入到基础论元表示中具体见式在编码论元后利用张量神经网络来捕捉不同方面的丰富的语义关联特征融合和张量神经网络采用池化操作从丰富的交互特征中选择前个重要关系模式特征与相似和张量层相结合池化操作选择前个重要关系模式特征实验结果与分析本节首先给出模型对比系统和消融模型分别在四分类和二分类上各自的实验结果然后通过对比分析探讨本文模型的优缺点最后对模型的主要模块进行分析验证与对比模型的比较表展示了对比系统及本文模型在四分类任务上的实验结果通过观察可以得到以下结论整体上侧重篇章论元表示的系统的性能低于侧重论元间交互特征的和受认知理论启发的方法导致这种现象的原因可能是侧重篇章论元表示的系统对论元的独立并行编码忽略了论元之间的关联特性另外与侧重论元间交互的方法相比认知理论启发的系统尽管从人类阅读角度设计模型但其值并未得到明显的提升这可能是因为其焦点均集中于论元各自的重要信息而未探索这些信息之间的关联性而恰好这些关联信息在一定程度上可以反映出语义关系本文模型则在考虑论元交互式表示的同时挖掘论元对之间的语义交互关系取得了比其它系统好的结果其中模型自动学习到交互感知的新颖论元表示取得了更高的性能具体来讲作为侧重篇章论元表示的方法代表其识别性能最低其他两类中和获得了较好的精确率表明通过深入挖掘篇章中重要线索扩大篇章语言单元的粒度均能够增强篇章论元的理解以改善隐式篇章关系的识别性能而的精确率都稍高于其原因可能是篇章本身核心线索的指示作用高于更大语言粒度的语义表示利用注意力机制捕获许多重要特性信息的同时过多的注意力层会产生更多参数从而导致过拟合问题的值高于的而精确率却低于在和精确率方面的性能均超过这些结果也在一定程度上反映了原因的可能性值得注意的是与在和精确率上取得最高值的和相比本文模型的值和精确率均获得了提升特别是精确率比高了这可能是论元之间非对称的双向交互表示和稀疏关系模式选择的共同作用从而有效地提升了隐式篇章关系识别性能表各个系统在四分类任务上的性能模型注未列出系统模型表明没有获取该项结果和分别表示层层注意力关于二分类表给出各个模型在四个关系上的性能结果通过观察可以得到以下结论在四大类关系中所有模型在时序关系上的值均最低其原因可能是时序关系在语料库中所占的比例最小仅有而随着不同关系类别中实例数量的增加其值也随之上升这表明语料的规模大小对隐式篇章关系的识别是至关重要的本文模型在扩展关系识别上取得了最好性能其中的原因可能有两个方面扩展关系实例中可能存在一些容易混淆的词对通过非对称交互注意力的编码而获得不同信息对于复杂的论元对需要进一步加深理解从而捕获具有指示性和交互特性的关系特征模型则能有效融合这两个方面偶然关系方面虽然未取得最好性计算机学报年能其值低于的但也取得了与可比较的结果这可能是因为利用辅任务添加了未标注数据的相关特征作为知识扩大了语料库增强了论元的表示即不仅考虑到篇章内部语义还引入了相关知识另外和均与本文工作十分相关不同的是我们在表示层面加入交互感知以及训练过程加入稀疏约束这可能是取得更好性能的原因分别获得了和的改善在比较关系上得到了最优性能其值超过模型的这是由于针对语料进行详细分析发现了篇章关系的独特语义信息主题连续性和归因的论元衔接手段这些特征能够反映各个关系的特定模式从其他三类关系的结果也表现这一现象然而其需要复杂的特征工程进行描述不具有强泛化能力特别是时序关系由于实例数量较少不能有效获取其特征导致性能较低表各个系统在二分类任务上的性能模型比较偶然扩展时序与消融模型的比较设计消融模型以验证中动态注意力机制张量神经网络及其稀疏约束的有效性实验结果见表所示针对二分类我们得到以下结论表首先给出了和模型实验结果作为基线方法其中在四类关系上的实验性能均较差虽然保留了历史和未来上下文信息优于仅存储历史信息的但结果却并未得到很高的提升其原因可能是这两个方法对论元的编码都是独立并行的没有从任务本质出发从而设计具有篇章特征的编码方法与和相比基于注意力机制的方法实现了更好的性能特别地的值在比较偶然和时序三个关系上分别比提高了这表明通过建立论元对中所有词对的关联以描述论元之间的交互特性能够获取特定的语义关系线索改善篇章关系识别的性能而则在比较扩展关系上取得了更大的改进即分别高于模型达这证明交互感知的论元表示有助于隐式篇章关系识别且由动态注意力机制捕获的非对称双向关联特征更加丰富优于以词对为基础所构建的静态注意力矩阵注意我们对实验结果进行了显著性检验表明其在单侧检验中均显著此外模型在整体上取得了与不相上下的实验性能这种现象说明张量层所挖掘的丰富且复杂的交互关系特征对该任务是有效的和模型比前两类方法的性能都更好这意味着交互感知的表示学习和丰富关系模式的融合可以更好地改善篇章关系识别的结果其中在四类关系上的实验性能比均略有提升这表明神经网络动态学习的注意力向量可能包含更多不同方面的信息然而在各个关系上的性能均低于本文模型导致这一结果的原因是前者利用池化操作选取前个重要特征无法保证从全局角度可得到有效的重要交互模式而在的基础上增加了对张量项的稀疏约束从而筛选出更具有指示性的交互关系模式另外也表明注意力机制张量神经网络及其稀疏约束的融合有效提高了隐式篇章关系识别性能表消融模型在数据上的实验性能模型二分类比较关系偶然关系扩展关系时序关系四分类期郭凤羽等基于语境交互感知和模式筛选的隐式篇章关系识别与此同时观察发现消融模型四分类结果趋势与二分类基本一致证明了各模块的有效性不同组件对模型性能的影响在模型中动态交互注意力机制和张量神经网络均可改善隐式篇章关系的识别本小节将对两者分别进行详细地讨论分析动态交互注意力机制的影响为了直观地理解两个篇章论元之间的交互关联性我们对前文中例进行可视化表示如图所示其中展示了三个模型相应的交互关联矩阵仅用融入静态注意力机制和融入动态注意力机制图中两个论元中词对所对应位置的背景颜色呈现了其相关性颜色越深则表明所对应的词对的相关性越强图中的三个子图充分展示了上述例子所描述的现象具体分析图中词对获得了较高的相关性得分而其它词对的得分显得十分随机这表明仅用模型可能受到语料库中词对频率的影响即和这些词经常在语料库中共存故得分会相对较高同时图中没有反映出一些关联性较强的词对信息图作为对比观察发现其存在更多较高得分的词对其中一些并未在图中出现这表明交互注意力在一定程度上捕获了论元之间的关联特征进一步图更好地显示了其关联信息即与和相关联的词对得分比图较为平均可能意味其语义理解范围更加广泛这有助于加深对篇章的理解从而准确推断其隐式的篇章关系图不同方法所获取的篇章论元之间关联性张量片数量的影响张量神经网络探究了多个维度上两个向量的关联性其多个维度是由张量片的数量所体现故我们分析了张量片不同数量对四类隐式篇章关系识别的影响即在模型张量层中设置不同大小的张量片得到其在四种关系上对应的值注意当片数为时其直接退化为一个简单的单层网络模型图不同数量的张量片对四类关系的影响从图可知随着张量片数量的增加在四类关系上的值均有所提升这表明复杂的张量层能够捕获更多表征论元之间交互模式的特征然而张量片的增加可能会使模型待学习参数变多消耗更多计算资源延长其计算时间还可能导致模型过拟合因此通过实验分析我们在模型中选择张量片数为保证合理计算的同时获得有效的识别性能总结与展望本文抓住隐式篇章关系的主要挑战受认知科学相关理论启发提出了基于语境交互感知和模式筛选的隐式篇章关系识别方法以便更好地理解篇章论元和选择重要交互模式进行高效识别通过设计动态交互注意力机制以刻画论元间双向非对称的内在关联也就是将人们的双向阅读策略通过自动学习建模到融合语境交互感知的论元表示中由于识别过程中隐含的篇章论元认知交互具有海量和稀疏特性本文采用带有稀疏约束的张量神经网络挖掘具有篇章关系指示性的有效交互模计算机学报年式从而提升模型的识别性能在语料库上的实验结果显示了论元之间双向非对称的交互感知信息和稀疏模式筛选的有效性与此同时我们分析了张量神经网络中不同数量的张量片对模型性能的影响同时采用实例分析展示了交互注意力机制的特点进一步表明了各模块对隐式篇章关系识别的促进作用然而本文工作也存在一些问题尽管模型可以筛选出更具有指示性的交互模式但其不具有可解释性这也是神经网络模型面临的主要困难之一模型仅仅关注于篇章论元间的关联性信息忽略了更广范围的篇章语境信息因此未来研究工作中我们将尽可能探索指示性模式的可解释性建模更高层级篇章单元例如句群段落之间的关系或利用外部关联知识来增强篇章语义理解实现更准确的隐式篇章关系识别致谢衷心感谢各位审稿专家对本文工作的指导！参考文献奚雪峰孙庆英周国栋面向意图性的篇章话题结构分析研究与展望计算机学报期郭凤羽等基于语境交互感知和模式筛选的隐式篇章关系识别计算机学报年期郭凤羽等基于语境交互感知和模式筛选的隐式篇章关系识别

[返回]

上一篇：第五届中国科协优秀科技论文遴选计划入选论文
下一篇：基于非凸的全变分和低秩混合正则化的图像去模糊模型和算法