融合语义信息与问题关键信息的多阶段注意力答案选取模型_张仰森 |
来源:一起赢论文网 日期:2021-12-11 浏览数:955 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第44 卷 第3 期2021 年3 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No. 3Mar. 2021融合语义信息与问题关键信息的多阶段注意力答案选取模型张仰森”王 胜”魏文杰”彭媛媛2)郑 佳2)1 :)(北京信息科技大学智能信息处理研究所 北京 10 0101)2)( 中国科学院软件研究所 北京 100190)摘 要 自动问答系统可以帮助人们快速从海量文本中提取出有效信息, 而答案选取作为其中的关键一步, 在很大程度上影响着自动问答系统的性能. 针对现有答案选择模型中答案关键信息捕获不准确的问题, 本文提出了一种融合语义信息与问题关键信息的多阶段注意力答案选取模型. 该方法首先利用双向LSTM模型分别对问题和候选答案进行语义表示; 然后采用问题的关键信息, 包括问题类型和问题中心词, 利用注意力机制对候选答案集合进行信息增强, 筛选TopK个候选答案; 然后采用问题的语义信息, 再次利用注意力机制对TopK个候选答案集合进行信息增强, 筛选出最佳答案. 通过分阶段地将问题的关键信息和语义信息与候选答案的语义表示相结合, 有效提高了对候选答案关键信息的捕获能力, 从而提升了答案选取系统的性能. 在三个数据集上对本文所提出的模型进行验证, 相较已知同类最好模型, 最高性能提升达1. 95 %.关键词 答案选取; 语义信息; 关键信息; 相似度计算; 多阶段注意力机制中图法分类号TP391DOI号10. 1 189 7/SP.J. 101 6. 2021 .00491AnAnswerSelecti onModelBasedonMulti-StageAttentionMechanismwithCombinati onofSemanticInformationandKeyInformationoftheQuestionZHANGYangSen15WANGSheng1)WEIWenJi e1)PENGYuanYuan2)ZHENGJi a2)1:){ InsL iL uL e ofInL el ligenLInformationProcessing?BeijingInformationSci enceandTechnologyUniversity^Beijing100 10 1)2) { Insi i iuieofSoft ware?Chinese AcademyofSci ence?Beijing100190)AbstractWi ththerapi ddevel opmentofInternettechnology,theamountoftexti nformati oni nthenetworki ncreasesexponential l y,hencepeopl eusual l yusesomesearchengi nestoretrievetherequiredi nformati onfrommassdata. Asearchengi necanberegardedasaspecialquesti onansweri ngsystem. Whenaquestionisgi ven, thegeneralprocessingflowoftheautomaticquesti onansweri ngsystemisasfol lows:first ,thesystemanal yzesthequestiontoobtaini tstype,semanti csandotherrel evanti nformati on;then,sel ectacandi dateanswersetfromtheanswerdatabaseaccordingtotheanal ysisresul ts;fi nal l y,thesystemwil lrearrangethecandi datesetwithvari oussortingtechniquesandsel ectthebestanswerorthetextwiththebestanswertoreturntotheuser. Thefl owshowsthatthesel ecti oneffectofthebestanswerwil ldirectl yaffecttheoveral lperformanceoftheautomaticquestionansweri ngsystem. Traditi onalanswersel ecti onmodel susual l yusel exi cal orsyntacti canal ysi sandartifi ci alconstructingfeaturetosel ectanswers,whi chisdifficul ttocapturethesemanticassociationi nformationbetweenquesti onsandcandi dateanswers. Withthedevel opmentofdeepl earni ngtechnol ogy,researchersappl i edthedeep收稿日期:20 19 12 25; 在线发布日期:2020 05 26. 本课题得到国家自然科学基金(61772081) 资助. 张仰森, 博士, 教授, 中国计算机学会( CCF) 杰出会员, 主要研究领域为自然语言处理、 人工智能. Email : zhangyangsen@163. com. 王 胜, 硕士研究生, 主要研究方向为自然语言处理.魏文杰, 硕士研究生, 主要研究方向为自然语言处理.彭媛媛, 硕士, 工程师, 主要研究方向为自然语言处理.郑 佳, 硕士, 工程师, 主要研究方向为自然语言处理.492 计 算机 学 报 2021年l earni ngframeworki ntotheanswersel ecti ngtask,usetheneuralnetworkmodel toobtai nthesemanticassociati oni nformationofthequestionandthecandi dateanswer,andeval uatethematchi ngassociati ondegreebetweenthem,thensel ecttheanswerwi ththestrongestmatchi ngrelati onshipasthebestanswer.Becausethesel ectionofanswersdependsentirel yonthei nformati oncarriedi nthequesti on,researchersoftengenerateattenti onvectorfromthequesti onsemantici nformati ontoupdatethesemanti crepresentati onofthecandi dateanswers.Al thoughthi skindofattenti onmodel canstrengthenthesemanticrel ati onshipbetweenthequesti onandthecandi dateanswer,i tignorestherel ationshipofkeyi nformati onbetweenthem,therefore,theeffecti venessofsuchmodel si saffected. Fordifferenttypesofquestions,theconcernedcontenti nbestanswersisoftendi fferent.Forexampl e,whenaski ngti me rel atedquesti ons,thebestanswershoul dbemorefocusedonthekeyi nformati onoftimeorthei nformati onwi thstrongtimesemanti cassociati on;whenaski ngweather rel atedquestions, thebestanswershoul dpaymoreattenti ontothekeyi nformati onrelatedtoweather.Al so,theexistingattenti onbasedanswersel ecti onmethodsoftenestabli shthemodelofquesti onsandanswersatthesamestage,whi chi snoteasytocapturethedi fferencesbetweenthevari ouscandi dateanswers.Tosol vetheprobl emthattheanswerkeyi nformati oncaptureisnotaccurateintheexisti nganswerselecti onmodel,thispaperproposesananswersel ectionmodelbasedonamul tistageattenti onmechanismwithacombi nati onofsemantici nformati onandkeyi nformati onofthequesti on.Firstl y,thismethodusesabidi recti onalLSTMmodeltorepresentquesti onsandcandi dateanswerssemanti cal ly.Thenthekeyi nformati onofthequesti on,i ncl udingthetypeofquestionandtheheadwordofthequesti on,isusedtoenhancethei nformati onofthecandi dateanswerbyattenti onmechani sm,andtheTopKcandi dateanswersaresel ected. Fi nal ly, theattenti onmechani smwi thsemanti ci nformati onofthequesti onisusedagai ntoenhancethei nformati onoftheTopKcandi dateanswersettosel ectthebestanswer. Bycombi ni ngthekeyi nformati onandsemantici nformati onofthequesti ontoenhancethesemanti crepresentati onofthecandi dateansweri nmul ti stages,theabil i tytocapturethekeyinformati onofcandi dateanswersiseffecti vel yimproved,andtheperformanceoftheanswersel ecti onsystemi si mproved.Theexperi mentalresul tsonthreedatasetsshowthatthehighestperformanceimprovementisupto1.95%comparedwiththeotherstateoftheartmodels.Keywordsanswersel ecti on;semantici nformati on;keyinformati on;si mil aritycomputi ng;mul ti stageattenti onmechani smi 引 言随着互联网技术的快速发展, 网络中的文本信息量呈指数级增长, 成为了人们获取信息的重要来源, 因此, 利用搜索引擎从海量信息中检索出所需的信息成为了人们获取信息的主要方式. 然而, 现有搜索引擎的检索策略大多是基于字符串匹配的, 缺乏从语义角度挖掘知识的能力, 导致搜索到的结果精度差, 冗余度高[1], 还需要用户从大规模搜索结果中进一步理解和筛选才能够获取到真正需要的信息,这与用户快速准确获得信息的需求还有一定的差距. 随着文本处理与理解技术的快速发展和广泛应用, 能够更好地满足用户需要的智能问答技术也逐步成熟, 并催生了一批智能助手的问世, 例如小米公司的小爱、 苹果公司的Sru微软公司的小冰等. 这些智能助手与传统的搜索引擎相比, 更贴近用户的实际需求, 他们都力求从语义层面分析用户的问题,精准定位用户的意图, 从而快速、 有效、 准确地为用户提供所需的信息.当给定一个问题时, 自动问答系统一般的处理流程如下: 首先, 分析问题以获取问题的类型、 语义张仰森等: 融合语义信息与问题关键信息的多阶段注意力答案选取模型 49 33 期等相关信息; 然后, 依据分析结果在数据集中筛选出候选答案集合; 最后在候选集合中采用各种排序技术进行重排, 筛选出最佳答案或含有最佳答案的文本返回给用户. 因此, 最佳答案的选取效果将直接影响到自动问答系统的整体性能, 优化最佳答案的选取策略可以有效地提升自动问答系统为用户服务的能力. 本文将围绕该问题展开深人研究, 以进一步提升最佳答案的选取效果.传统的答案选取模型[ 2 ]大多利用词法或句法分析以及人工构造特征的方法来选取答案, 这类方法较难捕捉到问题与候选答案之间的语义关联信息.随着深度学习技术的发展, 研究者们将深度学习框架引人到答案选取任务中来, 利用神经网络模型获取问题和候选答案的语义关联信息, 并对它们之间的匹配关联程度进行评估, 进而选取匹配关系最强的答案作为最佳答案.由于答案的选取完全依赖于问题所传递的信息, 因此, 在基于深度学习的答案选取模型中, 研究者们往往会利用问题的语义信息生成注意力向量, 以此来更新候选答案的语义表示, 优化问题与候选答案之间匹配关系的评估效果. 这类引人注意力的模型虽然能够强化问题与候选答案之间语义关联的程度, 但是在一定程度上忽略了两者之间关键信息的联系, 从而影响其问题和答案的建模效果.因为对于不同类型的问题, 其最佳答案中关注的内容往往有所不同, 例如询问时间相关的问题时, 其最佳答案表示中应更注重于表示时间的关键信息或者与时间语义关联较强的信息; 询问天气相关的问题时, 其最佳答案应更注重于表示天气相关的关键信息或者与天气关联较强的信息. 另外, 现有的基于注意力的答案选取模型往往将问题和答案的建模放在同一阶段进行, 这对从多个候选答案中选取一个最佳答案的答案选取任务来说, 不容易捕捉到答案相互之间的差异.针对现有答案选取模型的以上问题, 本文在语义注意力的基础上, 提出了一种融合语义信息与问题关键信息的多阶段注意力答案选取模型( Mul tiStageAttenti onAnswerSel ectionModelCombi ni ngSemanticInformati onandKeyInformati onoftheQuesti on, MSAASwi thKI SI) , 分阶段地将问题的关键信息和问题的语义信息以注意力机制的方式对候选答案进行信息增强, 以增加对候选答案中的关键信息的捕获能力, 解决在问题和答案的建模过程中, 对候选答案关键信息捕获不足的问题, 以此来提升答案的选取效果.2 相关工作2. 1 答案选取相关工作答案选取是自动问答技术的关键技术之一, 其相关技术也可以用于文本理解、信息检索、智能服务等多个领域. 针对自动问答系统中的答案选取问题,以往的研究者们通常将其视为分类任务和相似度计算任务两种类型的问题进行解决. 基于分类的答案选取任务是依据问题与候选答案之间的关联关系,将候选答案分到正确或错误类别, 将正确类别中的答案作为最佳答案. 基于相似度计算的答案选取任务是通过计算问题与候选答案之间的相似度, 选取相似度最高的答案作为最佳答案. 为了能够有效提升答案选取的效果, 大多研究学者都致力于研究问题与候选答案之间相关关系的表示, 主要的研究工作可分为两个阶段: 第一阶段是基于语言学知识和特征工程的答案选取方法, 第二阶段是基于深度学习的答案选取方法.基于语言学知识和特征工程的答案选取方法主要是结合外部资源对问题、候选答案进行词法、句法分析进而选取答案. 例如Surdeanu等人[ 3 ]提取了问题与候选答案的词频、 词语之间的相似度等多种特征对候选答案进行排序, 从而选出最佳答案. Yi h 等人[4]利用WordNet 来获取问题和候选答案的语义特征, 以改进候选答案的排序效果. Tymoshenko 等人[ 5 ]对问题和答案的句法结构、语义结构进行分析,并利用YAGO、DBpedia 和WordNet 等知识库挖掘候选答案中与问题匹配的信息, 最终实现答案段落的排序. 虽然这些答案选取方法都能捕捉到问题与候选答案之间的匹配关系, 但是它们性能的好坏与提取特征的质量、采用的外部资源有很大关系, 同时在实际的运用过程中, 也需要一定的领域知识和较高的人工成本.随着深度学习的发展, 神经网络模型逐渐被引人到答案选取任务中并成为主流方法. 例如Feng等人[ 6 ]利用CNN模型分别对问题和候选答案进行语义表示, 然后采用余弦相似度、GeometricmeanofEucli deanandSigmoi dDotproduct( GESD) 和Ari thmeti cmeanofEucl i deanandSigmoi dDotproducKAESD) 三种方法对问题和候选答案的语义表示向量进行相似度计算, 最后选取相似度最高的答案作为最佳答案, 实验表明利用GESD的相似度计算方法取得了最好的效果. Guo等人[ 7]利用余弦494 计 算机 学 报 2021年相似度的计算方法对问题与候选答案中词语之间的相似度进行评估, 然后将词语之间的相似程度和词语的词向量一同输人到SklpCNN模型中, 分别获取问题和候选答案的语义表示向量, 最后将二者的语义表示向量进行拼接, 利用Softmax对候选答案进行分类以选取问题的最佳答案. Tan等人[8]采用BiLSTM对问题和候选答案进行语义编码, 然后将问题的语义作为注意力对候选答案的编码进行加权更新, 最后取相似度最高的候选答案作为最佳答案. 相比于基于语言学知识和特征工程的答案选取方法, 基于深度学习的方法减少了对领域知识和外部因素的依赖, 具有较强的通用性. 此外,这类方法能够在语义层面学习问题和候选答案之间的语义匹配关系, 使得答案选取效果有了明显的提升.在上述研究中, 虽然已有的方法将词频、词语相似度等词级别的特征引人到了候选答案的语义表示中, 但是对候选答案中的关键信息以及问题与候选答案之间的关联关系的捕捉能力有限.因此本文在语义信息的基础上, 试图融人问题关键信息, 提出了一种融合语义信息与问题关键信息的多阶段注意力答案选取模型, 提升候选答案中关键信息的捕获能力, 优化候选答案的语义表示, 从而更加全面地捕捉问题与候选答案之间的关联关系, 以此来提升答案选取的准确率.2. 2 注意力机制相关工作注意力机制[ 9 ]可以抽象为针对性地提高数据中特定位置的关注度, 注意力机制最早被应用于图像领域, 用以关注重点区域的重点信息. Bahdanau等人[ 1 °]最早将注意力机制引人到NLP任务中, 尝试在机器翻译过程中将目标端的输出与源端的输人进行对齐, 从而提升机器翻译的效果%1 2]. 随后根据不同任务提出了各种注意力机制, 例如Cheng等人[ 1 3 ]在机器阅读任务中提出了单向的自注意力机制, 用以学习当前词语与句中前面部分词语之间的相关性; Vaswam等人[1 4]对注意力机制进行了改进, 拋弃了传统的RNN结构并提出完全基于自注意力机制的Transformer 模型, 解决了数据计算无法并行化的问题, 极大地提高了计算效率; He 等人[1 5]和Yu等人 发现在推荐任务中, 注意力机制可以有效地捕捉用户长期兴趣与短期兴趣, 提高推荐系统的准确性.在问答系统以及答案选取任务中, Tan等人[ 8 ]基于Bi LSTM+CNN的架构, 采用注意力机制分别对问题和候选答案进行语义表示, 并采用余弦相似度进行融合, 证明了仅引人字级别的自注意力机制的模型就能起到很好的效果; Bachrach 等人[17]提出了一种针对答案选取任务的新注意力机制, 该方法将问题语义和候选答案词频特征相结合共同加强候选答案中关键词在语义表示中的权重, 使候选答案的语义表示向量更加准确, 从而提升了答案选取任务的性能; Xu等人[ 1 8 ]提出了一种基于门组自注意力( GatedGroupSelfAttenti on,GGSA) 的答案选取模型, 该模型很好地解决了全局注意力和局部注意力不能被很好区分的问题?现有注意力机制在答案选取任务中的运用大多采用问题的信息对答案进行注意力增强, 从而将问题和答案的建模放在同一阶段进行, 这不利于从多个维度对候选答案的关键信息进行捕获, 从而导致对于多个候选答案之间差异性的捕获能力有限. 为提升多维度信息的捕获能力, Chen等人[19]在阅读理解任务中提出了一种两阶段的通用框架, 首先使用经过tHdf 与bigram结合的检索方法找到与问题相关的文章, 其次通过特征工程对段落及问题进行编码, 构建阅读理解模型从文章段落中找到对应的答案, 最终在多任务集上使用远程监督的方法提高了计算性能. Hao等人[ 2 °]在问答任务中提出了一种基于端到端的问答网络模型, 主要利用交叉注意力机制对问题和答案进行互相关注.一方面利用答案信息强化问题的语义表示; 另一方面利用问题信息对答案进行不同的关注. 同时, 通过将外部知识库信息引人到Embeddi ng 中, 缓解了未登录词的问题, 使模型更有效地表示了问题和答案, 提高了端到端模型的实验性能.因此, 本文将问题语义信息和问题关键信息分为多个阶段对候选答案进行信息增强, 以此来加强模型对候选答案关键信息的捕获能力, 提升对类似答案之间差异的判断能力.3 方 法自动问答系统的答案选取过程可以形式化为如下形式: 给定问题Q, 在相应的候选答案集合{A:,A2 ,…, 中寻找与问题Q最匹配的答案即最佳答案{乂1^1 ^31:£ {1, 2 ,--,2;} }, 其中,2; 为候选答案的个数. 本文将答案选取任务分为两个部分: 问题与候选答案的相关度计算和最佳答案的选取. 对于问题与候选答案的相关度计算部分, 在问题语义信息关联关系的基础上引人问题关键信息, 包括问题类型寒仰麟t 難合潛爾裏与真 6!錄段灣鑛麵取儀塑 49 5 3 期和问题中心词两个维度. 构建了一种融合语义信息与问题关键 息的多阶段注意为答案选取樓塵b对于问题最!隹答案的选取<利用问题与候选笞寒之间的相关度,选出相关度最高的答寒作为壕隹窖案,其中相关度采用问题和候选笞案的语义编码向量齡余弦相似度进行计箕》3. 1 答案选取的基础模型答案选取的基础模型的主要架构如S1 所示,主要由问逮与候选答案的谞义表示鳥、语义抽象层和相关度计箕, 裏组成?QA國: I 问轉导__截_萬费眞_糢遨(1.) 语义表示: &? 利用阿题和候选答案所包含词语僖息的词向■, 分别对何题和候选答案进行语义表示, 瘍; 到问題的鼙置表示QCfSv, w%*…,I。) 和鏡潘罄纂的辕夂表拳, …,_中%事%分别为问题和候选答案的词语个数, %,,£分别为问题的第:e 个爾谙的词向量和候选笞案的第y个词语的词向童>且词向量的维度为A(2) 语义抽象&釆用Bi LSTM+Pooli ng对输人的问题和候逸答案= 语义表示的上下文进行语义编码, 分别得到问题和候途:答案的语义表示 ̄和/>.C3) 昶关度计算建* 利用余弦相似度计算何题和答案的请义表示 ̄和 之间的相似度S0A作为问题和答案的相关泰度的度量.这一基础模盡只是勝问蘧和候选答案之间"的语义信息进行相似度计算,但暴諸于问题而言,它在与候选答案进行相似度计箕时; 更政望候选答案中与问题相关的鄧分占有更高的权重i与何题不柜关部分tSsf較低前杈:鍵*3.2 基于问题语义信息注意力的信息增强模型逋过语义表示层和语义抽象层/V获问题的语义表示_:量?, 这一向量_全育地包含了问题能上下文语义像息,利用问題的语夂表示,采. 用注拿力机制. 对候选答案的语义倩息迸行增強d吏得候选答案中与问题相关度较高的部分所占权蜜更高* 以此来构建候选答案针对当前何题语义信息的袠示, 进而提升候选答寒与何题语义的相关性? 塞于问题语义猜鳥注意力的會息增强模型的框架如揭2所示.图2 基于丨'<廳键龙 法鵞 惠壇3i:框: 架:甚于问题语义信息注倉力的信息增致主裏利用问题的语义信息 ̄对候选答案的LSTM输出进行注意力加权更新? 强化候选笞■案中与问题有关的部分?在LSTM中s, 对每一时刻言点的正向输出<与反向输出 进行拼摻;>: 得到语义編礙/、, /^同时包含3前时刻的上文曾息%下文債息? 钽合LSTM各个財刻的输出* 得到问题的语义编码矩阵M〇=[\, 九《2,*. ?,&]T=[<^-,4?2,4]?S中 为LSTM梟开的时间步数w为L紅M隐藏单元个数的.2倍. 对问题的谞义編码矩阵迸行压If, 樽到问题的谮义信息 如式(1)所示.rQ=[maxCrf^^>maxCrf^)<? ■■I]f1)輝理将:霄寒的每一时刻的LStl 座 和苽_输出拼接得到每一时刻的候选答案的语义编码\,将rQ与 进行余弦相似度计算将计算结果作为rQ对 的_驗权重 算公式如'式⑵所示.利用 对LSTM每一时刻隐; 藏:单元的输出\迸行加权更新,4十算公式如式(1) 所示.h< ii ( 3)将加权后的<作为最狻每个时刻的输出,3.3 基于问题关键信息注意力的信息增强模型本文采用问題类型和中心词作为问题的关键信息. 利用注意力机制对候选答案进行信息增强.43i 计導机攀报: _1苹S.3. 1碁予何题类灣的关键信息 意力问题类型对候选答案的选取有十分重要的指导作用, 对侍同一个候选答案, 不同类型的问题对候选窖案中的关注点有所不同, 例如对T表1 所示的候选窖案,当提问&Whendoanautoinsurancepremi umgoup?”时, 候选答案中希望更加关注于“nextrenewalperiod”和“monthlyquarterlysemiannual lyannual ly”等表示时间的词语; 当提问“ Whichfactorsaffecttheautoi nsurancepremi um?”时, 候选答案会更希望关注于“acti vi tyorclai mticketandaccident”等表示实物的词语.表1候选答案示例yourautoinsurancepremiumwilltypicallynotchangeuntilyournextrenewalperi oddependingonyourpaymenttermthistypicallycanbemonthlyquarterlysemi annuallyannuallyyourpremiumbeaffectmanyfactortheprimaryfactorbeyouractivityorclaimticketandaccidentbethethingthat maycauseyourrateincreaseyourratecanalsobe affect manyotherthingasinsuranceratebetypical lydeterminetheamountofrisktheinsurancecompanybebear inthatmarket findout morecontactyourlocalagent and discussyourquestionaboutratewith themaseachstate,companyandpolicycanvarygreatly.p此, 我们对数据集中问题的类型和其最佳答案进行了分析, 总绪了7种阿题的类_以及.读.类型问题的特怔和常见时最佳答案类塑,如表2 所示表2 问题的类型、 特征及答案常见类型问题类型 问题特征 常见答案类型人物问句 以‘‘who、 whom、 whose”开头多为与人物相关的信息地点问句 以“where”开头多为与地点相关的信息时间问句 以“when”开头多为与时间相关的信息实物问句 以“what、 which” 开头多集中于表达实物类信息的部分数量问句以“howmuch、 howmany、 howlong、how old、howfar”开头多集中于表达量词信息的部分原因问句 以“why,how”开头多集中于描述原因及动作的部分其他问句 除以上六类以外多集中于陈述事实类的部分不同类_的甸癍对候选答案中关注的部分有所不同 参藤语义锫息増強的方法, 提取问题的类型,构建类葉的表示, 作齿一种注意力向量*引人到候选答案的语义信息表示申: 具体来说, 在模型初始化时, 为每一种问題类型分别锭定一个表示向量FQrs利用¥对候选答案的LSTM输出迸行注意力加权更新, 强化候选答案中与问龜类埜有关的部分? 计算流程为, 将答案的每一时刻的LSTM诋向和反向输出拼接得到每一时刻的候?选答案的语义编码 . 利用与, 式C2〉相同的方法将VqrifTi进行相似度计算,魯到%r对h的关ft秘重 ? 再歡通过与式⑶梅同的方法, 利用了^私对LS..TM每一时刻隐藏单元的输出\进行加权更新, 即可籍到最终每一时刻的输出. 随着模塑的迭代训练, 即可获得问题类塑对应的语义信息, 进而强化候选答案中与何题类型有关部分的权重_基乎甸题中心甸的关猶信鼻雜羃力当候选輕案中#在多个与何题类型相关的钵分时; 仅采用问题类型迸行信息增强很难进行3JK例如瑪间題类塑为时间疑问句財. 候选瞽案中有多个表达时间信息的部分■问题类型对于候选答案的注意力将会分散到多个与时间相关的部分上; 当问.题类型为原因疑问句或判断疑问句时, 答案往往是一段话, 只.利用问题类型无法很好地加強候选答案对问邂关键信息的捕:获能力.针对上述问题< 本文通过5丨 人问题 心诃的概: 念:,以此来觀太候豫簦棄文本中,何趨主蓮雜关的葡舉蕾占的扠重,两时_小不植关的词语所占的权重.本文将问考T中條够M映句子主養:信息的屬词: 或动词作为问题的中心Mt2 1 2 2l? 例如何句“Doesl i feinsurance: yeguire努credi tcheck?%它所:表迪酣蕾息3;S-| i["r6quire"\"l ifeinfiaran:ce'^^fl'^creditduck"MlH^Whend?anautoi naurancspremi umgoup?', 它所表达的信息爾主要由“goup,,、wautoinsurailefipremi um,,|^3il,对于问题的中心词, 利用依存句:法分析来莸取,如间匈“HowdoIapplyforMe’climre, i nTTexgs?'%通过依存句法分析,可?得到如图3 所示的结果.图3 河: #'的椒存句楼费析其中,uftPPly”为主要动词, 则提取其作为问'题的主赛參词wo_rrfY. 如果w〇r<iF 的主.或:禽费海名_或名饲: 短语, 提取主语和宾捂作为主要名爾torJaH再顧次: 提職遺憂■词的修葬成费爾 到成分中的翁词麵加到主要名: 词word#中 主要:动飼和名词构成何题的中心词, 下文用head泰示, 另外,费旬法分析无法提取其主要魂珂.. 刺寘接通过珂性>过滤停甩词后提取其中心词.因此 ,為的个数可能为多个. 如在图3 中,apply”的主语为 宾语为“Medi woe”, 因为主语“1”为人称代词,本是名飼或名寒仰麟t 難合潛爾裏与真 6!錄段灣鑛麵取儀塑 49 7 3撰坷短语, 故不将其作为主要名词^而卖语“Medicare”为名词, 故将其作为主要名词,同时"Texas”又作为名飼修饰“Medkar#, 因此,“Texs#也作为生雾翁词? 所以, 國3 轉旬中的: 中心轉_合为{apply,MedieareiXixas)s其_,中心讀爾为apply¥中』〇*名S3S. Medicare.Texas}.在得到何题的中心词后, 将中心词对应的词向量集合的向量表示作为中心词的注意力向量=(死…其中,Z 为问句中心词的个数,采用vQw对候选眷案正向LSTM的输出冗和、反向L8TM的输出X:拼接后拍输出4进行加权笼新, 具体来说,将集脅V#中的每个词向量分别和A, 进行相似度计算, 然后将其中的最大值作为问题中心鲟的注鴦力时量在 上的权重表示功, 计算方法如式⑷所示.vt—max{ cossi nC/i^?( 4)利用A, 采用类似于式(3) 的方式对心进行加权更新s 得到/ 財刻I的表示A:. 依次采用爵样的方式对候选答案每一时刻的表:示进行加权更新>即得到基于问龜中心M注意力的信息増强表示.3.4 融合语义信息与问题关键信息的多阶段注意力答案选取模型为了充分利用何题的语义價息和关键谬息对候选答案迸行信息增强, 本文构建了融合语义信慕与问题关鍵信息的'多阶段注鴦力答案选取模型? 具体来说,虫要利用问题的相关信息, 果. 用B! 意力机制>分为两个阶段对候选答案进行f息増強. 例如问题“HowdoI.applyforMedicarei nTTe絲5?”,其雜选窖案集合为 ,…, 4J? 首先使用式Cl》计算得到问题的语义表示 其次开始抽取间题的关键信息; 该问题以“ How”开头, 寅此问題类型为原因类塑!■ 苘时提取闾句的中心佩集合.! apply,isfedi care,Texas}?其中, 问题类型注意力如方模型初始化时为每种类型随机歡定的向量,问题中心鲟往意力集合为v釋=|s:, ¥sj*si、 sf、 ss分刴为'*%pp:ly’’、“ MedicaW TTexas1" '对应的齋义_量? 乘爾3.3''节所述的方法.利租注:意力机制对候选答案的语义表:示进行问題关键',息谓強, 构重候选答案针对当前?网徽类雜鲁息的费叉秦示、。 拽3问题的语义表示r0进行相关度计算* 依据相关度排摩讀ji 靡:街前々31:彳 Hi2为纖前儀选答案集合. 最后》将问題的谙义信息?作为注鴦力向量; 采甩3.2 节所述言法, 再次利用迕意力机制对筛选扭的候遍答繁集合试彳,我,…,★)■进行语义僧息增强,构建当前候选答案针对问题语义信息. 的.义_承? &=与“2,? ?*#馬》, 与_题的语义表示ra: 迸行相关度计算, 依据相关度排序后, 即得到最优的候选_案'{起mI best6:C〖i , 6? 具体的模型:框寒商姐蘭4所示.语义信息Q,0VS8〇〇?〇一^055^800,為>M〇〇〇〇I-to〇〇〇^:>^〇〇〇〇lj145〇〇一yOQ〇q#〇〇o〇lQ图4融合语义信息与问题关键信息的多阶段注意力答案选取模型498 计導机攀报: _1苹在对问题的语文表薪和候选答案的语义表示进行相关度计算时, 采用如式C2)余弦相似度的方法计?算两着;t间的枏关度答案选取模型期望达到的效果基^当'模型的输人为阿題的最佳答案时, 应该枣可能大; 当模型输人为何题猶季■樓眷蠢財sS&1 虛讓■可能小, 因此, 在对模型训练过程中, 每一轮同时输人问题2、最隹答案A+和_最佳答案A'然后分别计算问题与最儀籍案和李最德答案的相关. 獄 和茂a-,再釆用式Cfi) 所示的HingeLo涵函数作为■损失函数对模型迸行训雜.loss—max{0—(Sqa+—Sqa ̄) }( 5)眞:中,当5?+—S,;^働r 时说赠奠型餘够很好地区分最佳答案和非最佳答案, 当 5^-<施r时, 此时隹型不能很野地K分芷确答案与错误答案,需要调整模: 型参数进行迭代计算. mar 具体的取值将在4,3 节实.验参数设釐部分进行说明.对于非最佳答案A 的选取,为了提升模型的学习能力, 在训练的过程中, 选取全部何题的候选答案中除晕隹簪案A+之外的最隹答案作为 的值,具体如式(《) 所示A-=argma^<: S^.KA, ^1+.0</ <%??')(:6)其中# 为训漆数据棠合中所有间蘧候选窖案的总数.4 实验与分析4. 1 实验数据集为了验证本文提出模型的有效性, 本文选择在InauranoeQA^^sTREGQAWiki QA数据集上设计实验并分析,以验证本文模型的t效性.4.1.1InsjiranceQ入數縛舉InSuraiiCeQA数擁盡. 遍;一个来自保险领域的专业数据集, 由Feng等人[ 6 1枸建, 数据集中的所有问题都是来启现实世界寘实甩户的提问*问题的答案一般比较长. 数据集共包括四都分, 分别为训练集、验ilE集测试#1、测试集L共有17487 个问题和24 助1 个答案? 数据集的详细数量信息如_3 所示,其中. Q-A为问题的平均长度, AA为答案的平均长度? InsuranreQA数据集的评价指标采用最隹答案的准确率户@1 进行评价.表3InsunmceQA问题与答案数量分布_觀Q-AA-A.娜繼12 SS7185, ?7. 1595. 61翁爾義 撤_1测雜2USB18001800145426;1纖37. 167. 16K1,?95. 5495. 5495. 54除此之外, 本太还对数据集的间M类谨分布进行统计; 统计结果如图5 所示. 从图中可以看出, 在训练巢、验证集、 测试集1 和测试集2 中各类问题的问題类型分布基本一致, 其中占比最高的为其他问句, 实物问句的所占比例也明显较商占比最少的为地点轉想.4.1.2TRECQA 数据集TREC-QA数据集起滬于国鼠文本裣素会议fTRECI的问'答任务, 任务.面向开放领域, 且多为基于事实的小文本片段. 该数据集的训练集TRAIN为原始标驻缴据, 每年发布一版,Wang等人 靖理所有的抓练集后, 得到了TRAIN-ALL训练集, 达到了较髙的数据质營! 扁来学者对验证集与_试燊也进行了瘡■, 得到了CLEANDEV与CLEANTTESTr, _#t: ^|^,||:B:TrRAIN-ALL、 eLEANDEVifCiLEAN^CEST迸行犧型: 的训雜验SL数磨集的具体翁識、 如餐4 所示 中Questi on为丨每题个数, Pairs为飼题-嘗寒对的个数, Q-A为问顧潍警均长度 A为答案的平均长度?表4TREC-QA问题与答案数量分布Question Pai rs Q-A A-ATRAIN 94 47 18 11.3 24.6TRAIN-ALL 1229 534 17 8.327. 7CLEAN-DEV 65 1117 8. 024. 9CLEAN-TEST 68 14 42 8.6 25.6同样,本文还对该数据集的问蓮鸯盡分布进行统计分析, 统计结果如虜6所示, 从S中可以. 发满隹TfiA裏ALL、 CLEAN-DEV和'eLEANTTEST申',寒仰麟t 難合潛爾裏与真 6!錄段灣鑛麵取儀塑 49 9 議 期各獎问题的问题类型分布基本一致, 其中占比最高的为裏:物问甸,.占Ifc最少的为其他问镇=在该数捃梟中,一□个向題通常对应多个正确笞案, 繞要尽可能将疋确答案排名靠前?因此, 诙数据集的性能评价揞标采用MAP与MRi? , 其中MAP_示所有正_答案的平均得分, 如式(??所示.MAP=2amiPiq^(7:)^Quesq^Que¥_中,_示與遮_合, 风祕:翁示问蘧的藝数,P( 表示正_答案排序位萱的得分, a狹( P( g表示该间题対应所有芷确答案排序位璧的平均得分,MAP鲁分越高, Jif全部正确答案的排名越靠前、MRi?表示何题对应的第一个正确答案的平均得分, 其计算公式如式⑧所示.M勝Aq G Que s1rankq(8)其中, QM?j?康示问题覷#sJNfs??表累何题的总数,示第」-Is正确餐案的排翁, MRi? 拇身魏禽,则第一个结果越可能为正确答案.4.1.3Wi ki QA数据集Wiki-QA是一个开放域何题回答的数据集, 梁用Bing查询日志作为问题頫, 每个问题都链接到一个可能有齊案的维基百科页面,采用维塞W科页面的掎荽作为候选餐寒? 然后采用众包的方式进行数据标ft/数据集的具体債息如表5 所示, 其中Qu&rton为闻题个数, v細s谭ei?为麗案个数, QA为'问题的平均长度, AA为答案的平均长度. Wi ki QA数据集也是一个何题对应多个正确答案, 因此同样采用MAP与MRi? 作为性能评价指标.表5VWM-QA问题与答案数量分布Question Answer Q-A A-ATrain873 18 821 6.36 25.5 1Dev126 11196.72 24.59Test243 23096.42 25.33同样t本文还对数据集的问题的类型分布迸行统计, 统计M果如图7 所示, 从图中可以发规在TTram、Dey和Test 中的何題纖纖分霜碁李一截, 其中占比最高为实物阿句, 占比最办、为原因问句.4. 2实验对比模型本文的主要对比褸麵如下:Bag-〇f-Wordra?该養Sl_|f向顧和餐选眷秦筒■的IDF权重对爾语的掘: 魔量■=行加权求和, 榻建:问题和候选答案的特征向量表示?? 采用拿弦相似度计算坷题甜輕案特征商餐的相似度? 该模塑是乘用传统方式进行答案选择的代表模型.AttentionbasedBi-LSTM1 ? ? 调靈_截用BtLSTM对阿题和候选答案迸行语义编码, 将问题的语义作为注意力'对候选答案的编码进行更新, 最_使用余弦相似度:进行相似度计算? 廣模型是较早將Attention机制引人到答案选择的方法,lARNN-Gat#4 3?慘業處将德霉为,息加人到GRU故每个门涵数中, 构建了基于RNN的门控法意力单元,以此来构建问题和候选答案的特征向營表示,菜用GESD进行相似度计算.Multihop-Sequentia丨-LSTMt2 5 ]? 儀模麵乘眉:动态记忆网络(DMN. S) 对问题和答案迸行建模, 采用了多种注意: 力机制, 进行迭代的法意力操作, 构建向题和候选答案的特征向量表示, 采用余弦相似度进行相似度计算.TransformerwithHardNfegativesP6]? 该.模; 戴: 采-用TTransforiifer 对M题'和餐_进行建:律*并利用HardM:嗦aii v.热的方武途取负例#本峯用■余弦相似度进行相似度计算、BERT-Attention?] ? 渗橇塵:采 BE1T_SS: 对问题和答案进行建模>并构逢了基于问题语义的注意力机制? 来用余弦相似度进行相似度计算,HAS〔2 7]? 恢稹塾_架梅与BERTT Attenti on襄似, 但是采用了Hashi ng机制对候选答案的编码进行存储, 避免实时在线计箅., 有效降低了针算时间%500 计導机攀报: _1苹0.8200.8050.7900. 775,0. 760'0. 745上性能儀好贈 值作海_酱的取值, 具体来说.在IimuranceQA_磨寒、TTREG-QA数擠拿和WikiQA数据亀上的取懷分别为6.18VQ,1名和0?It.坩乎本文釆用的是多阶段的模型, 第一阶段的选擇个数々 对于镆_的性能有窘一萣的巌响, 在三个数据集的验证集上, 性能随&值的变化趋势如Hi. 所示.计算资源.Multi-CastAttentionNetworks^?_ 燦模處来,用參种Attention和Pt?l ing机制对间韻和候选答案进行编码和交互? 采用分类方法判断候选答案是否为雜答案,QuestionClassification-DeepLearning^2 9]. 懷權型融合问题分类、实体识别、实体强化和深度举习的方法对问龜和候选答案进#编码和.交互,?实现最隹答案的选择.RE2[ 3 °]? 该模型主要'鞭穷序列间对齐的关键特■: 的幾取. 栂虛了原始H对齐眷性、先前对齐; 特性和上下文特性, 对问题和候选答寒编码和交互, 实现最隹答案的选#.Comp-CHp+LM+LCf3 1].读犧製通过潜在聚类的方式挖掘: 文: 本中的附加詹JU实现文字中的信息: 聚合, 从面增强对问題和答案的編码效果,实现?最佳答案的选取.4. 3实验参数设置本文采用深度攀习框架P/Torch 对相关模型迸行编碍实现, 并在UbuntulU*〇4 峯统上_用GPU(;reslaP1W)进抒壤麗的训练和调试. 義書後过程中, 采用词向豐的维度大小设置为抑〇, 对宁模型中各个参数的设眘, 本文采用Hyperopt 库进行分布式参数调节* 获取模型的最优参数集合, 具体的选取敏舉为?_雇的维度为SOCUmi ni-bsteh 的大小设鸳为I6, 优化函数采用Adam, 学习率Zf 设囂为0.001.针对损失函数中war 值的选取, 在各个数据集的验证亀上性能随其取值变化如圈8所示.我们发现_r取值:过小和过大審会对標型在对候选答案的正负例的判断能力产生影响, 进商影响最终候选奪龛的选取能力, 最终我扪选取验1E集0.7300.715'M图P 性能随:《 值蜜你眞势图我们可以发现, 在不词的数据集中* 随着平均正确笞案个数的增?加4的最隹取值明显增大S其中InstmmceQA酸证集的正_答案个数为1 个,Wi ki QA验证集上平均正确答案个数为2.03,TRECQA验证集上平均正确答案个数为3.153.同样选取验证集上性能最好的& 值作为最终的取攝具体辛说*?Insxtrantj’eQA■数場 _、 Wi kiQA数据集和TEEOQA数搪集上的取後分别为4v7和11.钟对中心词的抽取策略, 本文探究了否定副饲、方位介词的抽取对性儒的參晌.數湯食中:否窠_1轉'及方位介词的分布如表6 所示1其中,PP代表何题中存:在方位介词的句子个数, N'A表示何题中参在—定副爾的旬: 子个数, Question_示间氣的藤个数. 从表中可以看出S 否:定副诃在问题中出现的次数膂遍较低, 方位介词占比则较多. 以TREC-QA数据集为例做了寒验对比, 实验效果如表7 所示其中厂SAASwithKI(he〇豪:翁单魏添加何顯中办爾注意方模趣:, SAASwithKI(hea4)+PP+NA表示在上述镆型基础上增加了方泣介词与否定副词的抽取.表6 方位介词与否定副词的数量分布PP NA QuestionInsuranceQA 22 608 17487TREC-QA 326 4 13 62Wiki-QA 2 602 1242-a- InsuranceQA-P@l- - ---aTRECQA-MAP^WikiQA-MAP/a-.—_二r ……Cfm/I@cf张仰森等: 融合语义信息与问题关键信息的多阶段注意力答案选取模型 5013 期表7 方位介词与否定副词的实验对比结果model ACC MAP MRRSAASwithKl ( head)79. 41 76. 24 86. 09SAASwithKI ( head) +PP+NA 79. 41 76. 31 85. 63由实验可知, 中心词选取过程中增加否定副词及方位介词对实验性能的影响甚微.因此, 本文将问句中能够反映句子主要信息的名词或动词作为问题的中心词.4. 4 实验结果及分析按照相关数据集的实验流程和评测指标, 本文分别对InsuranceQA数据集、 TRECQA数据集和WOnQA数据集进行了实验分析, 具体实验结果如表8、 表9 和表10 所示, 由于本文实验的数据集划分和实验流程完全按照各个数据的规范进行实验,因此, 表中显示的实验结果均来自于相关论文中报告的结果.表8InsuranceQA数据集实验对比结果mo delDevTest lBag〇f Word[6]3 1. 90 32. 10Att enti onbasedBi LSTMM 68. 90 69. 00I ARNNGat e[24 ]7 0. 0 0 70. 10Mult ihopSequent ial LSTM^25^70. 50TransformerwithHardNegatives^26 ^7 5. 7 0 75. 60BERTAt t ention^2 7^7 6. 12I I AS[2 7] 7 6. 38SAASwi thKISI7 6. 0 0 75. 28MSAASwit hKl SI ( type) 7 8. 60 78. 06MSAASwithKl SI ( head)7 8. 3 078. 33MSAASwit hKI SI (head+type)78. 70 77. 78表9TREC-QA数据集实验对比结果ModelAt tent ionbasedBi LSTM^ 8^IARNNGat e[24]MRRMult ihopSequent ial LSTM[25]Mult i CastAt t ent ionNetworks[28]QuestionClassificationDeepLearning^29^SAASwithKISIMSAASwit hKl SI (type)MSAASwit hKl SI ( head)MSAASwithKI SI ( head+type)9158,表10Wi ki-QA数据集实验对比结果ModelIARNNGat e[22]Mult ihopSequent ial LSTM[25]RE2[ 30]Comp Cl ip +LM+LC[31]BERTAtt ention^2 7^I I AS[2 7]SAASwithKISIMSAASwithKl SI (type)MSAASwit hKl SI ( head)MSAASwithKI SI ( head+type)76 90*4(TMRR其中, SAASwithKI SI 模型表示将问题的语义信息注意力和问题的关键信息注意力都添加在模型的第一阶段, 构建候选答案的三个语义表示, 然后对三个语义表示结果进行融合, 构建候选答案的语义表示与问题的语义表示, 并将二者进行交互选出最佳答案;MSAASwithKI SI 表示本文的融合问题关键信息和问题语义信息的多阶段注意力答案选取模型, 其中, MSAASwi thKI SI ( type) 表示第一阶段只采用问题类型作为问题关键信息进行信息增强, MSAASwi thKl SI( head) 表示第一阶段只采用问题中心词作为问题关键信息进行信息增强,MSAASwithKI SI( head+type) 表亦第一■阶段同时采用问题类型和问题中心词作为问题关键信息进行信息增强.在表8、 表9 和表10 中,”表亦显著性水平汐<0.05,“》”表示显著性水平f<0.01 , 本文显著性验证参考文献[32] 中的方法, 在测试集上, 采用1000 次有放回的抽样进行评估. 具体来说,InsuranceQA数据集是针对HAS 模型进行显著性检验的, TRECQA数据集是针对QuestionClassi ficati onDeepLearning模型进彳了了 显著性检验的, Wiki QA数据集是针对CompCl ip+LM+LC模型进行了显著性检验的. 从表可以看出, 相较于表中的对比模型, 本文模型的多项指标都有显著性提尚.根据表8、表9 和表10 中的结果, 从对问题和答案的编码方式来看, 可以发现Bagof Word模型远不如采用深度学习的编码方式, 这是由于Bag ofWord模型单纯地从词的角度分析, 未考虑文本的内容特征和其他关联特征. 从注意力的增加来看,添加了注意力机制的模型效果要明显优于不添加注意力机制模型的效果, 这是由于注意力机制加强了问题和答案的交互能力; 从注意力机制的添加方式来看, 采用selfattenti on 或者multi headselfattenti on的模型( Mul ti hopSequential LSTTM、TransformerwithHardNegati ves模型) 效果也要优于其他注意力添加方式; 另外, 基于BERT的模型(BERTAttenti on、HAS) , 相较于以往的模型, 取得了最佳的效果.在InsuranceQA数据集中, 相比于以往单个维度注意力的添加, 本文MSAASwi thSIKI 模型分阶段地融合了语义信息和问题关键信息两个维度的注意力, 取得了最好的效果, 证明了本文模型的有效性. 具体来说, 除了基于BERT的模型, 本文的502 计導机攀报: _1苹SAASwithKIST模型就表现出了明显的优势, 说明本文问题的语义傦息和间題关键倩息的信息谓强是有效果的; 在进一步将问题关键信息和问题语义偉息分阶段地进行倭. 息增强以Jt,MSAASwi thKI SI場型的性能也超过了基于BERT的模型,.表现出了最优的性能, 说明了:■本文构建调分阶段的信息增强方式是有效的?在TKEC-QA数据集中* 本文提出的MSAASwi thKP.SI (上e:ad+t: ype: 3__隹MRR猜标上取得的结果明显好于其他揍型, 在MAP指标上虽然浼有达到最优, 但也维持在比较. 高的性能. 同时, 在添加多阶段的往意力机制以后, 本文MSAASwithKI SI 模型的性能都是有所提升的. 也说明'了本文多阶段提型的有数性?对乎MAP指标稍微偏低的原'因可能是由f在TRECQA数据棠中', 有少■量拘麵输疋确#案个数比较多( 在训_亀1 搶備魏和测试集上, 量多的一个何题的正确答案个数分别为和均个数海和4.本文模型;在迸行分阶段筛选时, 若正确答案的个数超过了筛选的数1, 将有部分正确答案不能筛选到, 则在计算MAP指标时作为较低的#分处理* 队而导致map指标中的正确答案的平均得分普遍偏低.在Wi ki QA数■_中, 本文的M¥AASwithKI-sr(: heiid+type)模盧的性能蛊不如基于BERT的HAERAttenti on和 梟也观羅身于其他擦型, 也说明了本文樓型时有效牲. 对于本文模型性能不如文献[27]的两个模型的性能, 我们通过分析发现, 由于Wi ki QA数据集的何句采用Bing的搜素H志构_*相较于InsuranceQA数磨參和TREC-QA数据集而;言, 显得更加的随意, 其封法结构和语义结构也不够完#,由于BERT樓型采用了大规模语料进行预训练, 对于#正式语有的编码能力要比本文模型強, #致本文模型对于问题的编码不如基于BERT的模: 遒效果好, 从而在: 最终结果上要稍差一些.4.4. 1 间题语义和关键信息注意力性能分析为了验证本文模型中问题语^配意力和问题关;键信息注意力的引人对模型的性能的影响, 本文在三个数据葉上分别设量了六组对照实璩, 分别是丄1节靱述的基础瘵型(AS)、 只采用问蓮关键信息对候选答案进行第一阶段注意力增强选出梟隹答案W_(SAASwithKI) '.只茱甩问廳义侥息对候选答案进行第一阶段注意?力增强选出最佳答案的模讓fSAAS福1SD和MSAAS软ithKlrSl模麵? 其中, SAASwithKI模:塑包括SAASwitliKKt)、SAASwi thKI(;h) SlSAASwith应问題的关键?倩息单独采用问题类型、单独使用问题中心词以及同时采用问题. 类塵. 和中心词进行关键信息增强的模SL 具体的实验结果姐圈10、 图11 和爾12所:示.79787776757473727170-T1mI_缝讀1sI□ASsSA/0SA^sSAi□MSitldwwww:IththththwinpKIKIKISIthl!—1>kh)-SIvaltestltest2图11Ijiscastii aQA问题爾叉和襄_■■屬3意为性fSSf比jit,11TRS2 QA|f邏谮置賴桑職霜息■蠢为牲能对康國从画10、 圏11_圏12 可以■出 雜于三个数据集崔基础檬型上单独滚加问題?义信息和问题关键鲁息的注拿力对候选答案进行翁息增强, 相较于基础模型都有不同程度的性能提.升, 间. 题裔义信息的It意力信息增强性能提升的程度蘩大何题关俸息; 针对问题关键倩息, 添加问题平心词注賞力对性能的提升优于问题类型注意力; 词时, 在第一阶庚添加阿題关键?倩息的基础上, 在第二阶段再次添加寒仰麟t 難合潛爾裏与真 6!錄段灣鑛麵取儀塑 503 3 期问题语X信息>性能也有一定程度的提升. 这说明本文所构建的问題语义倩息和问题关键償息均对模盤性能的提升犛有帮助的.另外, 单独对比间龜类型、 问: 题中心词、 K題语义三种注意力对橼谨性能的影响(见模_SAASts'ithKI (t )jSAASwithKI( h)? SAASwithSI效果), 可以发现, 单独添加问题语义柱意力对模型效果的提升?巖为明S, 可能是问题的语义信息在一定: 程度上也包贪了问题类遨信息和问题的中心Mf息以茂一些其他f息 这也是在我们多盼段的樓型中将语义信息添加在第二阶段的原因之 ̄4.4.2 问题语义和关键儀息注意力可视化分析为了惠清楚地说明本文问題语义價息和关键信息-对午模型性能的影响, 我们从数据集: 中选取了一些问癍和'其候速答案, 输出了其各个爾语在各个阶段的权重表示*并进行了可视化分析, 如在:InSuranceQA数德: 集中, 谢于问, 顯:“Whenbethefi rstLif#Insw坪neepol i <jyi ft抑.f?'V首先进行第一阶段信息增强? 该问题为时间类型的问句》 抽取出的中轉乘'费为《first, LifeInsuraneftpol i cy#i ssxtsl1, 其最隹答案与排名第一和任一其他的非最桂輕案的语义表示. 在经过向题关键信息注意力増强后的谙义表示可视化为图■II、 5T14和圈15.the o ld li feI nsu ra ncethe res al t ersur viv ee vi de nceI n Lo nd onMr. Gybbonb eyea r pol i cyf romal d er manRi c hardMa r ti n andpas spay butaftersomelegal wr ang leMa r tinwinbefor eth etake ou t on Wi l l i amGybbo n on]Un e 8|fo r t h e c ity ofLon donh e buyae ndo f theyearatf i rstth e compa ny图13 最佳候选答案添加问题关键信息的语义表示可视化l ifeinsu ran cegoIntoyoupurchas ean ove ry quick ly asso onandmedical re corditeffectef fect afterthe f irstpremiumhavebepay andt he del ive ryrequire me nt have be si gnifex ampolicy t hecompa nymaydraf t thefirst premiuma ndthepol icymaygoIn t oeffecta sadayor2afterap pl yI fyouapp l yforapol icy t hat require e xamcant akea slonga s6mo nth thepr ocessbecomp let ea ndt he policy goint o图14 排名第一的非最佳候选答案添加问题关键信息的语义表示可视化di sa bi l i tyc la i mb ei nv estigate t h oroughly forl egiti macy orfr au dpr i ors i cknessori njury notdi sc l ose ca njeopar d i zeyou rcl ai meve ncon stitu t eo ut righ tfraudho wev erifyou rcl ai mbe l egiti mate most oft hed i sabi l itycompa ny i n t hema r ket payc lai mafterthepaper wor kan ddi s cove rype r i o dbeover_IS 襲他#翁||*爾答爾添難闻__11, : 的语_參可餐化其中? 最隹答案、排名第一的非最隹答案和任一其他非璩隹答案与阿题的柑似虔得分分别为14ESS、0?/3:_3 和一12SM.. 我们甸以食现. 廉倫翁:讀直接对问题所对应的产生时间及#景进行了阐述; 而排名第一的非最隹答案a然提到了时间倩息,但在语义方面,讲述的是保险生效时间* 与何题语义不符.同时我们还可以发现* 对于最佳候选答案, 在: 真语叉纖SK中1“ June18 , 158 3”、“1year”、**end”、“befof ^等与財同相关的词语和,? l ife’V* i nsuranc#、“policy“等与问题中心词语柑关的词1吾的权重爵弭显高f5其他■语的权重?菌对于泰最隹答案? 其枚: 篥分布相对比较分散,说明了添加问題的关键信息》对以让候. 选答案中与问题关键信息相关的词语权童加大, 蜜容易捕获候选答案中的关键情息. , 从而建立候选餐案Jf间题的联系, 证明了本文问题关键信息注倉:力的::有鱗接着. 在第一阶段关键信息增强的基础上进行第二阶段的信息增强r将?添加了问题语义信息的结果进 可视化, 其鑛^果如屬 画17 和画16 所:亦.fopwhi ch t here如surviveeviden cebetak eout onWill i amGybbonon june1 81 583i n London Mr. Gybbonb ea sal t eroffis har rdmeat fort hedty ofLondonhebuya1year pol i cyfromal dermanRi char dMart i nandpassawaybef oret h eendoft heyearal fi rst t hecompanyrefusepay butaf ter somel egal wrangleMarti nwi n图16 最佳候选答案添加问题语义信息的语义表示可视化504 计 算机 学 报 2021年图17 排名第一的非最佳候选答案添加问题语义信息的语义表示可视化disabi l it yclai mbeInvest i gatethoroughl y(orl egi t imacyor frau dpriorsickness orInjury notcon st i t ut eout right f raudhoweveri fyou rcl aimbel egit i mat emost of t hedi sabil i tyaf tert hepaper workan ddi scoveryper i odbeoverdiscl osecancompanytnjeopardizeyourI hec l aimeven_18; 霧雜孝翁 爾答爾添難问眞—夂11_语_齡可视化其中,M隹笞案、排名隼一的非最佳笞案和任一其他非最佳答案与何题的相似度得分分别为0. ?13、0.2M4 和一0.00奵. 对于最■候逸:答棄,在其涪义表示中. 与随题〗吾义相关. 的诃嵌或者句子的輕:重要明爲高于其他词语的权重, 如首句“theoldl ifei nsurant*policyfor…丨 对;宁:雜餐筆一■的非最律罄寒, 其主要权童也集: 中在与问题语义相关的开头,insurancegoi ntoefftetafttrthefirsfi ? ? ?"; M对于图18 中的非最佳答案? 其权重的分布相对比较分散, 虽然也有一些词裔校重较高, 但是也都不'是_常明M, 且与问題的语夂关联性不是太高?进一步证明了苹文问题窜夂信息注意力的有效性.4. 4.3 多阶段租意力引人性能分析为了验证模型将问题语义注篇力和关键信息注意力分多个阶段引人对模型性能的影响冰文在三个数据集4;设置T六组对藤实验》 分别是s.1 叙述的基础模 AS)sSAASwithKISI、第一、 二阶段分射采用问题语义信息和问题关键信息进行注意力增强选出. 最穩馨■的'模8KMSAASVrthSI KI:).tlMSAASwithI<I-SI::模塑*其中, MSAASwithSI-KI模靈:同-样包括MSAASwithSI-KI ( t) 、 MSAAS软ithSKKI(h)和MSAASwithSI-KICf&h), 分别对處舞蘿的关候醫息采用何巍类型s 时癍中心M、同时采用问M类盡和中心爾? 实雜猶系如爵19'、商節和幫21 所示厲.20TREe-Q:A多翁段注霉 性能对國B21Wi ki QA载脾段洼翥:力引入性能对此图从雇1§、經2〇 和經n可以詹.出 在三个数据集上相比于#闻一阶段加人多种注意力(SAASwithSIKI} 以及交换问题毎义注意力和问题关键信息注意力的添加顺序XMSAASwi thSI KI) , 本文的MSAASwithKI-SI 標型性能均迭. 到了纛优效果,说明了本文■出的分阶段注意力的方法的有效/ft*苹文的多阶段法意力机制踉人在做笞案选择任务时的思维方式是相似的, 当人在做笞案选取任务时,一般籴说会首先阅读■间題, 然后以问题中的一些关键信息. 对候选答案迸行初步地筛选邊着, 以问题中猶详细倩息与迦步筛: 选: 出来: 的答累进行进一步地对比, 从而选出最隹答案. 人类以关键.息进行初步筛途的过輕_可以看砟是MSAAS'withKI-SI:镇型张仰森等: 融合语义信息与问题关键信息的多阶段注意力答案选取模型 5053 期第一阶段以问题关键信息进行信息增强筛选答案的过程; 人类以问题中的详细信息进行进一步对比的过程就可以看作是MSAASwi thKI SI 模型第二阶段以问题语义信息进行信息增强筛选答案的过程, 因此本文的模型与人进行该任务的步骤是大致吻合.5 总 结本文提出了一种融合语义信息与问题关键信息的多阶段注意力答案选取模型, 分阶段地将问题的语义信息和关键信息通过注意力机制的方式对候选答案的语义表示进行信息增强, 加强了对候选答案中与问题相关的信息的建模能力, 增强了模型对候选答案关键信息的捕获能力, 从而有效提升了答案选取任务的性能; 同时, 在模型的训练过程中, 对于负样本的选取, 实时选取出最佳答案以外的最优答案作为负样本, 以对模型进行优化, 增强了模型的学习能力.通过在InsuranceQA、TTRECQA和Wi ki QA数据集上的相关实验, 本文的模型都表现出优越的性能,并在不使用大规模辅助语料的基础上, 在多个指标中超过了已知最好的同类模型.不过, 在以上的研究过程中, 我们主要集中在英文数据集上, 在未来的工作中我们将尝试对中文语料进行处理, 验证该模型是否具有普适性; 同时, 答案选取任务在具体的使用过程中与搜索引擎类似,一般需要进行实时在线计算, 对模型的时间性能要求较高, 在后续的工作中, 我们也将进一步优化模型的执行效率; 另外, 本文所提模型在最优答案较少的数据集(如InsuranceQA) 上的效果要明显好于有多个答案的数据集, 同时也表现在TRECQA和WUnQA数据集上的MAP性能略低, 这也是我们后期对答案选择模型进一步优化的研究重点. 另外, 随着ELM〇、Bert、GPT等预训练模型的兴起和迁移学习技术的发展, 大规模预训练+微调的方式正在成为一种新的思路[ ^4], 因此在后续的研究中,如何利用大规模数据来提升答案选取任务的效果将是我们的重点研究方向.参 考 文 献[1]ZhaoYi Ping. Comparat iveSt udyonCommonandSemanti cSearchEngines[M. S. dissert ation]. JilinUniversity?Changchun,200 9( i nChi nese)( 赵夷平. 传统搜索引擎与语义搜索引擎比较研究[硕士学位[2]HeilmanM,SmithNA. Treeedit model sf orrecognizingtext ualentailments ?paraphrases? andanswerstoquest ions//ProceedingsoftheHumanLanguageTechnologies: The20 10AnnualConf erenceoft heNort hAmericanChapt eroftheAssoci at ionforComput at ionalLinguisti cs. LosAngeles?USA, 2010; 1011 1019[3]SurdeanuM, Ciaramit aM, ZaragozaI I . LearningtorankanswerstononfactoidquestionsfromWebcollect ions.Comput at ionalLinguist ics,2 012,37(2) : 35 1 383[4]YihWT, ChangMW, MeekC, etal. Quest ionansweringusingenhancedlexicalsemant icmodel s//Proceedingsof the51stAnnualMeet ingoftheAssociationf orComput ationalLi nguist ics. Sof ia ,Bulgaria ,20 13 : 1744 1753[5]TymoshenkoK, Moschit t iA. Assessingtheimpact ofsynt act icand semanti c struct ures for answer passagesreranking//Proceedingsoft he2 4t hACMI nt ernationalonConf erenceonInf ormat ionandKnowledgeManagement . Melbourne,Aust ralia,2015: 145 1 1460[6]FengM?XiangB? GlassMR?etal. Applyingdeeplearningtoanswerselect ion: Ast udyandanopent ask//Proceedingsof the20 15IEEEWorkshoponAutomaticSpeechRecognitionandUnderst andi ng. Scot tsdale, USA,2016: 813 820[7]GuoJ?YueB, XuG? etal. Anenhancedconvolutionalneuralnet workmodelf oranswerselection//Proceedi ngsofthe26thInt ernat ionalConferenceonWorldWideWebCompanion. Perth,Aust rali a, 2017; 789790[8]TanM, SantosCD, XiangB,et al. I mprovedrepresent ationlearningforquest ionanswermat chi ng//Proceedingsofthe54thAnnualMeet ingoftheAssociationf orComput ationalLinguist ics. Berlin, Germany,2016: 464 473[9]DenilM?BazzaniL?LarochelleI I,etal. Learningwheretoat tendwit hdeeparchitecturesf orimagetracking. NeuralComput at ion, 2011 , 24 ( 8): 2151 2 184[10]BahdanauD?ChoK? BengioY. Neuralmachinetranslationbyjo int lylearningt oalignandtranslate. arXivpreprintarXiv:1409. 0473 ,2014[11]Bri tzD?Gol di eA, LuongMT?et al. Massiveexplorat ion ofneuralmachinet ranslat io narchit ect ures//Proceedi ngsoft he20 17Conf erenceonEmpiricalMet hodsinNat uralLanguageProcessing. Copenhagen,Denmark,2017: 14 42 1451[12]TangG, MullerM,RiosA, etal. Whyself att ent ion? : Atargetedevaluat ionof neuralmachinetranslationarchitect ures//Proceedi ngsoftheConferenceonEmpiricalMethodsinNat uralLanguageProcessing. Brussels ? Belgium, 2018:42 63 4272[13]ChengJ ?DongL, Lapat aM. LongShort TermMemoryNet worksf orMachineReading//Proceedingsofthe2016ConferenceonEmpiri calMet hodsinNat uralLanguageProcessing. Aust in, USA, 2016: 551 561[14]VaswaniA, ShazeerN? ParmarN?et al. At t entionisallyouneed//ProceedingsoftheAdvancesinNeuralInformationProcessingSyst ems. LosAngeles, USA, 2017; 5 998 6008 论文]. 吉林大学, 长春, 2009)506 计 算机 学 报 2021年[15]l ieX, HeZ,SongJ,etal. NAIS: Neuralattentiveitemsimilaritymodelforrecommendation. IEEETransactionsonKnowledgeandDataEngineering,2018 ,30(12): 2354-23 66[16]YuS,WangY,YangM,etal. NAIRS: Aneuralattentiveinterpretabl erecommendationsystem//Proceedingsofthe12thACMInternationalConferenceonWebSearchandDataMining. Melbourne ,Australia,2019:790-793[17]BachrachY,Zukovgregori cA,CoopeS,etal .Anattentionmechanismforneuralanswerselectionusingacombinedglobalandlocalview/ /Proceedingsofthe20 17IEEE2 9thInternationalConferenceonToolswithArtificialIntelligence.Boston,USA,2017 :425-432[18]XuD,JiJ, HuangI I,etal.Gatedgroupself-attentionforanswerselection. arXivpreprintarXiv:1905. 10720,2019[19]ChenD,FischA,WestonJ ,etal . ReadingWi kipediatoansweropen-domai nquestions//Proceedingsofthe55 thAnnualMeetingoftheAssociationforComputati onalLinguistics.Vancouver,Canada ,2017 : 1870-1879[20]I laoY, ZhangY,Li uK,etal. Anend-to-endmodelforquestionansweri ngoverknowledgebasewithcross-attentioncombiningglobalknowledge//Proceedingsofthe55 thAnnualMeetingoftheAssociationforComputationalLinguistics.Vancouver,Canada ,2017: 221-2 31[21]HuangZ,ThintM,QinZ.Questionclassificationusingheadwordsandthei rhypernyms//Proceedingsofthe20 08ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Honol ulu,USA,2008 :927-936[22]LiX, RothD. Learningquestionclassifiers:Theroleofsemanti cinformation.NaturalLanguageEngi neering,2006,12(3):229-249[23]WangM,SmithNA, MitamuraT. Whati stheJeopardymodel?Aquasi-synchronousgrammarforQA//Proceedingsofthe2007Joi ntConferenceon EmpiricalMethodsi nNaturalLanguageProcessingandComputationalNaturalLanguageLearning. Prague,CzechRepublic,2007 :22-32[24]WangB, LiuK,ZhaoJ. Innerattentionbasedrecurrentneuralnetworksforanswersel ection//Proceedingsofthe54thAnnualMeetingoftheAssociationforComputati onalLinguistics.Berlin,Germany,2016 :1288-1297[25]TranNK,NiedereeeC. Multihopattentionnetworksforquestionanswermatching//Proceedingsofthe41stInterna?ti onalACMSIGIRConferenceonResearch andDevelopmentinInformati onRetrieval. AnnArbor.Mi chigan,USA,2018 : 325-334[2 6]KumarS,MehtaK,RasiwasiaN. Improvinganswerselectionandanswertriggeringusinghardnegatives//Proceedingsofthe20 19ConferenceonEmpiricalMethodsinNaturalLanguageProcessi ngandthe9thInternationalJoi ntConferenceonNaturalLanguageProcessing. HongKong, China ,2019:5913-5919[27]XuD,LiWJ. Hashingbasedanswerselection. arXivpreprintarXiv: 1905.10718,2019[28]TayY,TuanLA,I luiSC. Mul ti-castattentionnetworksforretrieval-basedquestionansweringandresponsepredi ction//Proceedingsofthe24thACMSIGKDDInternationalConferenceon Knowl edge Discovery &- DataMi ni ng.London,UK,2018 :22 99-2308[29]MadabushiI IT,LeeM, BarndenJ. Integratingquestionclassificationanddeeplearni ngforimprovedanswerselection//Proceedingsofthe27 thInternati onalConferenceonComputationalLinguistics. SantaFe,USA,2018: 3283-3294[30]YangR, ZhangJ, GaoX,etal.Simpleandeffectivetextmatchingwithricheralignmentfeatures//Proceedi ngsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics.Florence ,Italy, 2019: 4699-4709[31]Yoon,S, DernoncourtF,KimDS,etal. Acompare-aggregatemodelwith latentclusteringforanswerselection//Proceedingsofthe28thACMInternationalConferenceonInformationandKnowledgeManagement. Beijing,China ,2019: 2093-20 96[32]KoehnP. Statisticalsignificancetestsfor machinetranslationeval uation//Proceedingsofthe2004ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Barcelona ,Spain,2004 : 388-395[33]GargS,VuT,MoschittiA. TANDA:Transferandadaptpre-trainedtransformermodel sforanswersentenceselection.arXivpreprintarXiv: 1911. 04118,2019[34]LaiT, TranQI I, BuiT,etal . Agatedself-attentionmemorynetworkforanswerselection//Proceedingsofthe2019ConferenceonEmpiricalMethodsinNaturalLanguageProcessi ngandthe9thInternationalJoi ntConferenceonNaturalLanguageProcessing. I longKong,China,2019:5955-5961ZHANGYang-Sen,Ph.D. ,professor.Hismajorresearchinterestsincludenatural languageprocessingandartificiali ntel ligence.WANGSheng,M.S.candidate,interestisnatural l anguageprocessing.HismajorresearchWEIWen-Jie,M.S.candidate. Hismajorresearchi nterestisnatural l anguageprocessing.PENGYuan-Yuan,M.S. , engineer.Hermajorresearchinterestisnatural languageprocessing.ZHENGJia,M.S.,engineer.Hismajorresearchinterestisnatural languageprocessing.张仰森等: 融合语义信息与问题关键信息的多阶段注意力答案选取模型 5073 期BackgroundTheprobl emsstudiedinthisarticl eareveryrelevanttotheautomaticquestionansweringsystem, oneofthecurrentresearchhotspots. Inrecentyears , withthecontinuousdevelopmentofartificialintelligencetechnology, variousautomaticquesti onansweri ngsystemshavecomeoutoneafteranother. Inthesesystems,answerselecti onisakeystep, whichdirectlyaffectstheperformanceofthesesystems.Aimi ngattheproblemofi naccuratecaptureofkeyinformationintheanswer, thispaperproposesamulti stageattentionanswerselectionmodelthatcombinessemanticinformationandkeyinformationofthequestion.Bycombiningthesemantici nformationandthekeyi nformationofthequestionwiththesemanticrepresentationofthecandidateanswersinstages,thesystemperformancei simprovedeffectivel y. Aimingattheproblemthatthecandidateanswersaredifficulttosort, thispaperreferstotheprocessofhumanthinking,proposesastrategyofanswerselectionbylayers ,whichi mprovesthecorrespondingeval uati oni ndexesofanswerselectionsuchasaccuracyandmeanreciprocalrank.Theauthorsandl aboratoryofthisarticl ehavealotofresearchinthefiel dofnaturall anguageprocessing.Forexample,theyhaveproposedasemanticerrorcorrectionmodelintexterrorcorrection, andareadi ngcomprehensionmodelinsemanticunderstanding.OurworkissupportedbytheNational NaturalScienceFoundationofChi na(GrantNo. 61 77 2081 ). |
[返回] |