图像信息对句子语义理解与表示的有效性验证与分析 |
来源:一起赢论文网 日期:2021-12-05 浏览数:1032 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第44 卷 第3 期2021 年3 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No. 3Mar. 2021图像信息对句子语义理解与表示的有效性验证与分析张 琨^吕广奕2 )吴 乐u刘 淇2 )陈恩红2 )1 :)(合肥工业大学计算机与信息学院 合肥23 0601)2)( 中国科学技术大学计算机科学与技术学院 合肥230 027)摘 要 近年来, 图像文本建模研究已经成为自然语言处理领域一个重要的研究方向.图像常被用于增强句子的语义理解与表示. 然而也有研究人员对图像信息用于句子语义理解的必要性提出质疑, 原因是文本本身就能够提供强有力的先验知识, 帮助模型取得非常好的效果; 甚至在不使用图像的条件下就能得出正确的答案. 因此研究图像文本建模需要首先回答一个问题: 图像是否有助于句子语义的理解与表示? 为此, 本文选择一个典型的不包含图像的自然语言语义理解任务: 自然语言推理, 并将图像信息引人到该任务中用于验证图像信息的有效性. 由于自然语言推理任务是一个单一的自然语言任务, 在数据标注过程中没有考虑图像信息, 因此选择该任务能够更客观地分析出图像信息对句子语义理解与表示的影响. 具体而言, 本文提出一种通用的即插即用框架(generalplugandplayframework) 用于图像信息的整合. 基于该框架, 本文选择目前最先进的五个自然语言推理模型, 对比分析这些模型在使用图像信息前后的表现, 以及使用不同图像处理模型与不同图像设置时的表现.最后, 本文在一个大规模公开数据集上进行了大量实验, 实验结果证实图像作为额外知识, 确实有助于句子语义的理解与表示. 此外, 还证实了不同的图像处理模型和使用方法对整个模型的表现也会造成不同的影响.关键词 图像文本建模; 句子语义理解与表示; 图像信息; 即插即用框架; 自然语言推理中图法分类号TP301DOI号1 0.1 189 7/SP.J.101 6.2021.00476TheEffectivenessVerificationandAnalysisofAdditi onalImagesforSentenceSemanticUnderstandingandRepresentationZHANGKxinV) ^LVGuangYi2)WULe1}LIUQi2)CHENEnHong2)1 :) {SchoolofComputerScienceandTechnol ogy? IlefeiUniversi tyofTechnology^ Ilefei230601)2) {SchoolofComputerSci enceandTechnology?Uni versi tyofSci enceandTechnologyofChi na? Ilefei230027)AbstractRecentl y,theVi sual t〇 Language( V2L)probl emhasattractedmoreandmoreattenti onandbecomeani mportantresearchtopi cinnaturall anguageprocessi ng. Byuti l i zi ngConvol uti onalNeural Networks( CNN) ?RecurrentNeuralNetworks( RNN)?andAttenti onMechanism?researchershavemadeful luseofi magesandachievedmuchprogressinV2Lprobl em,especial l yi ntheareaofnaturall anguagesemanticunderstandi ng.Infact,i magesareoftentreatedasthei mportantauxi liaryi nformati ontoenhancethesentencesemanticunderstandi ng.However,someresearchershavequestionedthenecessi tyofusi ngi magesforsuchunderstandi ngenhancement.Theyarguethatt extuali nformati onhasal readyprovi dedaverystrongpri ortopromi sethegoodperformanceofmostsemanti cunderstandi ngmodel s, whi chareevencapabl eofgenerati ngcorrectanswerswithouttheconsi derationofi magesinsomescenari os.Thus, thefirstcrucialprobl emofV2Lresearchshoul dbeaddressediswhetherthei magei nformati onisreal lynecessaryandhelpfulforsentencesemanticunderstandi ngandrepresentati on.Tothisend,i nthispaper,wefocusona收稿日期:20 19 11 15; 在线发布日期:2020 05 26. 本课题得到国家杰出青年科学基金( 6132 50 10 )、 国家自然科学基金( 614 03 358 )、 中央髙校基本科研业务费专项资金资助. 张 琨, 博士, 讲师, 主要研究方向为自然语言处理与深度学习. Email: zhang1028 kmi @gmail.com. 吕广奕, 博士研究生, 主要研究方向为自然语言处理、 计算机视觉. 吴 乐, 博士, 副教授, 中国计算机学会( CCF) 会员, 主要研究方向为教育数据挖掘及知识发现、 推荐系统、 社交网络. 刘 淇, 博士, 特任教授, 中国计算机学会( CCF) 会员, 主要研究领域为数据挖掘与知识发现、 机器学习方法及其应用.陈恩红( 通信作者) , 博士, 教授, 中国计算机学会( CCF) 会士, 主要研究方向为数据挖掘. Email :cheneh@ust c. edu. cn.3 期张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析47 7typicalsent encesemanticunderstandi ngtaskwithouti mages,NaturalLanguageInference( NLI) ,whichrequiresanagenttodetermi nethesemanti crelati onbetweentwosentences. Then,wei ncorporatei magesastheauxiliaryi nformati oni ntothesentencepairtoveri fytheireffect.Si ncei ti sorigi nal l yapurenaturall anguagetaskandi magesarenotconsi deredtobeusedduri ngthewhol eprocessofdataannotati onandsentencesemanti cmodel i ng,choosi ngNLItaskforeval uati oncanhelptoassessthei nfl uenceofimagei nformati ononsentencesemanticunderstandi ngandrepresentati onmoreobjecti vel y.Tobespecifi c,wefi rstdesignageneralpl ugandpl ayframeworkfori mageuti li zati onandi ntegrati on,whichconsistsoffourgenerallayers,i . e.,InputEmbeddi ngl ayer, Contextual EncodingLayer,Interacti onLayer, andLabelPredicti onLayer,andtwopl ugandpl ayl ayers,i .e., Fi ne Grai nedContext EnhancedLayerandCoarse Grai nedContext EnhancedLayer. Basedonthi spl ugandpl ayframework, wethenreproducefi vestateofthe artNLImodel s,i .e.,HierarchicalBi LSTMMaxPooli ngmodel ,EnhancedSequentialInferencemodel ,Mul tiwayAttenti onNetworkmodel ,StochasticAnswerNetworksmodel andGeneral izedPool ingmethodwiththesamedeepl earningframework.Next,weeval uatethei rperformanceswithorwithouti magesonalargeannotatedStanfordNaturalLanguageInferencedataset.Inordertobetterverifytherol eofi mages,weal socomparetheperformancesofmodel swi thdifferentimageprocessingmethods( VGG19andResNet50)anddi fferentimageuti l izati onmethods(Fi negrainedmethodandCoarsegrainedmethod). Atl ast ,extensi veexperi mentalresul tsrevealthati mages,astheexternalknowl edge,arereal l yhelpfulforsentencesemanticunderstandi ng. Furthermore,wehaveobtai nedsomeotherconcl usi ons:(1)Finegrai nedimageuti l i zati onmethodiscapabl eofprovi dingmuchmoreuseful informati on.Meanwhil e,thiski ndofmethodhasagreateri nfl uenceonthesentencesemanticunderstandi ngandrepresentati onofmodel s;( 2)Asamoreadvancedmethod,ResNet50canextracttheimportantinformati onfromi magesmoreprecisel ythanVGG19,whichisabl etoprovi demuchmorecomprehensi veauxiliaryi nformati onforsentencesemanti cunderstandi ngandrepresentati onmodel s.Keywordsvisualto l anguage;sentencesemanticunderstandi ngandrepresentation;i magei nformati on;pl ugandpl ayframework;naturall anguagei nferencei 引 言句子语义理解与表示是自然语言处理( NLP) 中一个重要的研究内容. 该研究要求一个模型能够利用给定的信息( 图像或者文本) 分析目标句子的语义, 并且服务于其他具体的任务. 例如: 在复述识别(ParaphraseIdentificati on, PI) 任务中, 模型需要将给定的两个句子作为彼此的情境信息, 分析这两个句子是否表达同一个意思[1]; 在自然语言推理(NaturalLanguageInference, NLI) 任务中, 模型需要以前提句子为情境信息, 判断是否能从前提句子推理出假设句子的语义&3]. 现如今, 通过图像文本建模(Vi sual t〇 Language, V2L) 对句子语义进行理解与表示也受到越来越多的关注, 例如视觉问答( Vi sualQuesti onAnsweri ng, VQA)[ 4]、 视觉推理( VisualReasoning)[5 6]等. 认知科学相关的研究也证实其他模态的信息(例如图像) 对句子语义理解增强有着巨大的帮助[7 ?.然而, 虽然文本信息已经能够提供一个强有力的先验信息, 帮助模型取得一个非常好的效果%°],甚至在不使用图像的条件下就能得出正确的答案,但是在复杂情况下图像依然可以发挥重要的作用.图1(a) 展示这样的一个例子, 该例子来自视觉问答数据集VQAvl.0[ 1 1 ], 当提出“Isthegrasstal l erthanthebaby?”这样一个问题时, 大多数情况下答案都是“Yes”, 因为“baby”是非常小的. 此时图像信息似乎并没有那么大的用处. 但当处理相对复杂的任务, 例如自然语言推理时, 图像信息又发挥着巨大的作用, 例如图1( b) 给出的例子, 该例子来自 自然语言推理数据集SNLI[ 2 ], 原始数据集中并不包含直接的图像信息.当判断两个句子之间的语义推理关478 计導机攀报: _1苹系时j■ 可以发现前提句子酣语叉是模糊的4 无法判断前提句子中的夭气是什么样的? 尽管人们苽以利用;fc验知识从“onteicbia往rket”推理出“sunnyday’'%但这 本是确定天疑的,更别说连先验知识都投有的模型? 但当引人菌像信息. 增强对句子的语义埋:解时; 就可以很轻松地判断出这两个甸子之间的语义推理关系是蕴涵,图1 憲自J#个本W数擦彙中的齋义處_裯子因此* 为了验1正视?觉图像信息是:否有助于对句子语义的理解与表示, 本文选择一?个典塑的自然语言语义现解任务:自然语言推理, 来验证图像倩息的有效性? 选择诱任务的原h是a为康始的自然镣育推理是一个纯文本理解任务, 在整个数据标浅的过程中弁找有引人图像儀息的影响, 因此该任务能够更客观地展示图像信息的引人对句子语义理解的影响. *体而言, 本文设计一种逋用的即辑即用禪集(generalplugaroip.kyfcaiTteworlO, 能够以多种木同的形式. 灵活地将虜像倩息整合到语义_模的过程中. 基于该框架, 本文1复现五种目前最箱进的方象*分劍是HifcrarchkalBiLSlSVIPooling(Hbrnp)Cl 2 ]-^EnhancedSequentialInf?"eiicemo: del(ESIM)Cl 3 ]^Mnl tmgyiittentianNetworkCMwan)[1?sStochasticAnswerEfotwarksCSAN)Cl 5]K及C?ti,ej;ali:aedPooliitg:method (GP)〔1 6]. 这些靠法代表目前自雜语w推理任务中两种最常用的框架: 句子编码框架和词匹配框架,除了文本处理方法,在属像处理方法上本立逸择目前最常用的两种方法:VGG1#1 7]和Resnet50[l s ]?: 同财;: 蠢了好地論证酿像慰息前巖响, 本文麗择两种不同的翅像特征表,示方法:( 1.) 粗粒度方法,选择两神圏像模塑倒数第'二层的全连接层的输出作为■圓像信息的向量表示. ,并将该向量表示整脅'到通用框架中的匹街績K2> 细粒食:方法? 选择顧像模型的最后一个卷积長的输出结果作为H像#征的矩阵表 丼将矩阵表示整含到通租框、 架中的情境信息增强层.爾屛本文设计一系列时实验验证西像信息对句子语义理獬的巖响, 并进行深人分析, 最終樽到一些发现:(1) 图像像息确实有助£f'理:解与表示旬子语义;(2) 细粒度的齊像使用方法可以提供寅多有用的癀息, 对文本捂义理解与表示勝影嗬:更大r|3TR6siietSG[l s]柑对予¥001§[1?模型能够抽取更准确的图像特征信息, 为句子语义理獬提供更全面的辅助債息^2 相关工作本文的相关工作可以分为三个部分:(1)B: 翁语言推理: 主褰介紹利用文本債息判断两个句子之间的谞义推理关系的相关工作K2) 菌像文本建模:主要介绍通过_偉信息. 辅助自然语言理解'的相关工作;(3) 视觉自然语言推理: 主要介绍刺甩图像增强甸子语义表示与推理的相关工作.2. 1 自然语言推理随着太规摸数据集, 例如smj2]、SCtAlL[ 1 9 ]等的不断发布, 以及各种各样神经_络技术, 例如CNM[2。]、LSTl#獨和注意力机制阳2 3]的迅速发赓?大量理解与表示自然语言句子语义的方法被提出来用于解决自然语言推理何题. 这些方法主要分为两种框梁: 句子语义编码框樂与词匹?框架.句子瑨义编码框架通过生成固定长度的句子语义表示向黧, 利用这些句子语义表示词 来璜测两个句子之间的磨义关系? 目前B有大蓋基于该框架的方法被提出来, 例如TBCNN[2 4]、 CAFE[2 5]和D、RCN[ 2 6 ]. 这些方法的梭心是逋过从不同角度编码句于谞义增强对旬予谮义的理解与表示? 特别地. 法意力机制能够根据实际霄求为输出选擇最合楚的输人, 因此注意力机制被大量座用于句子语义表示■方法中. 例如, Lk等人C2 7]提出内部注意力来模仿人类在阅读肘更关注那些重藝词的行为, 接下来, 他们使用平均池化4成句宇语义的阿董表示?Chen.等人[1 6]将迮意力机制扩廣为多头形式5 并生成多个不同的句子语义表示向餐用于表示句子不同方面的语义.除此之外* 屋次化结构, 例如层坎化的KLSTM和最大池化操作tl2], 也被用来从多个不同角度构建句乎语义的向量表示.第二种框架更多地关隹旬子之间的词窜义对齐供廣词讓别的: 句子间儀义食互?例如tR〇cktfechel等人 撵出'词级别的法意力机制甩于获取词与句子之间的注意力分部信息. Chen 等人M利用互往张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析 47 93 期意力建模词级别的局部推理关系. 除此之外, 他们还使用词级别的启发式匹配方法以一个更细粒度的方式建模句子之间的语义关系. Tan等人[1 4]采用多个不同的注意力计算方法, 从词级别匹配两个句子之间的语义关系. 他们声称不同的注意力计算方法能够帮助识别不同的关系类型. 除此之外,一些研究人员将额外的先验知识引人到推理过程中, Chen等人[ 2 9 ]将两个句子之间的同义词、 反义词、 上下位词等先验信息显式编码, 然后引人到注意力计算、 局部推理收集以及推理关系整合等模块, 实现了语义推理关系的准确识别. 然而, 大多数的这类方法都更关注于句子文本本身, 通过不同的方式从多个角度建模分析句子语义, 但他们并没有考虑句子文本以外的信息( 例如图像信息) 对句子语义理解的辅助和增强作用. 也就是说这方面的研究仍有很大的进步空间.2. 2图像文本建模近些年, 将图像信息和文本信息联合起来进行图像文本建模已经成为一个非常热门的研究方向,大量图像文本相关的问题也不断地被提出来, 例如图像描述生成(ImageCapti oni ng)[3°3 2]、 视觉问答(Vi sualQuesti onAnsweri ng)[ 3 3 ]、 视觉对话( Vi sualDial 〇g)[ 34]、视觉推理(VisualReas〇ni ng[ 5 6]) 等.目前最好的图像文本联合建模方法通常会分别选择一个CNN和一个RNN作为图像和句子的编码器, 用于生成图像与句子的特征表示. 同时为了更加有效地整合这两种不同类型的信息, 注意力机制一般也会被考虑进来. 例如Mao 等人[3 5]在每一步利用前一个词和图像的CNN特征结果来估计下一次词的概率分布, 从而更好地生成图像的描述句子;Ma等人[ 3 6 ]使用了不同的CNN同时处理图像特征和句子特征. 接下来, 他们将这些特征融合起来, 用于生成输人问题的答案. 更进一步, 为了更好评估图像信息的影响, Zhang等人[ 1 °]将二值视觉问答问题转换为图像区域有效性验证问题. 他们试图回答句子的语义信息是否能够在图像中找到对应的视觉内容. 通过这样的实验, 图像对句子的抽象语义表达就能够被更好地验证. 然而, 相对于文本建模, 图像建模所需的计算和存储开销更大, 与此同时, 在某些条件下, 引人图像信息所带来的文本建模效果提升并不明显, 例如图1 中的例子( a) , 在不考虑图像信息的情况下依然能得到正确的答案, 这样的例子在VQAvl.0[ 1 1]数据集中还有很多. 因此仍然有一些研究人员认为句子文本本身的信息就能够提供强有力的先验, 并保证模型能够取得非常好的表现, 甚至可以在不考虑图像信息的情况下生成正确的答案[1°]. 因此, 图像信息是否有助于句子语义的理解与表示仍然不清楚, 需要在对句子语义理解要求更高的场景下进行更为深人的研究来验证图像信息对模型理解与表示句子语义的影响.2. 3 视觉自然语言推理受图像文本建模的快速发展所启发, 研究人员提出许多利用图像信息增强对句子语义的理解与表示的工作. 特别地, 有研究人员将图像信息引人到自然语言推理任务中, 利用图像信息辅助对句子对的语义推理关系进行判断. 例如: Zhang 等人[3 7]利用图像特征生成词语义的另一种表示, 并将其与词的原始表示整合起来, 用于增强对词与句子的语义表示. 除此之外, 他们还提出多层次的结构用于更全面地建模句子语义以及句子之间的语义关系. Xl e 等人[ 3 8 ]提出一个新的自然语言推理数据集( VNLI) ,在该数据集中, 前提句子被对应的图像信息所替换.他们试图利用这个数据集验证细粒度的图像理解与表示. 虽然目前有很多将图像信息整合到语义理解过程中的工作[3 9]. 但这些方法大多是通过同时引人图像信息和设计不同的网络结构实现最终效果的提升, 图像对句子语义理解是否有增强作用以及对模型效果的提升程度仍然不明确. 为此, 本文设计了一种通用的推理框架, 在此框架下通过对比多个当前先进的自然语言推理方法在仅改变图像信息利用方式的条件下的表现, 实现对图像信息的增强作用的准确验证与分析. 这也是本文的主要研究内容.3 问题定义与通用推理框架3. 1 问题定义作为一个有监督分类问题,自然语言推理任务输人为前提句子的表示Z={ <, <,…,气} 和假设句子的表示J={ wK,…, wl}, 目标是训练一个b分类器, 能够准确识别两个句子之间的语义关系_y=6(Z, P). 其中, <和w丨 是前提句子中第i 个词和假设句子中第J 个词的one hot 向量表示, /^ 和/6 是前提句子和假设句子的句子长度, 待预测的语义关系主要有蕴涵( Entai lment, E) 、 矛盾( Contradi cti on,C)、 中立( Neutral ,N).为了验证图像信息对模型理解与表示句子语义的影响, 本文将图像信息引人到自然语言推理过程中.因此, 和传统的自然语言推理任务相比, 本文480 计導机攀报: _1苹将画像信息J 作为额外的一个输人,因此当预测两个句子之间的语义关系时, 模型形式化定义为y=¥( sa3. 2 针对自然语言推理的通用框架作.为启然语言理解中一个基础但十分重麥的任务>自然语言推理受到越来越多的关 研究人员提出太蒙敗X作用于解决这个阿题. 这些方法大致分为两类框架句子语义编码框架: 将句子语义编码为一个向量拿示> 在此基础上利用各种不同的方法进行捂义推理关系的判断m' 1 6]; 词匹配框架: 更关注句子中的细粒度词对齐以及细粒度的谙义交互^41, 如图2 实线框所示, 本文首先将这两.类框架统一到一个基本桓樂下, 在此基础上介绍本文提出雜纖. _的即猶即用、■架tgeneralpl ugandplayfraRieWQrk).Label PredictionLayer(b)| Qjarse-Grained Context-EnhancedLayer' 11InteractionLayer.(may generatesentencesemanticvector)Contextual Encoding?2.?3?4Contextual Encoding\\Z\^*3(a)Fine-Grained Context-Enhanced Laye;TInputEmbedding LayerX<<<wfw\<图2 针对自然语言推理的通用即插即用框架自然语言推理的基本框架主要包含四层:(1) 输入编码层(InputEmbeddi ngLayer);(2) 情境感知编码层(ContextualEncodi ngLayer);(3) 交互层(InteractionLayer) ;( 4) 预测层(LabelPredictionLayer) . 接下来将详细介绍每一层的具体作用.(1) 输入编码层(InputEmbeddi ngLayer) ? 这一层的输入为前提句子和假设句子中每个词的one-hot向量表示Z={ <, <,…,wl} 和/={<,…该层可以使用多种不同的方法编码 J0每个甸? 为了充分利用大规模文本信息, 研究人员会选择在大规模语料上训练好的词向毚* 例如Word2VeC[41]、 Gl 〇Ve[42].,*了让:词的语义表示更具有任务相关性, 研究人员;^会将字箱级别的询向鼂&3 ]或者ELM〇[44]加人到该层中, 同时一些语法特!#^?]也会被用'来增强毎个词的语义表薪( 最终s该层的输出是 个词的丰富特征表示 U=l,1! ,*?SL*J=18}.( 2 } 情'糧感知'编码_f: GordrextualEncodingLayer.)? 本康雜上一层前输出彳a,|i=1,2 /s1'租{ fc山=1, 2,"} 作为输人, 通过整合句子内部的情境儈息和序列信息生成句子中每个诃更全面的语义表: 本?因此高逮网络(Higliwaf y:Ntw?rk)[47]、Li?#2 1 ]、CS^[禮或释Tr抑sform?:r[ 2 3 ]经食会被用来作为句子语义表示的生成模块? 词时,一些额外的輿駿知识也会被酬入到敎繁中, 读翁的输出是甸擎中每斗_:的:情翁化 曇素示保: U=1,2?ZJ租山.=;U£,,…,4}_袭互层( Inte.racti GnLayer)?琰瑋的■输人是句子中每个词_情; 境化向覺義球 , U=1*2,…, I;,}和 | _/=1 . 2,…. 为了建模分析商个甸子之间的语义交互, 本层通常选择注意力机制[42]建模: 句子之间的语义交互. 对于興匹配方法, 本层主要完成两个句子中的词. 对齐以及语义相似度和交互分析;对于句子语义编码方法, 丰慕吏关注于句子语义的表示. 具体而 本鳥会根据具体任务的术同选择不■的注翥力计算方法, 例如互注翥. 力?、 多头淦倉妒和6法意力 等?舊'餐说明的羞f 旬子捂义编码框架会在该层生成句子窬义的向量表示.预羅SCLabe丨Pre4ietfonLayet) , 驚碧主聲利用交互层的结果进行句子之间的座祀和分类. 具体而言s 本层利用启. 发式的匹配方法CM建.模两个句子之间的语义推理关系. 然后使用多璋感知机<MLPj和sDftmaX(,) 函数进行最终的分类■以. 上就是传统的自然语言推理方法的基本框架. 为了更灵. 活地利用不同类S的情境傷息, 本文提出一种逋用:的即插即用框架tgerasrelpl ugsndframework ;)., 姐图E 所示歡樨雞主藝:灌加了輝慕即插即複层: Ca)细粒度的情境翁息增锤层(FineGrainedContext-EnhaneedLayer) 粗隸 惨墙信息增强MGfai nedLayer). 与其它层相比., 这两层能够謝舌运用各种不.同的情境倩息(例如图像倩.息或者知识图谱倩息>增强对句宁霄义的理解? 并且这商属能够灵猜地从整个模_中加人或者删除,因此本文将该樞架称之为即插即用框架? 在接t来的描述中, 本文以图像信息.为例, 具体介绍这两层.C1) 細粒度的情壤#麗增亂&tFhwrGmtoedGout麵t-EnhanetdLay键I为了更充分地利顧情篇:, 瑪—f 厲像僮5_子—黑鐵攀臂_餘有歌性攀K与分析 481 3 期信息* 词时以一个细粒度的方式和用'情境信息增强对句子语义的理解与表示, 本文设计细粒度的情境信息增强层, 利用图像情境信息对诃级别的语义进行增强. 如图2 中的虚线框(a) 所示,该层的文本输人为输人編码甚前输出{. a;| /=1, 2 和{ 屹U'=1* 2,…, &}, 图像输人为细敉度的图像特征表示 ,@, …,q] (例如VGG19 模型的倒数第二个全连搽层: 的输出结果),由于文本输人和图像输入均为矩阵表示, 本文通过使用不词的融脅方法(例如互注意力机制), 从图像情境信息中抽取对每个词的语义表示最重要價息, 利用这些俸息从男一角度增强对词级别的语义班解, 从而保证词的语义能够更龙全面地建模.. .为了保证这一层的嚴括性与即插即用特点, 读层的输出和输人编码层的输出十分类似, 依然是词级别的语义表示.C:2)粗粒.度的'情糧—息增彌播CCoar,GainedGontx1rEnhai碑dLayef|K 除了细粒度的图像情篇信息表示方法, 图倮情境信息也可以用一十单独的財_c篆示, 相対乎细粒度: 的翁阵羡敢方法4黨方法可以称之为粗粒度的表. 示方法? 为了将这种表系. 整含到整个框架中:5本文考虑将图像的单独向駕暴示与文本的專独_麗表示迸行整合.因此本文设计了粗粒度的情境信息增强gf 用于整含情境信息的粗粒度表示. 图2 中的虚线框<b)展示该层的具体位置<考虑到文本特征表示与?像特征表示均?为询量形式,对两个向量采用我意力机制进行_模意义不大/同时由于交互层已经整合两个句子之间的语义交2:信息>本文直接将画像情境信息的向量表示拼接到对应的输出结果上, 并将得到的结果输人多层感知机迸行爾.后的分类》正如前文所述; 本文时目标S验证图像信惪是否有助于理解与表示句:子语义. 因此, 本文在实验验证过程中同样选择图像作为情境信息. 通过添加删除面像信息, 或者使用不词设置的图像信息验怔图像信息对模型理解与表示句子语义时影响. 需要强调的是该通用即插即甩框架不仅能够奠活地添加或者删除情境信息增强层, 同时能够_常緣活地使用各种不同的情渔信息4 模型与即插即用框架技术介绍本节庄要介绍在通用即插即用框架下獒现的2神自然语賓推理模型的相关实现技术细节.4.1Hbmp模型Hbmp屬型叫!fe—种典型的句子涪义编码方法. 檩湛结构如图3(a) 所示. 该模型利用.房次化的结构进行句子语义编码. 具体而言, Hbmp模型使用鎮祅化的双向LSTM和最大祂化操作取得非常好的效粜? 简单起见. 本文以前提旬子的处理为例. 层次化处理过_可以形式化为如T公式:(a) Hbmp模型框架图3Hbmp模型和ESIM模型的框架(b)ESIM模型框架482 计 算机 学 报 2021年圮=Bi LSTMtJif :, s(: 1Jtil=maxpeol i hgC[!%[ ;^j* ? ?.])S中4和W分别表示第f 层双向LSiir 的筹?'个输人和隐葛状态?V表示第/ 臬的最大池化操作的输出, 同时也是第6鳥的句子语义表示. 在得到所有唐的句子语义表示之踌, Hbmp模型将所有的结果拼接到一起,爆磨利用一个多果感知机进行最_标签的预测.4.2: ESI: M模型W3fbJ展示了ESIM模遨印的整体结构? 该模直将情境感知的句子编码层的输出悦U=1 , 2?…,■ U和床U= 1, 2,…,} 作:为注意力机制的输入, 并使用互注意力t2 1]建模两个句子之间的烏部推理关系.:%=d,■ Aexp(e;?)「_^—, 征[1,2,…, 4],公exp(Q)(2)k-i-exp(^?)厂,b3 ^t—, 紙[l,2,一, “]y^expC g^-)k-1在此之后, ESIM、模雙使用启发式的匹配方法(a)Mwan模型框架对句子之间的局部推理关系进行增强分析; #使用'基于树结构的;LSTM( TreeLlljvO整^_习到的信息*该过程可以形式化为如下表示:p|=TreeLSTM( [a,ja,; t(&, S;:)fCS, ?a,;)])<___Dj?J=TreeL?!MQjb]; b,ji〇>;b])¥(,bj06^) ])最后? 使用平均池化和最大池化处理这些信息s并雜得到的'结杲拼接起来生成谣义推理关系表示向黧V, 并通过一个多层 知机进行最后的分类.4.3Mwan模型Mwan模型=1 4]的整体.结构如遛4(.a) 所示. 这是一个词匹配方法, 该模型使用多神不同的&意力计算方法对旬予窜义进行匹配?具体而言, Mwm模謹设计四种本同的注意力计算方法( 拼接浼意力:(<sneatatteftti on) 双緣注意力( bili near atteiitioii)、点乘注: 意 (dot■gtenti otO、.相减ft奮力(hiiruisat?nti〇n》) E赃每蒼爾中M之间翁语义貴系,: 食T方便稱述, 率: 文:仅,M示归一化之前的西种_掌力衩黨计算方法:^=vf tanh( Ws4,+I7ebi.dij^m^JWb hfj-(_^ vJtanhi Wi-Ct,Ql,); )*— v, ?tanh(_Wni (ui—b, ))Average1 Softoiax] 1 Softaiaxl |Softmax[图4Mwan模型和SAN模型的框架图(b)SAN模型框架张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析 4833 期其中,4,<和表示前提句子中第z 个词和假设句子中第_; 个词之间未归一化的注意力权重值.分别表示四种不同的注意力计算方法. 在得到未归一化的权重之后, Mwan方法使用加权和的方法整合这些学习到的匹配信息, 该过程可以由式( 5) 形式化表亦:exp(e-? )n lW=l,2,…丄,i iexp(4)ia2exp(e*;)Vj=l , 2,…, Z6(5)其中 由于这些匹配信息仍然关注的是词级别, Mwan模型使用残差连接和GRU整合来自四种不同注意力计算方法的匹配信息, 然后使用加权和整合所有信息. 最后利用多层感知机来预测每个标签出现的概率.4.4SAN模型图4(b)展示了SAN模型[ 1 5 ]的整体结构. 和其他的自然语言推理方法相比, SAN模型更多的关注在决策过程. 首先, SAN模型和ESIM模型一样, 利用互注意力?建模句子之间的语义交互, 然后,SAN模型使用双向LSTTM针对两个句子生成一个工作记忆状态:CLi_:concat(az, az) , , we[i , 2,"., za ]心二:concat(^) , Vj'G[l, 2 ,M:二Bi LSTM( [&, a;], M; i) ,Ml- 二Bi LSTM( [&,其中, AC和M) 表示针对前提句子的第z 个工作记忆状态和针对假设句子的第 个工作记忆状态. 接下来, SAN模型设计一个答案模块在T个记忆步上进行标签预测. 首先, 该模块利用 的加权和作为答案模块的初始状态:exp(c〇,, M)XjexpCc^M:)(7)klbs〇—^_是模型在训练过i中的参数. 接下来, SAN模型采用一种GRU的变种来处理这些工作记忆状态,该过程可以形式化为如下:戽=softmaxG, !WMa) , We[l,2,"-, ( T 1)] ,:EftAT (8)其中, W是模型需要训练的参数, T是决策步数. 在得到每一步的隐层状态之后, SAN模型使用一个单层的分类器计算每一步得到的标签概率, 然后使用平均池化整合所有的概率, 从而得到最终的答案:P, = softmax(L/[5, ;(s, x, );(s, Qx, ) J),( g)P=avg([P〇, P1,? ? ?, PT i l)4.5GP模型GP模型[1 6]也是一种典型的句子语义编码方法, 正如第3.2 小节中描述的, 句子语义编码方法通常会在交互层生成一个句子语义的表示向量. 但这是一个固定的向量, GP模型认为“该向量表示仅仅关注于句子的某个方面”[ 1 6].因此, 它将交互层拓展为多头形式, 并且生成多个句子语义的向量表示. 这样句子语义的不同方面都能够被表示出来, 这点和本文在第2 节中的第一个方法是十分类似的. 接下来, GP模型通过一个拼接操作生成句子语义的最终表示, 并使用多层感知机进行语义推理关系的分类.除此之外, GP模型还设计三种不同的约束, 用于减少多头操作的重复性, 保证最终结果具有多样性, 能够更全面描述句子语义的不同方面. 首先, GP模型在整个模型的参数矩阵上进行约束, 保证不同的句子语义计算矩阵有着不同的参数, 因此, GP模型以如下形式最大化任意两个参数矩阵的Frobeni usnorm:L=Dmax(A| |TT 則^, 0)( 10)i 1 )z+1这里", A 都是预先设定好的超参, 是多头注意力计算中的不同矩阵. 4表示不同注意力计算的个数.其次, GP模型提出对注意力值的矩阵进行约束, 用于保证注意力值的多样性, 与文献[49]中通过添加约束IAATI 〖保证注意力值的矩阵的标量值的多样性相比, GP模型使用如下方式保证注意力值的矩阵的向量值的多样性, 其中, 是多头注意力计算得到的不同注意力值的矩阵:lh lhL二Smax(A| |AI f, 0)( 11)i lji+1最后, GP模型也对句子语义的向量表亦添加约束, 因为多头注意力操作能够生成多个句子语义的向量表示, 所以GP模型提出在句子的向量表示上添加如下形式的约束:lhlhL二^max(A| | v1v}| |f?〇)( 12)i lji +14. 6 基于通用的即插即用框架的解决方案=GRU(5,i, Xt) 本节主要介绍通用即插即用框架中细粒度的情484 计 算机 学 报 2021年境信息增强层与粗粒度的情境信息增强层的相关技术细节. 正如第3.2 小节所描述的, 本文提出的通用即插即用框架主要关注两个额外的层:( 1) 细粒度的情境信息增强层; (2) 粗粒度的情境信息增强层.并且在本文中, 图像信息被选作额外的情境信息对模型理解与表示句子语义进行增强.4. 6. 1 细粒度的情境信息增强层如第3.2 小节描述的, 输人编码层的输出是每个词的丰富特征表示{a,U' =l,2,…,Za)^n{fc,|j=1 , 2 ,…, Z6 }. 为了能够利用图像的细粒度特征表示C=[Cl, c2,…,]增强句子中的每个词的语义表示, 本文提出一种互注意力[2 6]的变种用于将图像信息融人到词的语义表示中. 由于互注意力能够从细粒度的角度建模两种特征之间的交互, 该操作能够选出对句子语义重要的信息增强对语义的理解与表示. 为了简单起见, 本文以前提句子的处理过程为例介绍相关细节:=vJtanh(a, W/cJ),,exp(e,,)^]〖 —C”We[l , 2,"-, 4],厂么我)(13)k l8t=a(uTfat ) ,at:=\dt at;(1 ^) a, ]其中, VpWpW是注意力训练过程中的参数 是前提句子中第z 个词的候选表示.&是更新门, 用于决定第z 个词的输人表示有多少被保留. 为了保证整个框架的一致性, 在这里使用赋值操作:=表示对每个词的丰富特征表示进行更新. 在该方法中, 注意力计算能够从图像中选择出重要的信息对句子语义表示进行增强, 更新门保证模型始终关注在原始表示与图像增强表示中最重要的部分. 这样图像信息就能够高效准确地融合到句子中每个词的语义表示中.4.6.2 粗粒度的情境信息增强层与细粒度的情境信息增强层相比, 粗粒度的情境信息增强层主要有两处不同. 首先, 该层使用一个向量c 表示图像的特征信息; 其次, 该层直接将图像特征c 和通用即插即用框架的标签预测层的多层感知机的输人进行拼接. 接下来通过多层感知机预测每个标签所占的概率并决定最后输人的标签. 假设多层感知机的输人为A该过程可以形式化为P( ^U%/, J)=MLP([v;c])( 14)其中多层感知机包含两层带非线性激活函数的tanh( 〇的变换层, 以及一层softmaxO) 分类层?由于预训练的图像模型能够生成单一的图像特征向量表示, 该方法希望验证是否粗粒度的图像特征表示也有助于对句子语义理解的增强.5 实 验本节首先介绍新数据集构建以及对应的基本统计信息. 然后, 本文将介绍五种模型的复现细节以及相关实验结果的详细分析.5. 1 数据集介绍为了更好地对比在不同图像利用条件下模型的表现, 本文选择SNLI 数据集[ 2 ]作为基本数据集, 并为每条数据添加一张对应的图像信息. 选择该数据集基于以下两个原因:( 1) 客观性. SNLI 数据集在生成过程中并没有考虑图像信息, 标注员在人工标注时并不会受图像信息的影响.因此使用该数据集验证加人图像信息前后的模型效果更客观d2) 图像关系: 本文的研究重点是为了验证图像信息是否有助于句子语义的理解与表示, 因此需要为原始不包含图像信息的数据集中添加图像信息, 并且这些添加的图像信息需要和句子对之间有对应关系. 正如文献[4]描述的, SNLI 数据集中的前提句子均来自于图像描述数据集Fl l ck30K[5 °], 每个前提句子都是一幅图像的描述句子, SNLI 数据集中也标注出每个句子对在Flick30K数据集中对应的图像名字,因此SNLI 数据集非常适合这个任务.具体而言, 在数据预处理阶段, 本文根据SNLI 数据集中每个句子对中标注的图像名字, 从FUck30K数据集[5°]中抽取对应的图像信息, 将其添加句子对中, 用于构建新的包含图像信息的自然语言推理数据集, 需要说明的是原始的SNLI 数据集中有一部分数据无法找到对应的图像信息, 因此本文将这部分数据删除. 同时为了更好验证模型效果以及图像信息的作用, 本文同时选择更具挑战的HardteSt[464nLexi caltest[5 1]作为额外的测试集. 加人图像信息之后的新的数据集的基本统计信息如表1 所示? 其中Hard和Lexi cal分别表示Hardtest[46^nLexicaltest[5 14HI 试集.表1 不同测试集的基本统计情况数据集数据规模平均句子长度划分 ̄前提句子 假设句子张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析 4853 期5. 2 模型实现本文在开发集上选择所有的最优超参数, 同时为了更客观地评价在通用框架下复现的所有模型,本文使用相同的参数训练所有的模型, 因此在部分参数的设定会与原始模型的实现有不同, 相关参数设定如表2 所亦.表2 模型超参数设定超参数 参数值VGG19 细粒度特征维度 512VGG19 粗粒度特征维度4096ReSnet 50 细粒度特征维度2048Resnet 5G 粗粒度特征维度2048预训练词向量维度 300字符级别词向量维度 100GRU/ LSTM隐层单元数 300注意力单元数 200多层感知机隐层单元数 200和100初始学习率104对于图像信息的表示, 本文使用以Tensorflow为后端的Keras 工具包实现的VGG19 模型[ 1 7 ]和ResNet50 模型[ 1 8 ]处理所有的图像, 并使用最后一个卷积层的输出结果和倒数第二个全连接层的输出结果作为图像的细粒度特征表示与粗粒度特征表示.对于五个模型的复现, 本文将预训练的词向量维度设为300 , 字符级别的词向量维度设为100,dropout设为0.6, 词向量使用的是预训练的840BGloVe 词向量[ 42 ]. 双向LSTM或者GRU的隐层单元数为300. 互注意力或者自注意力计算的隐层单元数设为200 , 标签预测层的多层感知机的隐层单元数设为200 和100. 受文献[4]启发, 模型中所有的权重在V6/( nin-\ ̄nout) 和\/6/(nin-\ ̄nout) 之间进行初始化, 满足该范围内的均匀分布[ 5 2 ], 和 分别表示模型中权重参数所在层的输人和输出维度.所有的偏置初始化为〇. 本文使用Adam优化器优化模型, 初始学习率为1〇4.5. 3 实验结果概述本小节详细分析实验结果, 需要说明的是, 本文选择在不同测试集上的准确率作为模型的评价标准.原始结果与复现结果的比较. 表3 展示了模型原始结果与在通用框架下复现的结果. 从表中可以看出, 本文复现的结果要稍低于模型的原始结果. 本文总结出现这种情况的原因如下:( 1) 本文使用统一的通用即插即用框架, 并且为了更客观地评价模型效果,一些共有的超参数本文使用相同的参数设定;( 2) 本文主要研究的是模型仅在使用文本信息以及使用文本和图像信息之间的表现对比, 因此针对每个模型, 本文并没有进行额外的超参数调整. 除此之外, 本文还使用不同的深度学习框架, 也可能会对模型有一些影响. 例如原始的ESIM模型是使用TTheano实现的, 而本文是使用Tensorfl ow实现的?这些原因都会造成模型最终效果的不同. 在接下来的章节中, 本文将复现的结果作为基准结果, 然后将该结果与使用不同图像信息设置得到的结果进行对比分析.表3 使用不同图像设置的模型复现效果(准确率)图像使用方法粗粒度方法模型原始结果 复现结果 VGG19 处理结果 Resnet 5G 处理结果Full/%Hard/%Lexical/%Full/%Hard/%Lexical/%Full/ %Hard/ %Lexical/ %Ful l/%Hard/ %Lexical/ %I l bmpGPMwanSANESI M细粒度方法I l bmpGPMwanSANESI M整合粗粒度细粒度方法I lbmpGPMwanSANESI M不使用图像结果与使用图像结果的比较. 表3展示了在使用不同设置之后的模型结果. 从表3展示的结果可以看出, 使用图像信息之后, 所有模型的表现均有不同程度的提升,一些模型的表现甚至要高于其原始文章中的结果, 例如 Hbmp(87.1%) 和ESIM(88.2%). 与此同时, 当比较模型486 计 算机 学 报 2021年在更具挑战的测试集( Hardtest 和Lexicaltest ) 上的表现时, 可以发现大多数模型的表现均优于不使用图像信息的基准结果. 这些现象都说明图像信息确实有助于模型对文本语义的理解与表示, 并能提升其在下游任务上的表现.细粒度方法与粗粒度方法的比较. 在第3.2 小节中, 本文提出两个图像使用方法: 细粒度图像特征表示与粗粒度图像特征表示. 在本节中, 本文对比这两种方法以及整合粗粒度和细粒度方法对模型表现的影响, 相关实验结果如表3 所示. 首先, 细粒度的图像特征能够更全面地表示图像的不同特征, 因此模型能够利用注意力机制从这些特征表示中选择出合适的信息辅助对句子语义的理解与表示, 从而取得更好的效果. 与此相比, 粗粒度的图像特征表示的原始目的是为了解决图像分类问题, 因此它并不能像细粒度的特征那样为模型提供更准确的信息表示.整合粗粒度和细粒度方法的实验结果也证实了这一点, 从实验结果中可以看出, 模型在整合粗粒度和细粒度的图像特征表示条件下的表现和只使用细粒度特征条件下的表现相差不大, 说明了细粒度的图像特征对模型的影响更大一些. 其次, 从表3 中可以看出句子语义编码方法( HbmP, GP) 的效果提升力度要大于词匹配方法( MWan, SAN, ESIM) , 甚至一些词匹配方法在使用细粒度的图像特征之后模型表现会出现一定程度的下降. 对不同推理框架进一步分析之后发现, 句子语义匹配方法更多地关注句子语义的向量表示生成, 因此它可以从图像信息中选择合适的信息用于句子语义的增强表示, 而下游任务最终使用的就是句子语义的向量表示, 因此额外的信息并不会损害模型在具体任务上的表现; 而词匹配方法更多地关注细粒度的词匹配以及词之间的语义交互,当加人额外的细粒度图像特征信息时,一方面这些信息有助于增强理解句子中每个词的语义, 但另一方面细粒度的图像特征信息可能会引人不相关的信息, 并且误导模型错误匹配某些词之间的语义, 最终造成模型在具体任务上的提升程度出现可能低于句子语义匹配方法的情况.VGG19模型与Resnet50 模型的比较? 作为典型的图像分类模型, VGG19 模型?和Resnet50[ 1 8 ]在图像分类任务上已经取得令人瞩目的成绩, 并且逐渐成为多种图像文本任务中必不可少的一部分,包括计算机视觉和自然语言处理. 因此本文选择这两种模型来作为图像有效性验证实验中的图像处理模型. 表3 的结果中可以看出, 使用Resnet50 作为图像处理模型时, 大多数自然语言推理模型均取得比较大的提升. 特别地, 可以发现当选择粗粒度的图像特征表示时, 选择Resnet50 进行图像处理, 五个模型的表现要明显优于使用VGG19 处理图像时的表现. 同时, 当检查两种模型生成的粗粒度图像特征表示的维度时, 可以发现Resnet50 生成的图像特征维度是2048 维, 是VGG19 生成的向量的维度(4096) 的一半? 因此, 可以总结出Resnet50 生成的图像丨3息表亦的质量要远尚于VGG19, 同时图像fg息表示的质量比数量更为重要一些. Resnet50 相对于VGG19 而言拥有更多的隐层, 因此它能够生成质量更高的图像特征表示.5.4 原始标签改变本文深人研究图像信息的引人对原始标签的影响, 图像信息是否会造成使用原始标签评价模型变得无效化. 正如文献[2] 中描述的, SNLI 数据集在标注时, 标注人员并没有考虑图像信息, 因此引人图像信息之后, 原始的标签可能会发生变化. 为了评估这种变化的影响, 本文分别从SNLI 数据集的Ful ltest 测试集和Hardtest 测试集采样500 条样本, 然后邀请10 位相关的研究人员在考虑图像信息的条件下重新标注这些样本.受混淆矩阵( Confusi onMatri x) 启发, 本文在表4 中重新展示相关的结果. 每一列(行) 表示原始标签( 重新标注的标签) 的数量( 其中E, C, N, 0分别指代蕴涵( Entai l ment)、 矛盾( Contradi ction)、 中立(Neutral ) 和合计(Overal l ) )? 例如: 第一列表亦由153 个蕴含例子被重新标注为蕴涵, 有6 个蕴含例子被重新标注为矛盾, 有7 个蕴涵的例子被重新标注为中立. 本文使用kappa 系数验证重新标注的标签与原始标签之间的一致性. 如果kappa 系数在0.61?0.80 之间, 表明两种分布是具有高度一致性的. 从表中可以得出, 在Ful ltest 测试集上的kappa系数为〇.759,Hardtest 测试集上的kappa 系数为0.699, 在所有采样样本上的kappa 系数为0.729.这些结果充分说明重新标注的标签和原始标签之间是高度一致的, 因此图像信息的引人并不会造成使用原始标签评价模型的无效化.表4 不同测试集的基本统计情况Fullt est Hardtest蕴涵 矛盾 中立 合计 蕴涵 矛盾 中立 合计E153 4 32 189 14715645 194C6 160 26 192 7 23 186N7 5 107 119 26 11 97 1200166 169 165 500 166 169 165 500张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析 4873 期5.5 不同图像设置结果对比本文已经通过实验验证图像信息的确有助于增强模型对句子语义的理解与表示. 但是, 大多数的图像都是由点、 线、形状、颜色等特征组成. 这些特征同样能够为模型提供额外的参考信息. 是否任何一张图像均有助于句子语义的理解与表示呢? 为了回答这个问题, 本文进行额外的实验验证, 对比在不同设置下图像的表现.表5 使用错误图像的复现模型效果(准确率)图像使用模型VGG19 错误图像结果 Resnet 50 错误图像结果方法 Full Hard Lexi cal Full Hard LexicalI lbmp83.5 %(1. 9)67. 3 %( 3.6)63. 3%( 3.6)82. 9%(2.7)62.6 %(4.6)65.1%(4.5)粗粒度方法GP 82. 3 %( 2. 0) 63. 1%( 3. 5) 62. 5%( 3. 9) 8 1. 9%( 2. 6) 62. 8 %( 4. 3) 64. 7 %( 5. 0)Mwan 84. 6 %( 2. 8) 64. 6%( 4. 7) 64. 3%( 4. 5) 84. 3 %( 3. 2) 63. 7 %( 5. 1) 66. 1%( 3. 9)SAN 82. 5%( 3. 7) 60. 4 %( 4. 0) 55. 7%( 3. 0) 82. 3 %( 4. 1) 60. 8 %( 4. 5) 62. 7 %( 2. 1)ESI M 83. 6 %(4. 3)65. 3 %(6. 8)62. 9%(7. 7)84. 1%(4. 0)62. 2 %(10. 4)65. 5 %(4. 4)I lbmp82. 6 %(4. 5)57. 8 %(1 1. 7)61. 4%(4. 3)82. 3 %(4. 5)58. 2 %(10. 3)62. 9%(' 4. 5)细粒度方法GP 82. 3 %( 2. 9)63. 7 %(6. 7)61. 9%(7. 9)82. 5 %(2. 5)63. 6 %(5. 1)61. 5 %(9. 1)Mwan 84. 9 %(3. 〇)63. 8 %(6. 0)62. 7%(3. 5)83. 9%(4. 4)61. 7 %(8. 0)63. 8 %(6. 9)SAN 82. 1 %( 3. 7) 60. 1%( 5. 6) 53. 5%( 3. 5) 82. 1%( 3. 8) 60. 2 %( 3. 9) 59. 7 %(+1. 2)ESI M 83. 0 %( 5. 2) 62. 4 %( 10. 1) 59. 9%( 8. 8) 83. 5 %( 5. 0) 61. 7 %( 10. 1) 63. 8 %( 6. 4)具体而言, 本文在训练阶段, 使用和第5.3 小节相同的设置, 但是在测试阶段, 本文选择不同的设置.当使用测试集验证模型效果时, 本文利用数据集中一张随机的无关的图片替换原始图片, 标记为错误图像, 然后使用该图像验证模型在所有测试集上的效果, 结果如表5 所示. 接下来本文将从三个方面对实验结果进行分析.原始图像结果与错误图像结果的比较. 首先, 本文对比使用原始图像的结果和使用错误图像的结果. 对比表3 和表5, 可以发现五个模型在使用错误图像时的表现均有不同程度的下降, 有的甚至比不使用图像的效果还差. 这些现象说明图像确实提供有意义的信息, 不是简单的点、 线、 形状等信息. 同时, 本文还发现使用错误图像时模型在更具挑战的测试集( Hardtest 和Lexi calt est ) 上的表现下降的更多. 由于这些测试集将那些容易分类的例子都删除, 因此需要模型能准确地理解并表示句子语义.而不相关的错误图像信息会引人噪音, 使得模型理解句子语义变得更加困难, 因此模型的表现也会有很大的下降. 除此之外, 从表中还可以发现词匹配方法在使用错误图像的情况下表现会下降更多. 正如2.1 节和3.1 节所描述的, 词匹配的方法更多地关注于细粒度的词对齐以及词语义交互,当使用错误图像信息时, 模型会被误导使用不正确的信息对词的语义理解进行增强, 从而做出错误的判断.粗粒度图像特征表示与细粒度图像特征表示的比较. 和第5.3 小节中的分析类似, 在该小节中, 本文也验证不同粒度的错误图像使用方法对模型的影响. 首先从表5 中可以发现, 细粒度的图像特征使用方法对模型的表现影响更大. 由于细粒度的图像特征是直接作用于词级别的语义增强, 不正确的信息将会误导模型错误理解词级别的语义, 更别说句子级别的语义.因此当使用错误图像时, 细粒度的图像特征表示方法会导致模型表现有更大的下降. 其次,可以发现细粒度的图像特征对词匹配模型在更具挑战的测试集上的表现影响更大. 这个现象表明对图像信息利用得越充分, 图像信息对模型的表现影响就更大. 再者, 本文还发现一些不正常的现象: 部分模型使用细粒度的图像特征时, 模型表现下降的程度要低于使用粗粒度的图像特征, 这与本文最初的发现是相互矛盾的. 在对实验设定以及训练测试过程详细分析之后发现, 模型在训练过程中, 使用的实验设置是正确的图像信息, 但当在测试集上评价模型表现时, 实验设置发生改变, 使用随机的不相关的错误图片, 模型在不同测试集上的表现也就很难预测, 因此在该条件下, 各个不同模型会出现一些不正常的现象.VGG19 模型结果与Resnet50 模型结果的比较. 通过对比使用不同图像处理模型时各个模型的表现, 本文发现更多的证据证明在之前章节得到的结论. Resnet50 模型[ 1 8 ]相对于VGG19 模型?有更深的网络结构, 因此它能够抽取更全面、 更准确的图像特征表示, 也因此对模型表现有更大的影响.因此无论是使用正确图像对模型效果进行提升还是使用错误图像导致模型效果降低, Resnet50 模型带来的影响都要大于VGG19 模型.488 计 算机 学 报 2021年6 结论和展望本文设计一种通用的即插即用框架用于验证图像信息是否有助于理解与表示自然语言句子语义.借助该框架, 本文能够从多个不同角度更为全面验证图像信息对模型理解与表示句子语义的影响. 同时自然语言推理是一个单一的句子语义匹配问题,在数据标注过程中并没有考虑图像信息.因此将图像信息引人到该任务中能够更客观地评价图像信息对句子语义建模分析的影响. 本文复现5 个最先进的自然语言推理方法, 深人对比引人图像信息前后模型的表现. 实验结果表明使用合适的图像信息能够不同程度提升各个模型理解与表示句子语义的能力. 除此之外, 本文还深人分析不同图像使用方法、不同图像处理模型对自然语言推理模型最终效果的影响. 大量实验证明图像信息利用得越充分, 对模型造成的影响越大. 因此, 从实验中可以发现细粒度的图像使用方法与词匹配方法所造成的影响更大. 更进一步, 本文还将每个句子对对应的原始图像随机替换为任意一张不相关的图像, 更好地分析图像信息对模型理解与表示句子语义的影响.在接下来的工作中, 本文将以一种更具体、 更全面的形式验证图像信息对自然语言语义表示的影响, 探索更好的图像文本联合建模方法, 并将本文提出的通用即插即用框架扩展到更多的句子语义理解任务中.参 考 文 献[1]DolanWB?Brocket tC. Automat icallyconst ructi ngacorpusofsententialparaphrases//Proceedingsofthe3rdInt ernationalWorkshoponParaphrasing( IWP2005) . 2005[2]BowmanSR, AngeliG,Pot tsC, ManningCD. Al argeannot at edcorpusforlearningnaturallanguageinf erence//Proceedingsoft he2015Conf erenceonEmpiricalMet hodsinNaturalLanguageProcessing. Lisbon,Port ugal ,2015 : 632642[3]BowmanSR? Gaut hierJ? Rast ogiA, etal. Afast unif iedmodelforparsingandsent enceunderstanding//Proceedingsoft he54t hAnnualMeet ingof theAssociat ionforComput at ionalLinguist ics( Volume1: LongPapers) . Berlin, Germany,2016: 1466 1477[4]WangP, WuQ, ShenC, vandenI l engelA. TheVQAmachine: Learninghowtouseexistingvi sionalgorithmstoanswernewquestions//Proceedingsof t heIEEEConf erenceonComputerVisionandPat t ernRecognit ion. Hawaii, USA,2017: 11731182[5]JohnsonJ? I l ariharanB?vanderMaat enL?etal. CLEVR:Adiagnost icdatasetf orcomposit ionallanguageandelementaryvi sualreasoning//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognit ion. Hawai i ,USA,20 17: 1988 1997[6]SuhrA, LewisM, YehJ ,Art ziY. Acorpusofnat urallanguageforvisualreasoning//Proceedingsof the55 thAnnualMeeti ngoft heAssociat ionfo rComput at ionalLinguist ics( Vol ume2: Short Papers). Vancouver ,Canada ,2017: 217223[7]AndrewsM?ViglioccoG?VinsonD. Integrat ingexperienti alanddist ribut ionaldat atolearnsemant icrepresentat ions.PsychologicalReview,2009,116(3) : 463[8]BarsalouLW. Groundedcognit ion: Past ,present , andfut ure. TopicsinCognit iveScience,2010 , 2(4) ; 716 724[9]GoyalY?KhotT? Summers St ayD? et al. MakingtheVinVQAmat t er: Elevat ingt heroleof i mageunderstandinginVisualQuestionAnswering//Proceedingsof t heIEEEConferenceonComput erVisionandPat ternRecognit ion.Hawaii, USA, 2017: 6904 6913[10]ZhangP?GoyalY?Summers St ayD?etal. YinandYang:Balancingandansweringbinaryvisualquestions//Proceedingsof theIEEEConferenceonComputerVisionandPat ternRecognit ion. LasVegas, USA,2016; 5014 5022[11]AntolS,AgrawalA, LuJ,etal. VQA: Visualquestionanswering//ProceedingsoftheIEEEInt ernat ionalConferenceonComputerVision. Santi ago ,Chile,2015; 2425 2433[12]TalmanA, YliJyraA, TiedemannJ. Nat urallanguageinferencewithhierarchicalbilst mmaxpoolingarchit ect ure.arXivpreprint arXiv: 1808. 08762 ,20 18[13]ChenQ,ZhuX, Li ngZ,etal. EnhancedLSTMfornat urallanguageinference//Proceedingsof the55thAnnualMeetingof theAssociat ionforComputat ionalLinguist ics( Volume1:LongPapers) . Vancouver,Canada,2017; 1657 1668[14]TanC, WeiF, WangW,et al. Mult iwayat t ent ionnet worksformodelingsent ence pai rs//Proceedingsof the27thInt ernationalJoint Co nferenceonArtif icialI nt elligence. Stockholm?Sweden, 2018: 4411 4417[15]LiuX, DuhK, GaoJ. Stochast icanswernet worksfornat urallanguageinference. arXivpreprint arXiv:1804. 078 88,2018[16]ChenQ, LingZ I I , ZhuX. Enhancingsent enceembeddingwithgeneralizedpooling. arXivpreprintarXiv: 1806.0 9828,20 18[17]SimonyanK,ZissermanA. Verydeepconvolutionalnet worksforlargescaleimagerecognition. arXivpreprintarXiv:140 9. 1556 ,2014[18]l i eK,ZhangX,RenS, SunJ. Deepresiduallearningforimagerecognit ion//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognition. Copenhagen,Denmark,2017; 770 778张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析 4893 期[19]KhotT,SabharwalA,ClarkP. SciTail : At ext ualentailmentdat asetfromsciencequest ionanswering//Proceedingsof the32ndAAAI ConferenceonArtificialIntel ligence. NewOrleans,USA,2018; 5189 5197[20]YinSchutzeI I , XiangB,ZhouB. ABCNN: At tent ionbasedconvolutionalneuralnetworkf ormodelingsent encepai rs. Transact ionsoft heAssociat ionforComput at ionalLinguisti cs, 2016 ,(4) : 259 272[21]ChengJ? DongL, Lapat aM. Longshort t ermmemorynetworksformachi nereading//Proceedingsof the2016ConferenceonEmpiricalMethodsi nNat uralLanguageProcessing. Austin, USA,2016: 551 561[22]ParikhAP,TackstromO,DasD,UszkoreitJ. A decomposableatt ent ionmodelfornat urallanguageinference//Proceedingsofthe2016ConferenceonEmpiricalMethodsinNat uralLanguageProcessing. Aust in,USA,2016;22492255[23]VaswaniA,ShazeerN?ParmarN?et al. At tent ionisallyouneed//ProceedingsoftheAdvancesinNeuralInf ormationProcessingSyst ems. LongBeach,USA,2017 :5 998 6008[24]MouL, MenR, LiG,et al. Naturallanguagei nferencebyt reebasedconvolut ionandheurist icmat ching//Proceedingsof the54thAnnualMeetingof theAssociationforComput ationalLinguistics( Volume2: ShortPapers) . Berlin, Germany,2016: 130 136[25]TayY, TuanLA,I l uiSC. Acomparepropagatearchit ect urewit hal ignmentfactorizat ionfornaturallanguageinference.arXivprepri ntarXiv:180 1. 00102 ,2017[26]KimS, I l ongJ I I , KangI , KwakN. Semanticsent encemat chingwi thdenselyconnect edrecurrentandco at t ent iveinformation//Proceedingsoft he33rdAAAIConf erenceonArt ifi cialInt elligence. Hawaii ,USA, 2019: 6586 6593[27]LiuY, SunC, Li nL, WangX. Learningnat urall anguageinferenceusingbidirectionalLSTMmodelandinner at t ent ion.arXivprepri ntarXiv: 1 605. 0 9090 ,2016[28]RocktaschelT, GrefenstetteE, HermannKM, etal.Reasoningaboutentailment wi t hneuralat t ention. arXivpreprint arXiv: 1509. 0 6664, 2015[29]ChenQ,ZhuX, LingZ I I,et al. Neuralnat urallanguageinf erencemodelsenhancedwit hext ernalknowl edge//Proceedingsoft he56t hAnnualMeet ingof t heAssociationforComputat ionalLinguist ics. Melbourne, Aust ralia,2018:2406 24 17[30]FangI I , Gupt aS,IandolaFN?etal. Fromcaptionstovisualconceptsandback//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognit ion. Boston,USA,2015: 1473 1482[31]PanY, MeiT, YaoT,etal. Jointlymodelingembeddi ngandt ranslat iontobridgevideoandlanguage//Proceedingsoft heIEEEConferenceonComputerVisionandPat ternRecogni tion. LasVegas, USA, 2 016: 4594 4 602[32]Vinyals0, ToshevA, BengioS, ErhanD. Showandt ell : Aneuralimagecapt iongenerator//ProceedingsoftheIEEEConf erenceonComputerVisionandPat t ernRecognit io n.Boston,USA,2015: 3156 3164[33]WuQ, ShenC, LiuL,etal. Whatvaluedoexplicithighlevelconceptshaveinvisiontolanguageproblems?//Proceedingsof theIEEEConferenceonComputerVisionandPat ternRecognit ion. LasVegas, USA, 2016; 203 212[34]DasA, Kot turS, GuptaK,et al. Visualdialog//Proceedingsof t heIEEEConferenceonComputerVisionandPat ternRecognit ion. Hawaii ,USA, 2017: 3 26 335[35]MaoJ, XuW, YangY, etal. Deepcaptioni ngwi t hmult imodalrecurrent neuralnetworks( mRNN) . arXivpreprintarXiv:1412. 6632 ,2014[36]MaL, LuZ, LiI I. Learningtoanswer questionsfrom imageusingconvolut ionalneuralnetwork//Proceedi ngsoft he30t hAAAIConf erenceonArt if icialInt ell igence. Phoeni x,USA,20 16: 3567 35 73[37]ZhangK?LvG?WuL, et al. I mage enhancedmult i levelsentencerepresent ationnetfornat urallanguagei nference.IEEETransact ionsonSyst ems, Man,andCybernet ics:Syst ems,2019, ( 99) : 1 15[38]Xie N,Lai F,DoranD,KadavA. Visualent ailment: Anoveltaskforfinegrainedimageunderst anding. arXivpreprintarXiv:1901.06706,2019[39]ZhangK, LvG, ChenE, et al. Cont ext aware dualat t entionnet workf ornat urallanguageinference//Proceedi ngsof thePacific AsiaConferenceonKnowledgeDiscoveryandDat aMining. Macau, China, 2019 : 185 198[40]WilliamsA, NangiaN, BowmanS. Abroadcoveragechallengecorpusforsentenceunderstandingthroughinference//Proceedi ngsof the2018ConferenceoftheNorthAmericanChapteroft heAssoci at ionforComput at ionalLinguist ics :HumanLanguageTechnologies, Volume1( LongPapers).NewOrleans,USA,2018: 1112 1122[41]MikolovT,SutskeverI ,ChenK, et al. Dist ribut edrepresentat ionsofwordsandphrasesandt heircompositi onali ty//Proceedingsof t heAdvancesi nNeuralInformationProcessingSyst ems. LakeTahoe, USA,2013: 3111 3119[42]PenningtonJ,SocherR?Manni ngC. GloVe: Globalvectorsforwordrepresent ation//Proceedingsof the2014ConferenceonEmpiricalMethodsinNat uralLanguageProcessing(EMNLP) . Doha, Qatar,2014: 1532 1543[43]GongY, LuoI I,ZhangJ. Nat urall anguageinf erenceoverinteract ionspace. arXivprepri ntarXiv: 1709. 04348,2017[44]Pet ersME, NeumannM? IyyerM, et al. Deepcont extualizedwordrepresent ations. arXivpreprintarXiv: 18 02. 05365 ,2018[45]ChenD,FischA,West onJ,BordesA. ReadingWikipediatoansweropendomainquestions//Proceedingsofthe55thAnnualMeet ingoftheAssociationf orComput ationalLi nguist ics( Volume1: LongPapers) . Vancouver? Canada,20 17: 1870 18 79[46]GururanganS? Swayamdipt aS, Levy0,et al. Annot ationart ifactsinnaturallanguageinferencedat a//Proceedi ngsofthe2018Conf erenceoft heNort hAmericanChapt erof t heAssociat ionforComput at ionalLinguist ics: HumanLanguage490 计 算机 学 报 2021年Technologies,Volume2(ShortPapers). NewOrleans,USA,2018 :107-112[47]SrivastavaRK,GreffK,SchmidhuberJ. Highwaynetworks.arXivpreprintarXiv: 1505. 00387 ,2015[48]l ieI I, Gimpel K,LinJ. Multi-perspectivesentencesimilaritymodelingwithconvolutionalneuralnetworks//Proceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessi ng.Li sbon,Portugal,20 15 : 1576-1586[49]LinZ,FengM,dosSantosCN,etal.Astructuredself-attentivesentenceembedding.arXivpreprintarXiv: 1703. 03130,2017[50]YoungP,LaiA,I lodoshM,I lockenmaierJ.Fromimagedescriptionstovisualdenotations: Newsimil aritymetri csforsemanticinferenceovereventdescriptions. TransactionsoftheAssociationforComputationalLinguistics,2014,(2): 67-78[5 1]Glockner M,ShwartzV,GoldbergY.Breaking NLI systemswithsentencesthatrequiresimplelexicalinferences//Proceedingsofthe5 6thAnnualMeetingof the Association forComputationalLinguistics(Volume 2:ShortPapers). Melbourne,Australia,2018 : 650-655[52]OrrGB,MullerK-R. NeuralNetworks: TricksoftheTrade.Berlin,Germany:Spri nger,2003ZHANGKuit)Ph.D.>lecturer.Hisresearchinterestsincludenatural: slanguageprocessinganddeeplearning.w%LVGuang-Yi , Ph.D.candidate.Hisresearchinterestsincludenaturallanguageprocessingandcomputervision. .WULe, Ph.D. ,associateprofessor.Herresearchinterestsincludeeducationaldataminingandknowledgediscoveryindatabase,recommendersystem,social network.LIUQi, Ph.D. ,professor.Hisresearchinterestsincludedataminingandknowledgediscoveryindatabase,machinelearningmethodandappl ication.CHENEn-Hong,Ph.D.,professor.Hi sresearchinterestisdatamining.BackgroundThispaperfocusesonleveragingimageinformationtoenhancethesentencesemanticunderstandingandrepresenta?tion.Recently,Visual-to-Language(V2L)hasbecomeahottopicandattractedmoreandmoreattention.Ittakestheimagesintoconsiderationfortheunderstandingandrepresen?tationofsentencesemanti candhasbroadappl ications>suchasImageCaptioni ng,VisualQuestionAnswering,VisualDi?alog,aswell asVisual Reasoning.Currentmethodsusual lyemployeeaCNNandanRNNas“encoders”forimageandsentencesemanticrepresentations , respecti vely.Inordertointegratethesetwotypesofinformation,attentionmecha?nismisoftenutil izedforthefinaldecision.Withthedevelop?mentofrepresentationmethods,suchastransformer,BERTandGPT-3 ,researchersal sotrytol everagethetransformertomodeltheimagesandsentencessimul taneously.TheseCog?nitivescientistshavealsoadvocatedthatothermodalities(e.g. , images)arequitehelpfulforsemanticunderstandingenhancement.Inourwork,wetrytofigureourwhetheradditionalimageinformationcanhelptounderstandandrepresentsentencesemantics.Therefore, wefocusonNatural LanguageInfer?ence(NLI)>atypicalsentencesemanticunderstandingtask,andintroducei magesasextrainformationtoverifytheeffect.Then,weproposeageneralpl ugandpl ayframeworkforflexibleimageutilization.Basedonthisframework,were-implementfivestate-of-the-artNLImodelsandcomparetheirperformanceswithdifferentimagesettingsonalargeannotatedNLIdataset( SNLI).Finally, wepresentaseriesoffindingswithquantitativemeasurementsandin-depthanalyses.ThisresearchispartiallysupportedbygrantsfromtheNational ScienceFoundationforDistinguishedYoungScholarsofChina (GrantNo.6 1325010),theNatural ScienceFoundationofChina(GrantNo.6140335 8) ,andtheFundamentalResearchFundsfortheCentralUniversitiesofChina. |
[返回] |