欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
SCI期刊论文
当前位置:首页 > SCI期刊论文
图像信息对句子语义理解与表示的有效性验证与分析
来源:一起赢论文网     日期:2021-12-05     浏览数:864     【 字体:

 第44 第3 2021 年3 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No. 3Mar. 2021图像信息对句子语义理解与表示的有效性验证与分析张 琨^吕广奕2 )吴 乐u刘 淇2 )陈恩红2 )1 :)(合肥工业大学计算机与信息学院 合肥23 0601)2)( 中国科学技术大学计算机科学与技术学院 合肥230 027)摘 要 近年来, 图像文本建模研究已经成为自然语言处理领域一个重要的研究方向.图像常被用于增强句子的语义理解与表示. 然而也有研究人员对图像信息用于句子语义理解的必要性提出质疑, 原因是文本本身就能够提供强有力的先验知识, 帮助模型取得非常好的效果; 甚至在不使用图像的条件下就能得出正确的答案. 因此研究图像文本建模需要首先回答一个问题: 图像是否有助于句子语义的理解与表示? 为此, 本文选择一个典型的不包含图像的自然语言语义理解任务: 自然语言推理, 并将图像信息引人到该任务中用于验证图像信息的有效性. 由于自然语言推理任务是一个单一的自然语言任务, 在数据标注过程中没有考虑图像信息, 因此选择该任务能够更客观地分析出图像信息对句子语义理解与表示的影响. 具体而言, 本文提出一种通用的即插即用框架(generalplugandplayframework) 用于图像信息的整合. 基于该框架, 本文选择目前最先进的五个自然语言推理模型, 对比分析这些模型在使用图像信息前后的表现, 以及使用不同图像处理模型与不同图像设置时的表现.最后, 本文在一个大规模公开数据集上进行了大量实验, 实验结果证实图像作为额外知识, 确实有助于句子语义的理解与表示. 此外, 还证实了不同的图像处理模型和使用方法对整个模型的表现也会造成不同的影响.关键词 图像文本建模; 句子语义理解与表示; 图像信息; 即插即用框架; 自然语言推理中图法分类号TP301DOI号1 0.1 189 7/SP.J.101 6.2021.00476TheEffectivenessVerificationandAnalysisofAdditi onalImagesforSentenceSemanticUnderstandingandRepresentationZHANGKxinV) ^LVGuangYi2)WULe1}LIUQi2)CHENEnHong2)1 :) {SchoolofComputerScienceandTechnol ogy? IlefeiUniversi tyofTechnology^ Ilefei230601)2) {SchoolofComputerSci enceandTechnology?Uni versi tyofSci enceandTechnologyofChi na? Ilefei230027)AbstractRecentl y,theVi sual t〇 Language( V2L)probl emhasattractedmoreandmoreattenti onandbecomeani mportantresearchtopi cinnaturall anguageprocessi ng. Byuti l i zi ngConvol uti onalNeural Networks( CNN) ?RecurrentNeuralNetworks( RNN)?andAttenti onMechanism?researchershavemadeful luseofi magesandachievedmuchprogressinV2Lprobl em,especial l yi ntheareaofnaturall anguagesemanticunderstandi ng.Infact,i magesareoftentreatedasthei mportantauxi liaryi nformati ontoenhancethesentencesemanticunderstandi ng.However,someresearchershavequestionedthenecessi tyofusi ngi magesforsuchunderstandi ngenhancement.Theyarguethatt extuali nformati onhasal readyprovi dedaverystrongpri ortopromi sethegoodperformanceofmostsemanti cunderstandi ngmodel s, whi chareevencapabl eofgenerati ngcorrectanswerswithouttheconsi derationofi magesinsomescenari os.Thus, thefirstcrucialprobl emofV2Lresearchshoul dbeaddressediswhetherthei magei nformati onisreal lynecessaryandhelpfulforsentencesemanticunderstandi ngandrepresentati on.Tothisend,i nthispaper,wefocusona收稿日期:20 19 11 15; 在线发布日期:2020 05 26. 本课题得到国家杰出青年科学基金( 6132 50 10 )、 国家自然科学基金( 614 03 358 )、 中央髙校基本科研业务费专项资金资助. 张 琨, 博士, 讲师, 主要研究方向为自然语言处理与深度学习. Email: zhang1028 kmi @gmail.com. 吕广奕, 博士研究生, 主要研究方向为自然语言处理、 计算机视觉. 吴 乐, 博士, 副教授, 中国计算机学会( CCF) 会员, 主要研究方向为教育数据挖掘及知识发现、 推荐系统、 社交网络. 刘 淇, 博士, 特任教授, 中国计算机学会( CCF) 会员, 主要研究领域为数据挖掘与知识发现、 机器学习方法及其应用.陈恩红( 通信作者) , 博士, 教授, 中国计算机学会( CCF) 会士, 主要研究方向为数据挖掘. Email :cheneh@ust c. edu. cn.3 期张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析47 7typicalsent encesemanticunderstandi ngtaskwithouti mages,NaturalLanguageInference( NLI) ,whichrequiresanagenttodetermi nethesemanti crelati onbetweentwosentences. Then,wei ncorporatei magesastheauxiliaryi nformati oni ntothesentencepairtoveri fytheireffect.Si ncei ti sorigi nal l yapurenaturall anguagetaskandi magesarenotconsi deredtobeusedduri ngthewhol eprocessofdataannotati onandsentencesemanti cmodel i ng,choosi ngNLItaskforeval uati oncanhelptoassessthei nfl uenceofimagei nformati ononsentencesemanticunderstandi ngandrepresentati onmoreobjecti vel y.Tobespecifi c,wefi rstdesignageneralpl ugandpl ayframeworkfori mageuti li zati onandi ntegrati on,whichconsistsoffourgenerallayers,i . e.,InputEmbeddi ngl ayer, Contextual EncodingLayer,Interacti onLayer, andLabelPredicti onLayer,andtwopl ugandpl ayl ayers,i .e., Fi ne Grai nedContext EnhancedLayerandCoarse Grai nedContext EnhancedLayer. Basedonthi spl ugandpl ayframework, wethenreproducefi vestateofthe artNLImodel s,i .e.,HierarchicalBi LSTMMaxPooli ngmodel ,EnhancedSequentialInferencemodel ,Mul tiwayAttenti onNetworkmodel ,StochasticAnswerNetworksmodel andGeneral izedPool ingmethodwiththesamedeepl earningframework.Next,weeval uatethei rperformanceswithorwithouti magesonalargeannotatedStanfordNaturalLanguageInferencedataset.Inordertobetterverifytherol eofi mages,weal socomparetheperformancesofmodel swi thdifferentimageprocessingmethods( VGG19andResNet50)anddi fferentimageuti l izati onmethods(Fi negrainedmethodandCoarsegrainedmethod). Atl ast ,extensi veexperi mentalresul tsrevealthati mages,astheexternalknowl edge,arereal l yhelpfulforsentencesemanticunderstandi ng. Furthermore,wehaveobtai nedsomeotherconcl usi ons:(1)Finegrai nedimageuti l i zati onmethodiscapabl eofprovi dingmuchmoreuseful informati on.Meanwhil e,thiski ndofmethodhasagreateri nfl uenceonthesentencesemanticunderstandi ngandrepresentati onofmodel s;( 2)Asamoreadvancedmethod,ResNet50canextracttheimportantinformati onfromi magesmoreprecisel ythanVGG19,whichisabl etoprovi demuchmorecomprehensi veauxiliaryi nformati onforsentencesemanti cunderstandi ngandrepresentati onmodel s.Keywordsvisualto l anguage;sentencesemanticunderstandi ngandrepresentation;i magei nformati on;pl ugandpl ayframework;naturall anguagei nferencei 引 言句子语义理解与表示是自然语言处理( NLP) 中一个重要的研究内容. 该研究要求一个模型能够利用给定的信息( 图像或者文本) 分析目标句子的语义, 并且服务于其他具体的任务. 例如: 在复述识别(ParaphraseIdentificati on, PI) 任务中, 模型需要将给定的两个句子作为彼此的情境信息, 分析这两个句子是否表达同一个意思[1]; 在自然语言推理(NaturalLanguageInference, NLI) 任务中, 模型需要以前提句子为情境信息, 判断是否能从前提句子推理出假设句子的语义&3]. 现如今, 通过图像文本建模(Vi sual t〇 Language, V2L) 对句子语义进行理解与表示也受到越来越多的关注, 例如视觉问答( Vi sualQuesti onAnsweri ng, VQA)[ 4]、 视觉推理( VisualReasoning)[5 6]等. 认知科学相关的研究也证实其他模态的信息(例如图像) 对句子语义理解增强有着巨大的帮助[7 ?.然而, 虽然文本信息已经能够提供一个强有力的先验信息, 帮助模型取得一个非常好的效果%°],甚至在不使用图像的条件下就能得出正确的答案,但是在复杂情况下图像依然可以发挥重要的作用.图1(a) 展示这样的一个例子, 该例子来自视觉问答数据集VQAvl.0[ 1 1 ], 当提出“Isthegrasstal l erthanthebaby?”这样一个问题时, 大多数情况下答案都是“Yes”, 因为“baby”是非常小的. 此时图像信息似乎并没有那么大的用处. 但当处理相对复杂的任务, 例如自然语言推理时, 图像信息又发挥着巨大的作用, 例如图1( b) 给出的例子, 该例子来自 自然语言推理数据集SNLI[ 2 ], 原始数据集中并不包含直接的图像信息.当判断两个句子之间的语义推理关478 计導机攀报: _1苹系时j■ 可以发现前提句子酣语叉是模糊的4 无法判断前提句子中的夭气是什么样的? 尽管人们苽以利用;fc验知识从“onteicbia往rket”推理出“sunnyday’'%但这 本是确定天疑的,更别说连先验知识都投有的模型? 但当引人菌像信息. 增强对句子的语义埋:解时; 就可以很轻松地判断出这两个甸子之间的语义推理关系是蕴涵,图1 憲自J#个本W数擦彙中的齋义處_裯子因此* 为了验1正视?觉图像信息是:否有助于对句子语义的理解与表示, 本文选择一?个典塑的自然语言语义现解任务:自然语言推理, 来验证图像倩息的有效性? 选择诱任务的原h是a为康始的自然镣育推理是一个纯文本理解任务, 在整个数据标浅的过程中弁找有引人图像儀息的影响, 因此该任务能够更客观地展示图像信息的引人对句子语义理解的影响. *体而言, 本文设计一种逋用的即辑即用禪集(generalplugaroip.kyfcaiTteworlO, 能够以多种木同的形式. 灵活地将虜像倩息整合到语义_模的过程中. 基于该框架, 本文1复现五种目前最箱进的方象*分劍是HifcrarchkalBiLSlSVIPooling(Hbrnp)Cl 2 ]-^EnhancedSequentialInf?"eiicemo: del(ESIM)Cl 3 ]^Mnl tmgyiittentianNetworkCMwan)[1?sStochasticAnswerEfotwarksCSAN)Cl 5]K及C?ti,ej;ali:aedPooliitg:method (GP)〔1 6]. 这些靠法代表目前自雜语w推理任务中两种最常用的框架: 句子编码框架和词匹配框架,除了文本处理方法,在属像处理方法上本立逸择目前最常用的两种方法:VGG1#1 7]和Resnet50[l s ]?: 同财;: 蠢了好地論证酿像慰息前巖响, 本文麗择两种不同的翅像特征表,示方法:( 1.) 粗粒度方法,选择两神圏像模塑倒数第'二层的全连接层的输出作为■圓像信息的向量表示. ,并将该向量表示整脅'到通用框架中的匹街績K2> 细粒食:方法? 选择顧像模型的最后一个卷积長的输出结果作为H像#征的矩阵表 丼将矩阵表示整含到通租框、 架中的情境信息增强层.爾屛本文设计一系列时实验验证西像信息对句子语义理獬的巖响, 并进行深人分析, 最終樽到一些发现:(1) 图像像息确实有助£f'理:解与表示旬子语义;(2) 细粒度的齊像使用方法可以提供寅多有用的癀息, 对文本捂义理解与表示勝影嗬:更大r|3TR6siietSG[l s]柑对予¥001§[1?模型能够抽取更准确的图像特征信息, 为句子语义理獬提供更全面的辅助債息^2 相关工作本文的相关工作可以分为三个部分:(1)B: 翁语言推理: 主褰介紹利用文本債息判断两个句子之间的谞义推理关系的相关工作K2) 菌像文本建模:主要介绍通过_偉信息. 辅助自然语言理解'的相关工作;(3) 视觉自然语言推理: 主要介绍刺甩图像增强甸子语义表示与推理的相关工作.2. 1 自然语言推理随着太规摸数据集, 例如smj2]、SCtAlL[ 1 9 ]等的不断发布, 以及各种各样神经_络技术, 例如CNM[2。]、LSTl#獨和注意力机制阳2 3]的迅速发赓?大量理解与表示自然语言句子语义的方法被提出来用于解决自然语言推理何题. 这些方法主要分为两种框梁: 句子语义编码框樂与词匹?框架.句子瑨义编码框架通过生成固定长度的句子语义表示向黧, 利用这些句子语义表示词 来璜测两个句子之间的磨义关系? 目前B有大蓋基于该框架的方法被提出来, 例如TBCNN[2 4]、 CAFE[2 5]和D、RCN[ 2 6 ]. 这些方法的梭心是逋过从不同角度编码句于谞义增强对旬予谮义的理解与表示? 特别地. 法意力机制能够根据实际霄求为输出选擇最合楚的输人, 因此注意力机制被大量座用于句子语义表示■方法中. 例如, Lk等人C2 7]提出内部注意力来模仿人类在阅读肘更关注那些重藝词的行为, 接下来, 他们使用平均池化4成句宇语义的阿董表示?Chen.等人[1 6]将迮意力机制扩廣为多头形式5 并生成多个不同的句子语义表示向餐用于表示句子不同方面的语义.除此之外* 屋次化结构, 例如层坎化的KLSTM和最大池化操作tl2], 也被用来从多个不同角度构建句乎语义的向量表示.第二种框架更多地关隹旬子之间的词窜义对齐供廣词讓别的: 句子间儀义食互?例如tR〇cktfechel等人 撵出'词级别的法意力机制甩于获取词与句子之间的注意力分部信息. Chen 等人M利用互往张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析 47 93 期意力建模词级别的局部推理关系. 除此之外, 他们还使用词级别的启发式匹配方法以一个更细粒度的方式建模句子之间的语义关系. Tan等人[1 4]采用多个不同的注意力计算方法, 从词级别匹配两个句子之间的语义关系. 他们声称不同的注意力计算方法能够帮助识别不同的关系类型. 除此之外,一些研究人员将额外的先验知识引人到推理过程中, Chen等人[ 2 9 ]将两个句子之间的同义词、 反义词、 上下位词等先验信息显式编码, 然后引人到注意力计算、 局部推理收集以及推理关系整合等模块, 实现了语义推理关系的准确识别. 然而, 大多数的这类方法都更关注于句子文本本身, 通过不同的方式从多个角度建模分析句子语义, 但他们并没有考虑句子文本以外的信息( 例如图像信息) 对句子语义理解的辅助和增强作用. 也就是说这方面的研究仍有很大的进步空间.2. 2图像文本建模近些年, 将图像信息和文本信息联合起来进行图像文本建模已经成为一个非常热门的研究方向,大量图像文本相关的问题也不断地被提出来, 例如图像描述生成(ImageCapti oni ng)[3°3 2]、 视觉问答(Vi sualQuesti onAnsweri ng)[ 3 3 ]、 视觉对话( Vi sualDial 〇g)[ 34]、视觉推理(VisualReas〇ni ng[ 5 6]) 等.目前最好的图像文本联合建模方法通常会分别选择一个CNN和一个RNN作为图像和句子的编码器, 用于生成图像与句子的特征表示. 同时为了更加有效地整合这两种不同类型的信息, 注意力机制一般也会被考虑进来. 例如Mao 等人[3 5]在每一步利用前一个词和图像的CNN特征结果来估计下一次词的概率分布, 从而更好地生成图像的描述句子;Ma等人[ 3 6 ]使用了不同的CNN同时处理图像特征和句子特征. 接下来, 他们将这些特征融合起来, 用于生成输人问题的答案. 更进一步, 为了更好评估图像信息的影响, Zhang等人[ 1 °]将二值视觉问答问题转换为图像区域有效性验证问题. 他们试图回答句子的语义信息是否能够在图像中找到对应的视觉内容. 通过这样的实验, 图像对句子的抽象语义表达就能够被更好地验证. 然而, 相对于文本建模, 图像建模所需的计算和存储开销更大, 与此同时, 在某些条件下, 引人图像信息所带来的文本建模效果提升并不明显, 例如图1 中的例子( a) , 在不考虑图像信息的情况下依然能得到正确的答案, 这样的例子在VQAvl.0[ 1 1]数据集中还有很多. 因此仍然有一些研究人员认为句子文本本身的信息就能够提供强有力的先验, 并保证模型能够取得非常好的表现, 甚至可以在不考虑图像信息的情况下生成正确的答案[1°]. 因此, 图像信息是否有助于句子语义的理解与表示仍然不清楚, 需要在对句子语义理解要求更高的场景下进行更为深人的研究来验证图像信息对模型理解与表示句子语义的影响.2. 3 视觉自然语言推理受图像文本建模的快速发展所启发, 研究人员提出许多利用图像信息增强对句子语义的理解与表示的工作. 特别地, 有研究人员将图像信息引人到自然语言推理任务中, 利用图像信息辅助对句子对的语义推理关系进行判断. 例如: Zhang 等人[3 7]利用图像特征生成词语义的另一种表示, 并将其与词的原始表示整合起来, 用于增强对词与句子的语义表示. 除此之外, 他们还提出多层次的结构用于更全面地建模句子语义以及句子之间的语义关系. Xl e 等人[ 3 8 ]提出一个新的自然语言推理数据集( VNLI) ,在该数据集中, 前提句子被对应的图像信息所替换.他们试图利用这个数据集验证细粒度的图像理解与表示. 虽然目前有很多将图像信息整合到语义理解过程中的工作[3 9]. 但这些方法大多是通过同时引人图像信息和设计不同的网络结构实现最终效果的提升, 图像对句子语义理解是否有增强作用以及对模型效果的提升程度仍然不明确. 为此, 本文设计了一种通用的推理框架, 在此框架下通过对比多个当前先进的自然语言推理方法在仅改变图像信息利用方式的条件下的表现, 实现对图像信息的增强作用的准确验证与分析. 这也是本文的主要研究内容.3 问题定义与通用推理框架3. 1 问题定义作为一个有监督分类问题,自然语言推理任务输人为前提句子的表示Z={ <, <,…,气} 和假设句子的表示J={ wK,…, wl}, 目标是训练一个b分类器, 能够准确识别两个句子之间的语义关系_y=6(Z, P). 其中, <和w丨 是前提句子中第i 个词和假设句子中第J 个词的one hot 向量表示, /^ 和/6 是前提句子和假设句子的句子长度, 待预测的语义关系主要有蕴涵( Entai lment, E) 、 矛盾( Contradi cti on,C)、 中立( Neutral ,N).为了验证图像信息对模型理解与表示句子语义的影响, 本文将图像信息引人到自然语言推理过程中.因此, 和传统的自然语言推理任务相比, 本文480 计導机攀报: _1苹将画像信息J 作为额外的一个输人,因此当预测两个句子之间的语义关系时, 模型形式化定义为y=¥( sa3. 2 针对自然语言推理的通用框架作.为启然语言理解中一个基础但十分重麥的任务>自然语言推理受到越来越多的关 研究人员提出太蒙敗X作用于解决这个阿题. 这些方法大致分为两类框架句子语义编码框架: 将句子语义编码为一个向量拿示> 在此基础上利用各种不同的方法进行捂义推理关系的判断m' 1 6]; 词匹配框架: 更关注句子中的细粒度词对齐以及细粒度的谙义交互^41, 如图2 实线框所示, 本文首先将这两.类框架统一到一个基本桓樂下, 在此基础上介绍本文提出雜纖. _的即猶即用、■架tgeneralpl ugandplayfraRieWQrk).Label PredictionLayer(b)| Qjarse-Grained Context-EnhancedLayer' 11InteractionLayer.(may generatesentencesemanticvector)Contextual Encoding?2.?3?4Contextual Encoding\\Z\^*3(a)Fine-Grained Context-Enhanced Laye;TInputEmbedding LayerX<<<wfw\<图2 针对自然语言推理的通用即插即用框架自然语言推理的基本框架主要包含四层:(1) 输入编码层(InputEmbeddi ngLayer);(2) 情境感知编码层(ContextualEncodi ngLayer);(3) 交互层(InteractionLayer) ;( 4) 预测层(LabelPredictionLayer) . 接下来将详细介绍每一层的具体作用.(1) 输入编码层(InputEmbeddi ngLayer) ? 这一层的输入为前提句子和假设句子中每个词的one-hot向量表示Z={ <, <,…,wl} 和/={<,…该层可以使用多种不同的方法编码 J0每个甸? 为了充分利用大规模文本信息, 研究人员会选择在大规模语料上训练好的词向毚* 例如Word2VeC[41]、 Gl 〇Ve[42].,*了让:词的语义表示更具有任务相关性, 研究人员;^会将字箱级别的询向鼂&3 ]或者ELM〇[44]加人到该层中, 同时一些语法特!#^?]也会被用'来增强毎个词的语义表薪( 最终s该层的输出是 个词的丰富特征表示 U=l,1! ,*?SL*J=18}.( 2 } 情'糧感知'编码_f: GordrextualEncodingLayer.)? 本康雜上一层前输出彳a,|i=1,2 /s1'租{ fc山=1, 2,"} 作为输人, 通过整合句子内部的情境儈息和序列信息生成句子中每个诃更全面的语义表: 本?因此高逮网络(Higliwaf y:Ntw?rk)[47]、Li?#2 1 ]、CS^[禮或释Tr抑sform?:r[ 2 3 ]经食会被用来作为句子语义表示的生成模块? 词时,一些额外的輿駿知识也会被酬入到敎繁中, 读翁的输出是甸擎中每斗_:的:情翁化 曇素示保: U=1,2?ZJ租山.=;U£,,…,4}_袭互层( Inte.racti GnLayer)?琰瑋的■输人是句子中每个词_情; 境化向覺義球 , U=1*2,…, I;,}和 | _/=1 . 2,…. 为了建模分析商个甸子之间的语义交互, 本层通常选择注意力机制[42]建模: 句子之间的语义交互. 对于興匹配方法, 本层主要完成两个句子中的词. 对齐以及语义相似度和交互分析;对于句子语义编码方法, 丰慕吏关注于句子语义的表示. 具体而 本鳥会根据具体任务的术同选择不■的注翥力计算方法, 例如互注翥. 力?、 多头淦倉妒和6法意力 等?舊'餐说明的羞f 旬子捂义编码框架会在该层生成句子窬义的向量表示.预羅SCLabe丨Pre4ietfonLayet) , 驚碧主聲利用交互层的结果进行句子之间的座祀和分类. 具体而言s 本层利用启. 发式的匹配方法CM建.模两个句子之间的语义推理关系. 然后使用多璋感知机<MLPj和sDftmaX(,) 函数进行最终的分类■以. 上就是传统的自然语言推理方法的基本框架. 为了更灵. 活地利用不同类S的情境傷息, 本文提出一种逋用:的即插即用框架tgerasrelpl ugsndframework ;)., 姐图E 所示歡樨雞主藝:灌加了輝慕即插即複层: Ca)细粒度的情境翁息增锤层(FineGrainedContext-EnhaneedLayer) 粗隸 惨墙信息增强MGfai nedLayer). 与其它层相比., 这两层能够謝舌运用各种不.同的情境倩息(例如图像倩.息或者知识图谱倩息>增强对句宁霄义的理解? 并且这商属能够灵猜地从整个模_中加人或者删除,因此本文将该樞架称之为即插即用框架? 在接t来的描述中, 本文以图像信息.为例, 具体介绍这两层.C1) 細粒度的情壤#麗增亂&tFhwrGmtoedGout麵t-EnhanetdLay键I为了更充分地利顧情篇:, 瑪—f 厲像僮5_子—黑鐵攀臂_餘有歌性攀K与分析 481 3 期信息* 词时以一个细粒度的方式和用'情境信息增强对句子语义的理解与表示, 本文设计细粒度的情境信息增强层, 利用图像情境信息对诃级别的语义进行增强. 如图2 中的虚线框(a) 所示,该层的文本输人为输人編码甚前输出{. a;| /=1, 2 和{ 屹U'=1* 2,…, &}, 图像输人为细敉度的图像特征表示 ,@, …,q] (例如VGG19 模型的倒数第二个全连搽层: 的输出结果),由于文本输人和图像输入均为矩阵表示, 本文通过使用不词的融脅方法(例如互注意力机制), 从图像情境信息中抽取对每个词的语义表示最重要價息, 利用这些俸息从男一角度增强对词级别的语义班解, 从而保证词的语义能够更龙全面地建模.. .为了保证这一层的嚴括性与即插即用特点, 读层的输出和输人编码层的输出十分类似, 依然是词级别的语义表示.C:2)粗粒.度的'情糧—息增彌播CCoar,GainedGontx1rEnhai碑dLayef|K 除了细粒度的图像情篇信息表示方法, 图倮情境信息也可以用一十单独的財_c篆示, 相対乎细粒度: 的翁阵羡敢方法4黨方法可以称之为粗粒度的表. 示方法? 为了将这种表系. 整含到整个框架中:5本文考虑将图像的单独向駕暴示与文本的專独_麗表示迸行整合.因此本文设计了粗粒度的情境信息增强gf 用于整含情境信息的粗粒度表示. 图2 中的虚线框<b)展示该层的具体位置<考虑到文本特征表示与?像特征表示均?为询量形式,对两个向量采用我意力机制进行_模意义不大/同时由于交互层已经整合两个句子之间的语义交2:信息>本文直接将画像情境信息的向量表示拼接到对应的输出结果上, 并将得到的结果输人多层感知机迸行爾.后的分类》正如前文所述; 本文时目标S验证图像信惪是否有助于理解与表示句:子语义. 因此, 本文在实验验证过程中同样选择图像作为情境信息. 通过添加删除面像信息, 或者使用不词设置的图像信息验怔图像信息对模型理解与表示句子语义时影响. 需要强调的是该通用即插即甩框架不仅能够奠活地添加或者删除情境信息增强层, 同时能够_常緣活地使用各种不同的情渔信息4 模型与即插即用框架技术介绍本节庄要介绍在通用即插即用框架下獒现的2神自然语賓推理模型的相关实现技术细节.4.1Hbmp模型Hbmp屬型叫!fe—种典型的句子涪义编码方法. 檩湛结构如图3(a) 所示. 该模型利用.房次化的结构进行句子语义编码. 具体而言, Hbmp模型使用鎮祅化的双向LSTM和最大祂化操作取得非常好的效粜? 简单起见. 本文以前提旬子的处理为例. 层次化处理过_可以形式化为如T公式:(a) Hbmp模型框架图3Hbmp模型和ESIM模型的框架(b)ESIM模型框架482 计 算机 学 报 2021年圮=Bi LSTMtJif :, s(: 1Jtil=maxpeol i hgC[!%[ ;^j* ? ?.])S中4和W分别表示第f 层双向LSiir 的筹?'个输人和隐葛状态?V表示第/ 臬的最大池化操作的输出, 同时也是第6鳥的句子语义表示. 在得到所有唐的句子语义表示之踌, Hbmp模型将所有的结果拼接到一起,爆磨利用一个多果感知机进行最_标签的预测.4.2: ESI: M模型W3fbJ展示了ESIM模遨印的整体结构? 该模直将情境感知的句子编码层的输出悦U=1 , 2?…,■ U和床U= 1, 2,…,} 作:为注意力机制的输入, 并使用互注意力t2 1]建模两个句子之间的烏部推理关系.:%=d,■ Aexp(e;?)「_^—, 征[1,2,…, 4],公exp(Q)(2)k-i-exp(^?)厂,b3 ^t—, 紙[l,2,一, “]y^expC g^-)k-1在此之后, ESIM、模雙使用启发式的匹配方法(a)Mwan模型框架对句子之间的局部推理关系进行增强分析; #使用'基于树结构的;LSTM( TreeLlljvO整^_习到的信息*该过程可以形式化为如下表示:p|=TreeLSTM( [a,ja,; t(&, S;:)fCS, ?a,;)])<___Dj?J=TreeL?!MQjb]; b,ji〇>;b])¥(,bj06^) ])最后? 使用平均池化和最大池化处理这些信息s并雜得到的'结杲拼接起来生成谣义推理关系表示向黧V, 并通过一个多层 知机进行最后的分类.4.3Mwan模型Mwan模型=1 4]的整体.结构如遛4(.a) 所示. 这是一个词匹配方法, 该模型使用多神不同的&意力计算方法对旬予窜义进行匹配?具体而言, Mwm模謹设计四种本同的注意力计算方法( 拼接浼意力:(<sneatatteftti on) 双緣注意力( bili near atteiitioii)、点乘注: 意 (dot■gtenti otO、.相减ft奮力(hiiruisat?nti〇n》) E赃每蒼爾中M之间翁语义貴系,: 食T方便稱述, 率: 文:仅,M示归一化之前的西种_掌力衩黨计算方法:^=vf tanh( Ws4,+I7ebi.dij^m^JWb hfj-(_^ vJtanhi Wi-Ct,Ql,); )*— v, ?tanh(_Wni  (ui—b, ))Average1 Softoiax] 1 Softaiaxl |Softmax[图4Mwan模型和SAN模型的框架图(b)SAN模型框架张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析 4833 期其中,4,<和表示前提句子中第z 个词和假设句子中第_; 个词之间未归一化的注意力权重值.分别表示四种不同的注意力计算方法. 在得到未归一化的权重之后, Mwan方法使用加权和的方法整合这些学习到的匹配信息, 该过程可以由式( 5) 形式化表亦:exp(e-? )n lW=l,2,…丄,i iexp(4)ia2exp(e*;)Vj=l , 2,…, Z6(5)其中 由于这些匹配信息仍然关注的是词级别, Mwan模型使用残差连接和GRU整合来自四种不同注意力计算方法的匹配信息, 然后使用加权和整合所有信息. 最后利用多层感知机来预测每个标签出现的概率.4.4SAN模型图4(b)展示了SAN模型[ 1 5 ]的整体结构. 和其他的自然语言推理方法相比, SAN模型更多的关注在决策过程. 首先, SAN模型和ESIM模型一样, 利用互注意力?建模句子之间的语义交互, 然后,SAN模型使用双向LSTTM针对两个句子生成一个工作记忆状态:CLi_:concat(az, az) , , we[i , 2,"., za ]心二:concat(^) , Vj'G[l, 2 ,M:二Bi LSTM( [&, a;], M; i) ,Ml- 二Bi LSTM( [&,其中, AC和M) 表示针对前提句子的第z 个工作记忆状态和针对假设句子的第 个工作记忆状态. 接下来, SAN模型设计一个答案模块在T个记忆步上进行标签预测. 首先, 该模块利用 的加权和作为答案模块的初始状态:exp(c〇,, M)XjexpCc^M:)(7)klbs〇—^_是模型在训练过i中的参数. 接下来, SAN模型采用一种GRU的变种来处理这些工作记忆状态,该过程可以形式化为如下:戽=softmaxG, !WMa) , We[l,2,"-, ( T 1)] ,:EftAT (8)其中, W是模型需要训练的参数, T是决策步数. 在得到每一步的隐层状态之后, SAN模型使用一个单层的分类器计算每一步得到的标签概率, 然后使用平均池化整合所有的概率, 从而得到最终的答案:P, = softmax(L/[5, ;(s, x, );(s, Qx, ) J),( g)P=avg([P〇, P1,? ? ?, PT i l)4.5GP模型GP模型[1 6]也是一种典型的句子语义编码方法, 正如第3.2 小节中描述的, 句子语义编码方法通常会在交互层生成一个句子语义的表示向量. 但这是一个固定的向量, GP模型认为“该向量表示仅仅关注于句子的某个方面”[ 1 6].因此, 它将交互层拓展为多头形式, 并且生成多个句子语义的向量表示. 这样句子语义的不同方面都能够被表示出来, 这点和本文在第2 节中的第一个方法是十分类似的. 接下来, GP模型通过一个拼接操作生成句子语义的最终表示, 并使用多层感知机进行语义推理关系的分类.除此之外, GP模型还设计三种不同的约束, 用于减少多头操作的重复性, 保证最终结果具有多样性, 能够更全面描述句子语义的不同方面. 首先, GP模型在整个模型的参数矩阵上进行约束, 保证不同的句子语义计算矩阵有着不同的参数, 因此, GP模型以如下形式最大化任意两个参数矩阵的Frobeni usnorm:L=Dmax(A| |TT 則^, 0)( 10)i 1 )z+1这里", A 都是预先设定好的超参, 是多头注意力计算中的不同矩阵. 4表示不同注意力计算的个数.其次, GP模型提出对注意力值的矩阵进行约束, 用于保证注意力值的多样性, 与文献[49]中通过添加约束IAATI 〖保证注意力值的矩阵的标量值的多样性相比, GP模型使用如下方式保证注意力值的矩阵的向量值的多样性, 其中, 是多头注意力计算得到的不同注意力值的矩阵:lh lhL二Smax(A| |AI f, 0)( 11)i lji+1最后, GP模型也对句子语义的向量表亦添加约束, 因为多头注意力操作能够生成多个句子语义的向量表示, 所以GP模型提出在句子的向量表示上添加如下形式的约束:lhlhL二^max(A| | v1v}| |f?〇)( 12)i lji +14. 6 基于通用的即插即用框架的解决方案=GRU(5,i, Xt) 本节主要介绍通用即插即用框架中细粒度的情484 计 算机 学 报 2021年境信息增强层与粗粒度的情境信息增强层的相关技术细节. 正如第3.2 小节所描述的, 本文提出的通用即插即用框架主要关注两个额外的层:( 1) 细粒度的情境信息增强层; (2) 粗粒度的情境信息增强层.并且在本文中, 图像信息被选作额外的情境信息对模型理解与表示句子语义进行增强.4. 6. 1 细粒度的情境信息增强层如第3.2 小节描述的, 输人编码层的输出是每个词的丰富特征表示{a,U' =l,2,…,Za)^n{fc,|j=1 , 2 ,…, Z6 }. 为了能够利用图像的细粒度特征表示C=[Cl, c2,…,]增强句子中的每个词的语义表示, 本文提出一种互注意力[2 6]的变种用于将图像信息融人到词的语义表示中. 由于互注意力能够从细粒度的角度建模两种特征之间的交互, 该操作能够选出对句子语义重要的信息增强对语义的理解与表示. 为了简单起见, 本文以前提句子的处理过程为例介绍相关细节:=vJtanh(a, W/cJ),,exp(e,,)^]〖 —C”We[l , 2,"-, 4],厂么我)(13)k l8t=a(uTfat ) ,at:=\dt at;(1 ^) a, ]其中, VpWpW是注意力训练过程中的参数 是前提句子中第z 个词的候选表示.&是更新门, 用于决定第z 个词的输人表示有多少被保留. 为了保证整个框架的一致性, 在这里使用赋值操作:=表示对每个词的丰富特征表示进行更新. 在该方法中, 注意力计算能够从图像中选择出重要的信息对句子语义表示进行增强, 更新门保证模型始终关注在原始表示与图像增强表示中最重要的部分. 这样图像信息就能够高效准确地融合到句子中每个词的语义表示中.4.6.2 粗粒度的情境信息增强层与细粒度的情境信息增强层相比, 粗粒度的情境信息增强层主要有两处不同. 首先, 该层使用一个向量c 表示图像的特征信息; 其次, 该层直接将图像特征c 和通用即插即用框架的标签预测层的多层感知机的输人进行拼接. 接下来通过多层感知机预测每个标签所占的概率并决定最后输人的标签. 假设多层感知机的输人为A该过程可以形式化为P( ^U%/, J)=MLP([v;c])( 14)其中多层感知机包含两层带非线性激活函数的tanh( 〇的变换层, 以及一层softmaxO) 分类层?由于预训练的图像模型能够生成单一的图像特征向量表示, 该方法希望验证是否粗粒度的图像特征表示也有助于对句子语义理解的增强.5 实 验本节首先介绍新数据集构建以及对应的基本统计信息. 然后, 本文将介绍五种模型的复现细节以及相关实验结果的详细分析.5. 1 数据集介绍为了更好地对比在不同图像利用条件下模型的表现, 本文选择SNLI 数据集[ 2 ]作为基本数据集, 并为每条数据添加一张对应的图像信息. 选择该数据集基于以下两个原因:( 1) 客观性. SNLI 数据集在生成过程中并没有考虑图像信息, 标注员在人工标注时并不会受图像信息的影响.因此使用该数据集验证加人图像信息前后的模型效果更客观d2) 图像关系: 本文的研究重点是为了验证图像信息是否有助于句子语义的理解与表示, 因此需要为原始不包含图像信息的数据集中添加图像信息, 并且这些添加的图像信息需要和句子对之间有对应关系. 正如文献[4]描述的, SNLI 数据集中的前提句子均来自于图像描述数据集Fl l ck30K[5 °], 每个前提句子都是一幅图像的描述句子, SNLI 数据集中也标注出每个句子对在Flick30K数据集中对应的图像名字,因此SNLI 数据集非常适合这个任务.具体而言, 在数据预处理阶段, 本文根据SNLI 数据集中每个句子对中标注的图像名字, 从FUck30K数据集[5°]中抽取对应的图像信息, 将其添加句子对中, 用于构建新的包含图像信息的自然语言推理数据集, 需要说明的是原始的SNLI 数据集中有一部分数据无法找到对应的图像信息, 因此本文将这部分数据删除. 同时为了更好验证模型效果以及图像信息的作用, 本文同时选择更具挑战的HardteSt[464nLexi caltest[5 1]作为额外的测试集. 加人图像信息之后的新的数据集的基本统计信息如表1 所示? 其中Hard和Lexi cal分别表示Hardtest[46^nLexicaltest[5 14HI 试集.表1 不同测试集的基本统计情况数据集数据规模平均句子长度划分 ̄前提句子 假设句子张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析 4853 期5. 2 模型实现本文在开发集上选择所有的最优超参数, 同时为了更客观地评价在通用框架下复现的所有模型,本文使用相同的参数训练所有的模型, 因此在部分参数的设定会与原始模型的实现有不同, 相关参数设定如表2 所亦.表2 模型超参数设定超参数 参数值VGG19 细粒度特征维度 512VGG19 粗粒度特征维度4096ReSnet 50 细粒度特征维度2048Resnet 5G 粗粒度特征维度2048预训练词向量维度 300字符级别词向量维度 100GRU/ LSTM隐层单元数 300注意力单元数 200多层感知机隐层单元数 200和100初始学习率104对于图像信息的表示, 本文使用以Tensorflow为后端的Keras 工具包实现的VGG19 模型[ 1 7 ]和ResNet50 模型[ 1 8 ]处理所有的图像, 并使用最后一个卷积层的输出结果和倒数第二个全连接层的输出结果作为图像的细粒度特征表示与粗粒度特征表示.对于五个模型的复现, 本文将预训练的词向量维度设为300 , 字符级别的词向量维度设为100,dropout设为0.6, 词向量使用的是预训练的840BGloVe 词向量[ 42 ]. 双向LSTM或者GRU的隐层单元数为300. 互注意力或者自注意力计算的隐层单元数设为200 , 标签预测层的多层感知机的隐层单元数设为200 和100. 受文献[4]启发, 模型中所有的权重在V6/( nin-\ ̄nout) 和\/6/(nin-\ ̄nout) 之间进行初始化, 满足该范围内的均匀分布[ 5 2 ], 和 分别表示模型中权重参数所在层的输人和输出维度.所有的偏置初始化为〇. 本文使用Adam优化器优化模型, 初始学习率为1〇4.5. 3 实验结果概述本小节详细分析实验结果, 需要说明的是, 本文选择在不同测试集上的准确率作为模型的评价标准.原始结果与复现结果的比较. 表3 展示了模型原始结果与在通用框架下复现的结果. 从表中可以看出, 本文复现的结果要稍低于模型的原始结果. 本文总结出现这种情况的原因如下:( 1) 本文使用统一的通用即插即用框架, 并且为了更客观地评价模型效果,一些共有的超参数本文使用相同的参数设定;( 2) 本文主要研究的是模型仅在使用文本信息以及使用文本和图像信息之间的表现对比, 因此针对每个模型, 本文并没有进行额外的超参数调整. 除此之外, 本文还使用不同的深度学习框架, 也可能会对模型有一些影响. 例如原始的ESIM模型是使用TTheano实现的, 而本文是使用Tensorfl ow实现的?这些原因都会造成模型最终效果的不同. 在接下来的章节中, 本文将复现的结果作为基准结果, 然后将该结果与使用不同图像信息设置得到的结果进行对比分析.表3 使用不同图像设置的模型复现效果(准确率)图像使用方法粗粒度方法模型原始结果 复现结果 VGG19 处理结果 Resnet 5G 处理结果Full/%Hard/%Lexical/%Full/%Hard/%Lexical/%Full/ %Hard/ %Lexical/ %Ful l/%Hard/ %Lexical/ %I l bmpGPMwanSANESI M细粒度方法I l bmpGPMwanSANESI M整合粗粒度细粒度方法I lbmpGPMwanSANESI M不使用图像结果与使用图像结果的比较. 表3展示了在使用不同设置之后的模型结果. 从表3展示的结果可以看出, 使用图像信息之后, 所有模型的表现均有不同程度的提升,一些模型的表现甚至要高于其原始文章中的结果, 例如 Hbmp(87.1%) 和ESIM(88.2%). 与此同时, 当比较模型486 计 算机 学 报 2021年在更具挑战的测试集( Hardtest 和Lexicaltest ) 上的表现时, 可以发现大多数模型的表现均优于不使用图像信息的基准结果. 这些现象都说明图像信息确实有助于模型对文本语义的理解与表示, 并能提升其在下游任务上的表现.细粒度方法与粗粒度方法的比较. 在第3.2 小节中, 本文提出两个图像使用方法: 细粒度图像特征表示与粗粒度图像特征表示. 在本节中, 本文对比这两种方法以及整合粗粒度和细粒度方法对模型表现的影响, 相关实验结果如表3 所示. 首先, 细粒度的图像特征能够更全面地表示图像的不同特征, 因此模型能够利用注意力机制从这些特征表示中选择出合适的信息辅助对句子语义的理解与表示, 从而取得更好的效果. 与此相比, 粗粒度的图像特征表示的原始目的是为了解决图像分类问题, 因此它并不能像细粒度的特征那样为模型提供更准确的信息表示.整合粗粒度和细粒度方法的实验结果也证实了这一点, 从实验结果中可以看出, 模型在整合粗粒度和细粒度的图像特征表示条件下的表现和只使用细粒度特征条件下的表现相差不大, 说明了细粒度的图像特征对模型的影响更大一些. 其次, 从表3 中可以看出句子语义编码方法( HbmP, GP) 的效果提升力度要大于词匹配方法( MWan, SAN, ESIM) , 甚至一些词匹配方法在使用细粒度的图像特征之后模型表现会出现一定程度的下降. 对不同推理框架进一步分析之后发现, 句子语义匹配方法更多地关注句子语义的向量表示生成, 因此它可以从图像信息中选择合适的信息用于句子语义的增强表示, 而下游任务最终使用的就是句子语义的向量表示, 因此额外的信息并不会损害模型在具体任务上的表现; 而词匹配方法更多地关注细粒度的词匹配以及词之间的语义交互,当加人额外的细粒度图像特征信息时,一方面这些信息有助于增强理解句子中每个词的语义, 但另一方面细粒度的图像特征信息可能会引人不相关的信息, 并且误导模型错误匹配某些词之间的语义, 最终造成模型在具体任务上的提升程度出现可能低于句子语义匹配方法的情况.VGG19模型与Resnet50 模型的比较? 作为典型的图像分类模型, VGG19 模型?和Resnet50[ 1 8 ]在图像分类任务上已经取得令人瞩目的成绩, 并且逐渐成为多种图像文本任务中必不可少的一部分,包括计算机视觉和自然语言处理. 因此本文选择这两种模型来作为图像有效性验证实验中的图像处理模型. 表3 的结果中可以看出, 使用Resnet50 作为图像处理模型时, 大多数自然语言推理模型均取得比较大的提升. 特别地, 可以发现当选择粗粒度的图像特征表示时, 选择Resnet50 进行图像处理, 五个模型的表现要明显优于使用VGG19 处理图像时的表现. 同时, 当检查两种模型生成的粗粒度图像特征表示的维度时, 可以发现Resnet50 生成的图像特征维度是2048 维, 是VGG19 生成的向量的维度(4096) 的一半? 因此, 可以总结出Resnet50 生成的图像丨3息表亦的质量要远尚于VGG19, 同时图像fg息表示的质量比数量更为重要一些. Resnet50 相对于VGG19 而言拥有更多的隐层, 因此它能够生成质量更高的图像特征表示.5.4 原始标签改变本文深人研究图像信息的引人对原始标签的影响, 图像信息是否会造成使用原始标签评价模型变得无效化. 正如文献[2] 中描述的, SNLI 数据集在标注时, 标注人员并没有考虑图像信息, 因此引人图像信息之后, 原始的标签可能会发生变化. 为了评估这种变化的影响, 本文分别从SNLI 数据集的Ful ltest 测试集和Hardtest 测试集采样500 条样本, 然后邀请10 位相关的研究人员在考虑图像信息的条件下重新标注这些样本.受混淆矩阵( Confusi onMatri x) 启发, 本文在表4 中重新展示相关的结果. 每一列(行) 表示原始标签( 重新标注的标签) 的数量( 其中E, C, N, 0分别指代蕴涵( Entai l ment)、 矛盾( Contradi ction)、 中立(Neutral ) 和合计(Overal l ) )? 例如: 第一列表亦由153 个蕴含例子被重新标注为蕴涵, 有6 个蕴含例子被重新标注为矛盾, 有7 个蕴涵的例子被重新标注为中立. 本文使用kappa 系数验证重新标注的标签与原始标签之间的一致性. 如果kappa 系数在0.61?0.80 之间, 表明两种分布是具有高度一致性的. 从表中可以得出, 在Ful ltest 测试集上的kappa系数为〇.759,Hardtest 测试集上的kappa 系数为0.699, 在所有采样样本上的kappa 系数为0.729.这些结果充分说明重新标注的标签和原始标签之间是高度一致的, 因此图像信息的引人并不会造成使用原始标签评价模型的无效化.表4 不同测试集的基本统计情况Fullt est Hardtest蕴涵 矛盾 中立 合计 蕴涵 矛盾 中立 合计E153 4 32 189 14715645 194C6 160 26 192 7 23 186N7 5 107 119 26 11 97 1200166 169 165 500 166 169 165 500张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析 4873 期5.5 不同图像设置结果对比本文已经通过实验验证图像信息的确有助于增强模型对句子语义的理解与表示. 但是, 大多数的图像都是由点、 线、形状、颜色等特征组成. 这些特征同样能够为模型提供额外的参考信息. 是否任何一张图像均有助于句子语义的理解与表示呢? 为了回答这个问题, 本文进行额外的实验验证, 对比在不同设置下图像的表现.表5 使用错误图像的复现模型效果(准确率)图像使用模型VGG19 错误图像结果 Resnet 50 错误图像结果方法 Full Hard Lexi cal Full Hard LexicalI lbmp83.5 %(1. 9)67. 3 %( 3.6)63. 3%( 3.6)82. 9%(2.7)62.6 %(4.6)65.1%(4.5)粗粒度方法GP 82. 3 %(   2. 0) 63. 1%( 3. 5) 62. 5%( 3. 9) 8 1. 9%( 2. 6) 62. 8 %(  4. 3) 64. 7 %( 5. 0)Mwan 84. 6 %( 2. 8) 64. 6%( 4. 7) 64. 3%( 4. 5) 84. 3 %(  3. 2) 63. 7 %( 5. 1) 66. 1%( 3. 9)SAN 82. 5%(   3. 7) 60. 4 %(   4. 0) 55. 7%( 3. 0) 82. 3 %( 4. 1) 60. 8 %( 4. 5) 62. 7 %( 2. 1)ESI M 83. 6 %(4. 3)65. 3 %(6. 8)62. 9%(7. 7)84. 1%(4. 0)62. 2 %(10. 4)65. 5 %(4. 4)I lbmp82. 6 %(4. 5)57. 8 %(1 1. 7)61. 4%(4. 3)82. 3 %(4. 5)58. 2 %(10. 3)62. 9%(' 4. 5)细粒度方法GP 82. 3 %(  2. 9)63. 7 %(6. 7)61. 9%(7. 9)82. 5 %(2. 5)63. 6 %(5. 1)61. 5 %(9. 1)Mwan 84. 9 %(3. 〇)63. 8 %(6. 0)62. 7%(3. 5)83. 9%(4. 4)61. 7 %(8. 0)63. 8 %(6. 9)SAN 82. 1 %( 3. 7) 60. 1%( 5. 6) 53. 5%( 3. 5) 82. 1%(  3. 8) 60. 2 %(  3. 9) 59. 7 %(+1. 2)ESI M 83. 0 %( 5. 2) 62. 4 %( 10. 1) 59. 9%( 8. 8) 83. 5 %(   5. 0) 61. 7 %( 10. 1) 63. 8 %( 6. 4)具体而言, 本文在训练阶段, 使用和第5.3 小节相同的设置, 但是在测试阶段, 本文选择不同的设置.当使用测试集验证模型效果时, 本文利用数据集中一张随机的无关的图片替换原始图片, 标记为错误图像, 然后使用该图像验证模型在所有测试集上的效果, 结果如表5 所示. 接下来本文将从三个方面对实验结果进行分析.原始图像结果与错误图像结果的比较. 首先, 本文对比使用原始图像的结果和使用错误图像的结果. 对比表3 和表5, 可以发现五个模型在使用错误图像时的表现均有不同程度的下降, 有的甚至比不使用图像的效果还差. 这些现象说明图像确实提供有意义的信息, 不是简单的点、 线、 形状等信息. 同时, 本文还发现使用错误图像时模型在更具挑战的测试集( Hardtest 和Lexi calt est ) 上的表现下降的更多. 由于这些测试集将那些容易分类的例子都删除, 因此需要模型能准确地理解并表示句子语义.而不相关的错误图像信息会引人噪音, 使得模型理解句子语义变得更加困难, 因此模型的表现也会有很大的下降. 除此之外, 从表中还可以发现词匹配方法在使用错误图像的情况下表现会下降更多. 正如2.1 节和3.1 节所描述的, 词匹配的方法更多地关注于细粒度的词对齐以及词语义交互,当使用错误图像信息时, 模型会被误导使用不正确的信息对词的语义理解进行增强, 从而做出错误的判断.粗粒度图像特征表示与细粒度图像特征表示的比较. 和第5.3 小节中的分析类似, 在该小节中, 本文也验证不同粒度的错误图像使用方法对模型的影响. 首先从表5 中可以发现, 细粒度的图像特征使用方法对模型的表现影响更大. 由于细粒度的图像特征是直接作用于词级别的语义增强, 不正确的信息将会误导模型错误理解词级别的语义, 更别说句子级别的语义.因此当使用错误图像时, 细粒度的图像特征表示方法会导致模型表现有更大的下降. 其次,可以发现细粒度的图像特征对词匹配模型在更具挑战的测试集上的表现影响更大. 这个现象表明对图像信息利用得越充分, 图像信息对模型的表现影响就更大. 再者, 本文还发现一些不正常的现象: 部分模型使用细粒度的图像特征时, 模型表现下降的程度要低于使用粗粒度的图像特征, 这与本文最初的发现是相互矛盾的. 在对实验设定以及训练测试过程详细分析之后发现, 模型在训练过程中, 使用的实验设置是正确的图像信息, 但当在测试集上评价模型表现时, 实验设置发生改变, 使用随机的不相关的错误图片, 模型在不同测试集上的表现也就很难预测, 因此在该条件下, 各个不同模型会出现一些不正常的现象.VGG19 模型结果与Resnet50 模型结果的比较. 通过对比使用不同图像处理模型时各个模型的表现, 本文发现更多的证据证明在之前章节得到的结论. Resnet50 模型[ 1 8 ]相对于VGG19 模型?有更深的网络结构, 因此它能够抽取更全面、 更准确的图像特征表示, 也因此对模型表现有更大的影响.因此无论是使用正确图像对模型效果进行提升还是使用错误图像导致模型效果降低, Resnet50 模型带来的影响都要大于VGG19 模型.488 计 算机 学 报 2021年6 结论和展望本文设计一种通用的即插即用框架用于验证图像信息是否有助于理解与表示自然语言句子语义.借助该框架, 本文能够从多个不同角度更为全面验证图像信息对模型理解与表示句子语义的影响. 同时自然语言推理是一个单一的句子语义匹配问题,在数据标注过程中并没有考虑图像信息.因此将图像信息引人到该任务中能够更客观地评价图像信息对句子语义建模分析的影响. 本文复现5 个最先进的自然语言推理方法, 深人对比引人图像信息前后模型的表现. 实验结果表明使用合适的图像信息能够不同程度提升各个模型理解与表示句子语义的能力. 除此之外, 本文还深人分析不同图像使用方法、不同图像处理模型对自然语言推理模型最终效果的影响. 大量实验证明图像信息利用得越充分, 对模型造成的影响越大. 因此, 从实验中可以发现细粒度的图像使用方法与词匹配方法所造成的影响更大. 更进一步, 本文还将每个句子对对应的原始图像随机替换为任意一张不相关的图像, 更好地分析图像信息对模型理解与表示句子语义的影响.在接下来的工作中, 本文将以一种更具体、 更全面的形式验证图像信息对自然语言语义表示的影响, 探索更好的图像文本联合建模方法, 并将本文提出的通用即插即用框架扩展到更多的句子语义理解任务中.参 考 文 献[1]DolanWB?Brocket tC. Automat icallyconst ructi ngacorpusofsententialparaphrases//Proceedingsofthe3rdInt ernationalWorkshoponParaphrasing( IWP2005) . 2005[2]BowmanSR, AngeliG,Pot tsC, ManningCD. Al argeannot at edcorpusforlearningnaturallanguageinf erence//Proceedingsoft he2015Conf erenceonEmpiricalMet hodsinNaturalLanguageProcessing. Lisbon,Port ugal ,2015 : 632642[3]BowmanSR? Gaut hierJ? Rast ogiA, etal. Afast unif iedmodelforparsingandsent enceunderstanding//Proceedingsoft he54t hAnnualMeet ingof theAssociat ionforComput at ionalLinguist ics( Volume1: LongPapers) . Berlin, Germany,2016: 1466 1477[4]WangP, WuQ, ShenC, vandenI l engelA. TheVQAmachine: Learninghowtouseexistingvi sionalgorithmstoanswernewquestions//Proceedingsof t heIEEEConf erenceonComputerVisionandPat t ernRecognit ion. Hawaii, USA,2017: 11731182[5]JohnsonJ? I l ariharanB?vanderMaat enL?etal. CLEVR:Adiagnost icdatasetf orcomposit ionallanguageandelementaryvi sualreasoning//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognit ion. Hawai i ,USA,20 17: 1988 1997[6]SuhrA, LewisM, YehJ ,Art ziY. Acorpusofnat urallanguageforvisualreasoning//Proceedingsof the55 thAnnualMeeti ngoft heAssociat ionfo rComput at ionalLinguist ics( Vol ume2: Short Papers). Vancouver ,Canada ,2017: 217223[7]AndrewsM?ViglioccoG?VinsonD. Integrat ingexperienti alanddist ribut ionaldat atolearnsemant icrepresentat ions.PsychologicalReview,2009,116(3) : 463[8]BarsalouLW. Groundedcognit ion: Past ,present , andfut ure. TopicsinCognit iveScience,2010 , 2(4) ; 716 724[9]GoyalY?KhotT? Summers St ayD? et al. MakingtheVinVQAmat t er: Elevat ingt heroleof i mageunderstandinginVisualQuestionAnswering//Proceedingsof t heIEEEConferenceonComput erVisionandPat ternRecognit ion.Hawaii, USA, 2017: 6904 6913[10]ZhangP?GoyalY?Summers St ayD?etal. YinandYang:Balancingandansweringbinaryvisualquestions//Proceedingsof theIEEEConferenceonComputerVisionandPat ternRecognit ion. LasVegas, USA,2016; 5014 5022[11]AntolS,AgrawalA, LuJ,etal. VQA: Visualquestionanswering//ProceedingsoftheIEEEInt ernat ionalConferenceonComputerVision. Santi ago ,Chile,2015; 2425 2433[12]TalmanA, YliJyraA, TiedemannJ. Nat urallanguageinferencewithhierarchicalbilst mmaxpoolingarchit ect ure.arXivpreprint arXiv: 1808. 08762 ,20 18[13]ChenQ,ZhuX, Li ngZ,etal. EnhancedLSTMfornat urallanguageinference//Proceedingsof the55thAnnualMeetingof theAssociat ionforComputat ionalLinguist ics( Volume1:LongPapers) . Vancouver,Canada,2017; 1657 1668[14]TanC, WeiF, WangW,et al. Mult iwayat t ent ionnet worksformodelingsent ence pai rs//Proceedingsof the27thInt ernationalJoint Co nferenceonArtif icialI nt elligence. Stockholm?Sweden, 2018: 4411 4417[15]LiuX, DuhK, GaoJ. Stochast icanswernet worksfornat urallanguageinference. arXivpreprint arXiv:1804. 078 88,2018[16]ChenQ, LingZ I I , ZhuX. Enhancingsent enceembeddingwithgeneralizedpooling. arXivpreprintarXiv: 1806.0 9828,20 18[17]SimonyanK,ZissermanA. Verydeepconvolutionalnet worksforlargescaleimagerecognition. arXivpreprintarXiv:140 9. 1556 ,2014[18]l i eK,ZhangX,RenS, SunJ. Deepresiduallearningforimagerecognit ion//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognition. Copenhagen,Denmark,2017; 770 778张 琨等: 图像信息对句子语义理解与表示的有效性验证与分析 4893 期[19]KhotT,SabharwalA,ClarkP. SciTail : At ext ualentailmentdat asetfromsciencequest ionanswering//Proceedingsof the32ndAAAI ConferenceonArtificialIntel ligence. NewOrleans,USA,2018; 5189 5197[20]YinSchutzeI I , XiangB,ZhouB. ABCNN: At tent ionbasedconvolutionalneuralnetworkf ormodelingsent encepai rs. Transact ionsoft heAssociat ionforComput at ionalLinguisti cs, 2016 ,(4) : 259 272[21]ChengJ? DongL, Lapat aM. Longshort t ermmemorynetworksformachi nereading//Proceedingsof the2016ConferenceonEmpiricalMethodsi nNat uralLanguageProcessing. Austin, USA,2016: 551 561[22]ParikhAP,TackstromO,DasD,UszkoreitJ. A decomposableatt ent ionmodelfornat urallanguageinference//Proceedingsofthe2016ConferenceonEmpiricalMethodsinNat uralLanguageProcessing. Aust in,USA,2016;22492255[23]VaswaniA,ShazeerN?ParmarN?et al. At tent ionisallyouneed//ProceedingsoftheAdvancesinNeuralInf ormationProcessingSyst ems. LongBeach,USA,2017 :5 998 6008[24]MouL, MenR, LiG,et al. Naturallanguagei nferencebyt reebasedconvolut ionandheurist icmat ching//Proceedingsof the54thAnnualMeetingof theAssociationforComput ationalLinguistics( Volume2: ShortPapers) . Berlin, Germany,2016: 130 136[25]TayY, TuanLA,I l uiSC. Acomparepropagatearchit ect urewit hal ignmentfactorizat ionfornaturallanguageinference.arXivprepri ntarXiv:180 1. 00102 ,2017[26]KimS, I l ongJ I I , KangI , KwakN. Semanticsent encemat chingwi thdenselyconnect edrecurrentandco at t ent iveinformation//Proceedingsoft he33rdAAAIConf erenceonArt ifi cialInt elligence. Hawaii ,USA, 2019: 6586 6593[27]LiuY, SunC, Li nL, WangX. Learningnat urall anguageinferenceusingbidirectionalLSTMmodelandinner at t ent ion.arXivprepri ntarXiv: 1 605. 0 9090 ,2016[28]RocktaschelT, GrefenstetteE, HermannKM, etal.Reasoningaboutentailment wi t hneuralat t ention. arXivpreprint arXiv: 1509. 0 6664, 2015[29]ChenQ,ZhuX, LingZ I I,et al. Neuralnat urallanguageinf erencemodelsenhancedwit hext ernalknowl edge//Proceedingsoft he56t hAnnualMeet ingof t heAssociationforComputat ionalLinguist ics. Melbourne, Aust ralia,2018:2406 24 17[30]FangI I , Gupt aS,IandolaFN?etal. Fromcaptionstovisualconceptsandback//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognit ion. Boston,USA,2015: 1473 1482[31]PanY, MeiT, YaoT,etal. Jointlymodelingembeddi ngandt ranslat iontobridgevideoandlanguage//Proceedingsoft heIEEEConferenceonComputerVisionandPat ternRecogni tion. LasVegas, USA, 2 016: 4594 4 602[32]Vinyals0, ToshevA, BengioS, ErhanD. Showandt ell : Aneuralimagecapt iongenerator//ProceedingsoftheIEEEConf erenceonComputerVisionandPat t ernRecognit io n.Boston,USA,2015: 3156 3164[33]WuQ, ShenC, LiuL,etal. Whatvaluedoexplicithighlevelconceptshaveinvisiontolanguageproblems?//Proceedingsof theIEEEConferenceonComputerVisionandPat ternRecognit ion. LasVegas, USA, 2016; 203 212[34]DasA, Kot turS, GuptaK,et al. Visualdialog//Proceedingsof t heIEEEConferenceonComputerVisionandPat ternRecognit ion. Hawaii ,USA, 2017: 3 26 335[35]MaoJ, XuW, YangY, etal. Deepcaptioni ngwi t hmult imodalrecurrent neuralnetworks( mRNN) . arXivpreprintarXiv:1412. 6632 ,2014[36]MaL, LuZ, LiI I. Learningtoanswer questionsfrom imageusingconvolut ionalneuralnetwork//Proceedi ngsoft he30t hAAAIConf erenceonArt if icialInt ell igence. Phoeni x,USA,20 16: 3567 35 73[37]ZhangK?LvG?WuL, et al. I mage enhancedmult i levelsentencerepresent ationnetfornat urallanguagei nference.IEEETransact ionsonSyst ems, Man,andCybernet ics:Syst ems,2019, ( 99) : 1 15[38]Xie N,Lai F,DoranD,KadavA. Visualent ailment: Anoveltaskforfinegrainedimageunderst anding. arXivpreprintarXiv:1901.06706,2019[39]ZhangK, LvG, ChenE, et al. Cont ext aware dualat t entionnet workf ornat urallanguageinference//Proceedi ngsof thePacific AsiaConferenceonKnowledgeDiscoveryandDat aMining. Macau, China, 2019 : 185 198[40]WilliamsA, NangiaN, BowmanS. Abroadcoveragechallengecorpusforsentenceunderstandingthroughinference//Proceedi ngsof the2018ConferenceoftheNorthAmericanChapteroft heAssoci at ionforComput at ionalLinguist ics :HumanLanguageTechnologies, Volume1( LongPapers).NewOrleans,USA,2018: 1112 1122[41]MikolovT,SutskeverI ,ChenK, et al. Dist ribut edrepresentat ionsofwordsandphrasesandt heircompositi onali ty//Proceedingsof t heAdvancesi nNeuralInformationProcessingSyst ems. LakeTahoe, USA,2013: 3111 3119[42]PenningtonJ,SocherR?Manni ngC. GloVe: Globalvectorsforwordrepresent ation//Proceedingsof the2014ConferenceonEmpiricalMethodsinNat uralLanguageProcessing(EMNLP) . Doha, Qatar,2014: 1532 1543[43]GongY, LuoI I,ZhangJ. Nat urall anguageinf erenceoverinteract ionspace. arXivprepri ntarXiv: 1709. 04348,2017[44]Pet ersME, NeumannM? IyyerM, et al. Deepcont extualizedwordrepresent ations. arXivpreprintarXiv: 18 02. 05365 ,2018[45]ChenD,FischA,West onJ,BordesA. ReadingWikipediatoansweropendomainquestions//Proceedingsofthe55thAnnualMeet ingoftheAssociationf orComput ationalLi nguist ics( Volume1: LongPapers) . Vancouver? Canada,20 17: 1870 18 79[46]GururanganS? Swayamdipt aS, Levy0,et al. Annot ationart ifactsinnaturallanguageinferencedat a//Proceedi ngsofthe2018Conf erenceoft heNort hAmericanChapt erof t heAssociat ionforComput at ionalLinguist ics: HumanLanguage490 计 算机 学 报 2021年Technologies,Volume2(ShortPapers). NewOrleans,USA,2018 :107-112[47]SrivastavaRK,GreffK,SchmidhuberJ. Highwaynetworks.arXivpreprintarXiv: 1505. 00387 ,2015[48]l ieI I, Gimpel K,LinJ. Multi-perspectivesentencesimilaritymodelingwithconvolutionalneuralnetworks//Proceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessi ng.Li sbon,Portugal,20 15 : 1576-1586[49]LinZ,FengM,dosSantosCN,etal.Astructuredself-attentivesentenceembedding.arXivpreprintarXiv:  1703.  03130,2017[50]YoungP,LaiA,I lodoshM,I lockenmaierJ.Fromimagedescriptionstovisualdenotations: Newsimil aritymetri csforsemanticinferenceovereventdescriptions. TransactionsoftheAssociationforComputationalLinguistics,2014,(2): 67-78[5 1]Glockner M,ShwartzV,GoldbergY.Breaking NLI systemswithsentencesthatrequiresimplelexicalinferences//Proceedingsofthe5 6thAnnualMeetingof the Association forComputationalLinguistics(Volume 2:ShortPapers). Melbourne,Australia,2018 : 650-655[52]OrrGB,MullerK-R. NeuralNetworks: TricksoftheTrade.Berlin,Germany:Spri nger,2003ZHANGKuit)Ph.D.>lecturer.Hisresearchinterestsincludenatural: slanguageprocessinganddeeplearning.w%LVGuang-Yi , Ph.D.candidate.Hisresearchinterestsincludenaturallanguageprocessingandcomputervision. .WULe, Ph.D. ,associateprofessor.Herresearchinterestsincludeeducationaldataminingandknowledgediscoveryindatabase,recommendersystem,social network.LIUQi, Ph.D. ,professor.Hisresearchinterestsincludedataminingandknowledgediscoveryindatabase,machinelearningmethodandappl ication.CHENEn-Hong,Ph.D.,professor.Hi sresearchinterestisdatamining.BackgroundThispaperfocusesonleveragingimageinformationtoenhancethesentencesemanticunderstandingandrepresenta?tion.Recently,Visual-to-Language(V2L)hasbecomeahottopicandattractedmoreandmoreattention.Ittakestheimagesintoconsiderationfortheunderstandingandrepresen?tationofsentencesemanti candhasbroadappl ications>suchasImageCaptioni ng,VisualQuestionAnswering,VisualDi?alog,aswell asVisual Reasoning.Currentmethodsusual lyemployeeaCNNandanRNNas“encoders”forimageandsentencesemanticrepresentations , respecti vely.Inordertointegratethesetwotypesofinformation,attentionmecha?nismisoftenutil izedforthefinaldecision.Withthedevelop?mentofrepresentationmethods,suchastransformer,BERTandGPT-3 ,researchersal sotrytol everagethetransformertomodeltheimagesandsentencessimul taneously.TheseCog?nitivescientistshavealsoadvocatedthatothermodalities(e.g. , images)arequitehelpfulforsemanticunderstandingenhancement.Inourwork,wetrytofigureourwhetheradditionalimageinformationcanhelptounderstandandrepresentsentencesemantics.Therefore, wefocusonNatural LanguageInfer?ence(NLI)>atypicalsentencesemanticunderstandingtask,andintroducei magesasextrainformationtoverifytheeffect.Then,weproposeageneralpl ugandpl ayframeworkforflexibleimageutilization.Basedonthisframework,were-implementfivestate-of-the-artNLImodelsandcomparetheirperformanceswithdifferentimagesettingsonalargeannotatedNLIdataset( SNLI).Finally, wepresentaseriesoffindingswithquantitativemeasurementsandin-depthanalyses.ThisresearchispartiallysupportedbygrantsfromtheNational ScienceFoundationforDistinguishedYoungScholarsofChina (GrantNo.6 1325010),theNatural ScienceFoundationofChina(GrantNo.6140335 8) ,andtheFundamentalResearchFundsfortheCentralUniversitiesofChina.

[返回]
上一篇:一种高级智能合约转化方法及竞买合约设计与实现
下一篇:基于随机化矩阵分解的网络嵌入方法