欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
神经机器翻译综述
来源:一起赢论文网     日期:2020-05-29     浏览数:1360     【 字体:

 T,including RNNs,convolutional neural networks(CNN),longshort-term memory (LSTM)neural networks,gated recurrent neural networks,neural Turingmachines(NTM),and memory networks,et al.Then,this paper introduces the current researchsituation of NMT in detail,including the attention-based NMT through attention mechanism,which is designed to predict the soft alignment between the source language and the targetlanguage,thus has greatly improved the performance of NMT;the character-level NMT model,aiming to solve the problems in the word-level NMT model,including character-level translation,subword-level translation,et al.;the multilingual NMT,which has the ability to use a singleNMT model to translate between multiple languages,including the one-to-many model,themany-to-one model and the many-to-many model;the problem of restriction in NMT,focusing onsolving the very large target vocabulary in NMT,including the out-of-vocabulary(OOV)problemsand how to address the long sentence problems in NMT;leveraging prior knowledge in NMT,forexample,incorporating and effective utilization of the word reordering knowledge,the morpho-logical features,the bilingual-dictionary,the syntactic information and the monolingual data intoNMT;the low-resource NMT,which is a solution to the poor-resource training data conditionsfor some language pairs;the new paradigm for the NMT architectures,for example the multi-model NMT,the NMT model via non recurrent neural networks,and the advanced learningparadigm for NMT,such as generative adversarial networks(GAN)and reinforcement learning.Last,we summarize some successful evaluation methods of machine translation based purely onneural networks.Finally,the paper gives a future outlook on the development trend of NMT andsummarizes the key challenges and possible solutions.Keywords  machine translation;neural machine translation;attention mechanism;recurrentneural network;sequence-to-sequence model;machine translation evaluation1 引 言机器翻译研究如何利用计算机自动地实现不同语言之间的相互转换,是自然语言处理和人工智能重要研究领域,也是 目前互联网常用服务之一.如Google翻译、百度翻译、微软 Bing翻译等,都提供了多种语言之间的在线翻译服务.虽然机器翻译译文质量与专业译员相比仍有较大差距,但是在一些对译文质量要求不太高的场景下,或者是在特定领域翻译任务上,机器翻译在翻译速度上具有明显优势,仍然得到广泛应用.鉴于机器翻译的复杂性和应用前景,学术界和产业界都把该领域作为重点研究方向,成为当前自然语言处理最活跃的研究领域之一.1957年,Rosenblatt提出了感知机(Perceptron)算法,这是一种最 络[1].早期的感知机,因其结构简单,不能处理线性不可分问题,造成了该研究长期的低潮期.20世纪80年代以后,反向传播算法(Backpropagation,BP)被引入到多层感知机(Multilayer Perceptron,MLP),也叫前馈神经网络(Feedforward Neural Network,FNN).此 后,在Hinton、LeCun、Bengio等人推动下,神经网络重新引起人 注.2006 年,Hinton 人[2]通 层预训练方法解决了神经网络训练难题,随后由于计算能力 高,如 算、图 (GraphicsProcessing Unit,GPU)的广泛应用,神经网络在学术界和产业界都得到高度重视.近年来,神经网络在图像识别[3]、语音识别[4]等领域取得巨大成功,同时学者们也将该技术应用在自然语言处理任务上,如语言模型、词语表示、序列标注等任务[5],并取得了令人鼓舞的成绩.机器翻译相关研究,在多种语言对上,神经机器翻译已 译.Junczys-Dowmunt等人[6]采用联合国语料库(United NationsParallel Corpus v1.0),在30个语言对上对神经机器翻译和短语统计机器翻译进行对比,神经机器翻译在27个语言对上超过了短语统计机器翻译方法.与汉 的,如 英、中 俄、中 务上,神经机器翻译高出6~9个 BLEU 值(BiLingualEvaluation Understudy).另外,在2016年机器翻译125372期 李亚超等:神经机器翻译综述slation,WMT)上,爱丁堡大学开发的神经机器翻译系统在英语到德语翻译任务上,超过基于短语、基于句法的统计机器翻译[7].在大规模计算能力支持下,百度公司采用深层次神经网络架构,在 WMT 2014英语到法语翻译任务上,首次超过统计机器翻译方法,取得了最好的成绩[8].在产业界,Google翻译在部分语言上已采用神经机器翻译代替统计机 器翻译对外提供服务[9].著名的商用机器翻译公司 Systran同样开发出相应的神经机器翻译系统,涵盖了 12 种语言 32个语言对[10].在国内,搜狗公司、小牛翻译也在积极开发神经机器翻译系统.目前,神经机器翻译不仅在学术界得到广泛关注,产业界也积极地探索该方法的商用价值.由于自然语言的多样性和复杂性,将一种语言恰如其分地翻译为另外一种语言仍然困难重重.目前,在大规模语料和计算能力条件下,神经机器翻译展现出巨大潜力,已经发展成为一种新的机器翻译方法.这种方法仅需要双语平行语料,便于训练大规模翻译模型,不仅具有很高的研究价值,同时也具有很强的产业化能力,成为当前机器翻译研究的前沿热点.本文第2节讲述经典神经机器翻译模型及其面临的问题和挑战;第3节概述在神经机器翻译中常用的神经网络及其特点;第4节详细介绍神经机器翻译研究进展;第5节为基于神经网络的机器翻译评测方法概述;第6节展望神经机器翻译未来研究方向;第7节为本文小结.2 经典神经机器翻译模型及其问题与挑战2.1 经典神经机器翻译模型统计机器翻译把翻译问题等同于求解概率问题,即给定源语言s,求目标语言t的条件概率p(t|s).选取好翻译模型后,从双语平行语料中学习到这些模型的参数.当输入源语言时,通过学习到的模型最大化上述条件概率来获得最优翻译结果.神经机器翻译依据上述基本思想,在翻译建模上则完全采用神经网络实现了源语言到目标语言的直接翻译.这种翻译思想提出的很早,在20世纪90年代,有学者采用小规模语料实现了基于神经网络的翻译方法[11-12],由于语料资源和计算能力限制,并没有得到相应关注.在 深度 习热潮兴起之后,神经网络常用于统计机器翻译的语言模型、词语对齐、翻译规则抽取等[13].直到2013年,基于神经网络的翻译方法被 Kalchbrenner和 Blunsom[14]重新提出,展现出了巨大的应用潜力.随后,Sutskever[15]、Cho[16-17]、Jean[18-19]等人 分别实现 应的完全基 于神经网络的机器翻译模型.这些属于经典神经机器翻译模型,本质上是序列到序列模型,不仅可以用于机器翻译,还可以应用到问答系统、文本摘要等其他自然语言处理任务.与统计机器翻译的离散表示方法不同,神经机器翻译采用连续 (Continuous SpaceRepresentation)表示词语、短语和句子.在翻译建模上,不需要词对齐、翻译规则抽取等统计机器翻译的必要步骤,完全采用神经网络完成从源语言到目标语言的映射.这种翻译模型大致可以分为两种,第一种是 Google提出的翻译模型[15],另外一种是蒙特利尔大学提出的翻译模型[16],两种模型在原理上非常相近.第 示,模 “A”、“B”、“C”,在输入条件下依次生成输出“W”、“X”、“Y”、“Z”,“〈EOS〉”为人为加入的句子结束标志.在翻译中,输入为源语言,输出为目标语言,称为端到端模型(End-to-End Model)[15].图 1 端到端模型另外 一 种 称 为 编 码 器 解 码 器 模 型 (Encoder-Decoder Model)[16],在下文中对这个模型作详细介绍.其中编码器读取源语言句子,将其编码为维数固定的向量;解码器读取该向量,依次生成目标语言词语序列,如图2所示.图 2 编码器解码器模型6372计  算  机  学  报 2018年成,输入x,隐藏状态h,输出y.编码器读取输入x=(x1,x2,…,xI),将其编码为隐藏状态h=(h1,h2,…,hI),当采用循环神经网络(RNN)时:hi=f(xi,hi-1) (1)c=q({h1,…,hI}) (2)c是源语言句子表示,f 和q 是非线性函数.解码器在给定源语言表 示c 和 前 驱 输 出 序 列{y1,…,yt-1},生成目标语言词语yt,定义如下:p(y)=∏Tt=1p(yt|{y1,…,yt-1},c) (3)y=(y1,y2,…,yT),当采用循环神经网络时:p(yt|{y1,…,yt-1,c})=g(yt-1,st,c) (4)g是非线性函数用来计算yt的概率,st是循环神经网络的隐藏状态,st=f(st-1,yt-1,c).编码器和解码器可以进行联合训练,形式如下:L (θ)=maxθ1N∑Nn=1logpθ(yn|xn) (5)θ是模型的参数,通过梯度下降法计算,(xn,yn)是双语句对.编码器解码器模型是通用的框架,可以由不同的神经网络实现,如长短时记忆神经网络(LSTM)[15]、门控循环神经网络[16](Gated Recurrent Neural Net-works)等.神经机器翻译仅需要句子级平行语料,单纯采用神经网络实现翻译过程,便于训练大规模的翻译模型,具有很高实用价值.经验证,其翻译效果接近或达到基于短语的统计机器翻译方法[6].在一些译文细粒度评价指标上神经机器 翻译也具有很大优势,比如,Bentivogli等人[20]在 2015 年口语翻译国际研讨会(The International Workshop on SpokenLanguage Translation,IWSLT)英语到德语翻译评测任务上,对短语统计机器翻译和神经机器翻译的译文进行了详细的对比分析.神经机器翻译译文中形态错误减少了19%,词汇错误减少了17%,词语调序错误减少了50%.词语调序错误中,动词调序错误减少了70%.基于以上分析,神经机器翻译在多个评价指标上逐渐超过了统计机器翻译方法,成为一种非常具有潜力的机器翻译模型.2.2 神经机器翻译与统计机器翻译异同机器翻译方法可以分为基于规则的机器翻译、基于实例的机器翻译以及统计机器翻译[21].从20世纪90年代以来,随着语料库规模扩大以及计算能力提高,统计机器翻译成为这个时期的主流方法.本文只论述神经机器翻译与统计机器翻译的相同点与不同点.把机器翻译看作求解概率问题,是统计机器翻译的核心思想.在 这 基本思 想 上,统计机器 翻译和神经机器翻译是一致的,不同之处在于具体实现方式上.统计机器翻译根据贝叶斯原理对p(t|s)进行扩展得到以下公式:p(t|s)=p(t)p(s|t)p(s)(6)公式的分母表示源语言句子概率,在具体任务上是固定值.因此求 p(t|s)的最大值,等同于寻找t^,使公式右边的乘积最大,即t^=arg maxtp(t)p(s|t) (7)其中p(t)是语言模型,p(s|t)是翻译模型.在统计机器翻译中可以进一步分解为多个子模块,如语言模型、翻译模型、调序模型等,并通过对数线性模型结合在一起,共同完成翻译过程.神经机器翻译则采用神经网络实现源语言到目标语言的直接翻译.从整体上看,该方法类似一个黑箱结构,对于统计机器翻译的必要部分,如词对齐、语言模型、翻译模型等都是具备的,采用一种隐含的方式实现.两者不同之处如下所示:(1)词对齐建模.词对齐对源语言和目标语言词语之间的对应关系建模,是统计机器翻译的重要部分.经典神经机器翻译模型并不需要词对齐步骤,基于注意力机制(Attention Mechanism)的 神经机器翻译[22],在解码时能够动态地获得与生成词语相关的源语言词语信息.虽然通过注意力机制可以得到词对齐信息,但是这种词对齐与统计机器翻译词对齐相比,包含的信息较少,对齐效果也较弱.(2)翻译效果对比.神经机器翻译在生成译文时利用了源语言信息和已生成译文信息,等同于将多个模块无缝的融合在一起.实验证明,神经机器翻译译文流利度要优于统计机器翻译,对于统计机器翻译难以有效处理的复杂结构调序和长距离调序问题,也能够较好地处理[20].但是在翻译忠实度上,神经机器翻译要差一些[23].除以上所述,神经机器翻译与统计机器翻译的不同之处如表1所示.NMT、SMT 分别表示神经机器翻译和统计机器翻译.127372期 李亚超等:神经机器翻译综述12-27.本课题得到国家自然科学基金(61525205,61432013,61403269)、西北民族大学中央高校基本科研业务费专项资金资助项目(31920170154,31920170153)、甘肃省高等学校科研项目(2016B-007)资助.李亚超,男,1986年生,博士研究生,讲师,中国计算机学会(CCF)会员,主要研究方向为机器翻译和自然语言处理.E-mail:harry_lyc@foxmail.com.熊德意,男,1979年生,博士,教授,中国计算机学会(CCF)会员,主要研究领域为自然语言处理、机器翻译、多语言信息获取.张 民(通信作者),男,1970年生,博士,教授,博士生导师,中国计算机学会(CCF)会员,主要研究领域为机器翻译和自然语言处理.E-mail:minzhang@suda.edu.cn.神经机器翻译综述李亚超1),2) 熊德意1) 张 民1)1)(苏州大学计算机科学与技术学院 江苏 苏州 215006)2)(西北民族大学中国民族语言文字信息技术教育部重点实验室 兰州 730030)摘 要 机器翻译研究将源语言所表达的语义自动转换为目标语言的相同语义,是人工智能和自然语言处理的重要研究内容.近年来,基于序列到序列模型(Sequence-to-Sequence Model)形成一种新的机器翻译方法:神经机器翻译(Neural Machine Translation,NMT),它完全采用神经网络完成源语言到目标语言的翻译过程,成为一种极具潜力全新的机器翻译模型.神经机器翻译经过最近几年的发展,取得了丰富的研究成果,在多数语言对上逐渐超过了统计机器翻译方法.该文首先介绍了经典神经机器翻译模型及存在的问题与挑战;然后简单概括神经机器翻译中常用的神经网络;之后按照经典神经机器翻译模型、基础共性问题、新模型、新架构等分类体系详细介绍了相关研究进展;接着简单介绍基于神经网络的机器翻译评测方法;最后展望未来研究方向和发展趋势,并对该文做出总结.关键词 机器翻译;神经机器翻译;注意力机制;循环神经网络;序列到序列模型;机器翻译评测中图法分类号 TP18   DOI号 10.11897/SP.J.1016.2018.02734A Survey of Neural Machine TranslationLI Ya-Chao1),2) XIONG De-Yi 1) ZHANG Min1)1)(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006)2)(Key Laboratory of China’s Ethnic Languages and Information Technology of Ministry of Education,Northwest Minzu University,Lanzhou 730030)Abstract  Machine translation is a subfield of artificial intelligence and natural language processingthat investigates transforming the source language into the target language.Neural machinetranslation is a recently proposed framework for machine translation based purely on sequence-to-sequence models,in which a large neural network is used to transform the source languagesequence into the target language sequence,leading to a novel paradigm for machine translation.After years of development,NMT has gained rich results and gradually surpassed the statisticalmachine translation(SMT)method over various language pairs,becoming a new machine translationmodel with great potential.In this paper,we systematically describe the vanilla NMT model andthe different types of NMT models according to the principles of classical NMT model,thecommon and shared problems of NMT model,the novel models and new architectures,and otherclassification systems.First,we introduce the Encoder-Decoder based NMT as well as the problemsand challenges in the model.In the vanilla NMT model,the encoder,implemented by a recurrentneural network(RNN),reads an input sequence to produce a fixed-length vector,from which thedecoder generates a sequence of target language words.The biggest issue in the vanilla NMTmodel is that a sentence of any length needs to be compressed into a fixed-length vector that maybe losing important information of a sentence,which is a bottleneck in NMT.Next,we summarizeSMT表示方法 连续 离散模型 非线性 对数线性模型大小 小 大训练时间 长 短模型可解释性 弱 强内存占用 小 大GPU 必须 非必须增量式训练 支持 不支持2.3 问题与挑战基于编码器解码器结构的神经机器翻译是一种通用的模型,并不完全针对机器翻译任务本身而设计,导致神经机器翻译仍然存在一些问题亟待解决.(1)受限制的词典大小和句子长度.神经机器翻译要求双语词典大小固定,考虑到训练复杂度,通常将词典大小、句子长度限制在较小范围[19].致使神经机器翻译面临更加严峻的未登录词、长句子翻译问题.因此,实现词典大小无限制,或者是能够高效地处理未登录词问题,同时对较长句子也能够有效翻译,是神经机器翻译需要解决的基本问题.(2)难以高效利用外部先验知识.神经机器翻译只采用双语训练数据,不要求额外先验知识,如大规模单语语料、标注语料、双语词典等.另外,神经机器翻译的结构特点决定了采用 外部资源是很困难的.单语语料、标注语料、双语词典等资源在统计机器翻译中可以显著提高翻译质量[24],而这些先验知识在神经机器翻译中并没有得到充分应用.因此,高效利用外部先验知识具有很高实用价值,成为亟待解决的问题.(3)注意力机制有待进一步完善.注意力机制是对神经机器翻译的重大改进[22],不足之处是生成目标语言词语时,并没有考虑到历史注意力信息,且约束机制较弱.此外,在一些情况下,生成目标语言词语时并 不 需 要 过 多 关 注 源 语 言 信 息,比 如 汉 英翻译中,要生 成 虚 词 “The”时,应 该 更 多 关 注 目 标语言相关信息.除以上所述,神经机器翻译中存在过度翻 译 (Over Translation)和 翻 译 不 充 分 (UnderTranslation)问题[23],同样需要完善现有注意力机制.在神经机器翻译中,完善注意力机制是研究的热点和难点.(4)神经网络架构单一.基于编码器解码器的神经机器翻译在架构上较为简单,仅能捕捉句子级词语信息.目前有学者通过在神经机器翻译中融合重构(Reconstruction)思想,提高翻译忠实度[25];采用半监督学习方法,有效利用源语言和目标语言单语语 料[26];采 用 变 分 神 经 机 器 翻 译 (VariationalNeural Machine Translation,VNMT),替代神经机器翻译[27];通过添加外部记忆,提高神经机器翻译的建模能力[28].综上所述,如何优化翻译模型架构是神经机器翻译所面临的重要挑战.3 神经网络在机器翻译中的应用神经网络依据拓扑结构特点可以分成多种类型,如前馈神经网络、卷积神经网络(ConvolutionalNeural Network)、循环神经网络等.本文只介绍一些在机器翻译、句法分析、序列标注等自然语言处理任务上常用的神经网络,并对其在机器翻译上的应用作简要概述.3.1 循环神经网络循环神经网络主要用于处理序列数据,特别是对变长序列数据有着较好的处理能力[29],神经机器翻译多数采用循环神经网络实现.如图3所示[30].图 3 循环神经网络结构图x={x1,x2,…,xT}表示变长序列数据,在每个时间点t上,隐藏状态ht由以下公式进行更新:ht=f(ht-1,xt) (8)f是非线性函数.通过循环神经网络将输入x映射到输出o.y是模型所要达到的目标序列(通常由训练语料给出),L 是损失函数(Loss Function),U 为输入到隐藏层的权重矩 阵,W 为隐 藏 层到隐藏 层 的 权 重 矩 阵,V是隐藏 层 到 输 出 的 权 重 矩 阵,时 间 序 列t 范 围 为[1,T],整个网络通过如下进行更新:at=Wht-1+Uxt+b (9)ht=tanh(at) (10)ot=Vht+c (11)y^t=softmax(ot) (12)8372计  算  机  学  报 2018年输入序列,其输入向量维数都相同,并且在每个时间点上可以采用相同的变换函数和参数,更适合处理变长序列数据.另外,循环结构在理论上能够捕捉到所有前驱状态,这在一定程度上解决了长距离依赖问题.3.2 循环神经网络的变形结构将循环神经网络展开后可以采用反向传播算法训练,称为时间反向传播(Backpropagation ThroughTime,BPTT),在实际应用中会产生梯度消失问题(Vanishing Gradient Problem)[31].长短时记忆神经网络[32]是循环神经网络的变形结构,采用了更加高效的遗忘和更新机制,具有与循环神经网络相似的结构和优点,且性能更好.门限循环单元(Gated Recurrent Units,GRU)[16,33]将长短时记忆循环单元的输入门和遗忘门合并成更新门(Update Gate),又引入了重置门(Reset Gate),用更新门控制当前状态需要遗忘的历史信息和接受的新信息,用重置门控制候选状态中有多少信息是从历史信息中得到.该结构是对长短时记忆神经网络的简化,效果与后者相近,并降低了计算量.递归神经网络(Recursive Neural Network,RNN)是循环神 经 网 络 的 变 形 结 构,以 树 形 结 构 进 行 组织,用于结构化预测和表示,适合表示自然语言句法结构[34].3.3 带记忆的神经网络神经网 络 没 有 外 部 记 忆 (External Memory),对变量和数据长时间存储能力很弱,与外部信息交互很困难[35].Graves等人[36]将循环神经网络与外部记忆耦合,称为神经图灵机(NTM).这种模型类似图灵机,并具有神经网络的优势,能够采用梯度下降法训练.除此之外,Weston等人[37]提出了记忆网络(Memory Networks),包 含 一 个 长 时 记 忆 组 件(Long-term Memory Component),能 够 读 取 和 写入,在具体任务中可以作为知识库使用.这些带外部记忆的神经网络能够方便地利用外部资源,增加了神经网络与外部资源交互能力,同时也提高了可解释性和记忆能力.4 神经机器翻译研究进展神经机器翻译源于序列到序列模型,已经发展成为一种全新的机器翻译方法.本节首先介绍基于注意力的神经机器翻译,这是对经典神经机器翻译模型的重大改进,然后对神经机器翻译关键技术研究进展进行分析、对比和总结.分类标准和分类体系如图4所示.图 4 神经机器翻译模型分类体系4.1 神经机器翻译注意力机制研究进展注意力机制[22]是对经典神经机器翻译模型的完善,通过改进源语言表示方式,在解码中动态生成源语言相关信息,从而极大地提高了翻译效果,成为目前的主流方法,也是当前研究热点之一.4.1.1 注意力机制及存在问题基于注意力的神经机器翻译将源语言句子编码为向量序列,而不是一个固定向量,在生成目标语言词语时,能够利用与生成该词相关的源语言词语信息,所对应词语在源语言中可以连续存在,也可以离散分布[22],如图5所示.注意力机制实现的双语词汇对应关系称为软对齐(Soft-alignment).与统计机器翻译硬对齐(Hard-alignment)方法相比,该方法对目标语言词语和源语言词语对齐长度不作限制,可以避免硬对齐方法中的对空问题.图 5 注意力机制图示129372期 李亚超等:神经机器翻译综述定义为p(yt|{y1,…,yt-1,x})=g(yt-1,st,ct) (13)st是t时刻的隐藏状态,st=f(st-1,yt-1,ct).上下文向量(Context Vector)ct依赖于源语言编码序列(h1,h2,…,hI),hi是第i个输入词的编码,计算方法如下:ct=∑Ij=1αtjhj (14)αtj是hj的权重,计算方法如下:αtj=exp(etj)∑Ik=1exp(etk)(15)etj=a(st-1,hj)是对齐模型,表示t时刻的生成词语与第j个源语言词语的匹配程度.基于注意力的神经机器翻译在解码时能够动态获取源语言相关信息,显著提升了翻译效果[22],是神经机器翻译重要研究进展之一.注意力机制是一种无监督的模型,不同时刻的注意力之间没有明显的约束条件,且求注意力分配权重时,需要计算源语言句子中所有词语的权重,很耗费计算资源.设计更加完善的注意力机制,成为当前研究热点,并取得了一系列重要成果.4.1.2 减少注意力计算量方法注意力机制存在计算量较大问题.为了减少计算量,Xu等人[38]在图像描述生成任务上,将注意力分为软注意力 (Soft Attention)和硬注意力 (HardAttention),前者指给原图像所有区域分配权重,计算量较大;后者指仅仅注意部分原图像区域,可以减少计算量.根据上述思想,Luong等人[39]提出了局部注意力(Local Attention)模型,是对全局注意力(GlobalAttention)的改进,能够减少计算量.全局注意力在计算上下文向量ct时,要考虑源语言的所有编码序列,与 Bahdanau等人[22]提出的注意力机制类似,同样比较耗费计算量.局部注意力仅需关注源语言编码中一个小的上下文窗口,可以显著减少计算量.该方法核心在于从源语言找到一个与生成词语相关的对齐位置,在计算上下文向量ct时,以该对齐点为中心,选取大小固定的窗口计算.局部注意力在生成上下文向量时只关注源语言小部分区域,把无关信息过滤掉,适合长句子翻译.在 WMT 2014英语到德语翻译上,局部注意力相比全局注意力提高了0.9个 BLEU 值.在长句子翻译实验上,局部注意力方法随着句子长度增加,翻译质量并没有降低.另外,在亚琛工业大学(RWTHAachen)英德词对齐语料上,局部注意力词对齐错误率为34%,全局注意力词对齐错误率为39%.4.1.3 有监督注意力机制有监督注意力机制为利用高质量的先验词对齐知识指导注意力机制.基于以下事实,注意力机制在预测目标语言词语对应的源语言词语时并没有利用该词语自身信息,是一种无监督的学习模型,词对齐质量较差.而这个问题在统计机器翻译词对齐中已经得到很好处理,词对齐质量很高.Liu等人[40]根据以上思想提出采用统计机器翻译词对齐信息作为先验知识指导注意力机制的方法.基本思想很简单:首先,利用 GIZA++[21]获取训练语料词对齐信息;然后,在模型训练中,统计机器翻译词对齐作为先验知识指导注意力机制,使得基于注意力的词对齐尽可能与统计机器翻译的词对齐一致;最后,在测试过程中不需要先验词对齐信息.实验采用2008年美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)举办的汉英机器翻译评测语料,相比基于注意力 神 经 机 器 翻 译,该 方 法 提 高 了 2.2 个 BLEU值.在清华词对齐语料[41]上,GIZA++词对齐错误率为30.6%,基于注意力神经机器翻译词对齐错误率为50.6%,该方法词对齐错误率为43.3%.可以看出有监督机制可以显著提高注意力机制词对齐质量,但是与统计机器翻译词对齐相比仍有较大差距,注意力机制仍有改进空间.4.1.4 融合统计机器翻译词对齐信息注意力机制对源语言和目标语言词语对应关系建模,是无监督的模型,没有利用任何先验知识和约束机制[42].统计机器翻译词对齐包含了丰富的信息,质量相对较高.如 在IBM 模型[43]中,位变模型(Distortion Model)用于控制词语的重排序,繁衍模型(Fertility Model)用于控制一个源语言词语可以对应目标语言词语的数量,而注意力机制缺少这些约束信息.根据以上所述,将统计机器翻译词对齐信息引入注意力机制是一种可行的方法,这方面的工作主要有以下几种.Feng等人[44]将位变模型、繁衍模型思想引入基于注意力的神经机器翻译,实验采用 NIST 汉英翻译语料,相比基线系统提高了 2.1 个 BLEU 值,同时也能够提高词对齐效果.该方法比较重要的贡献是借助统计机器翻译的繁衍模型,在一定程度上缓解了过度翻译问题.Cohn等人[45]则在注意力机0472计  算  机  学  报 2018年uctural Biases)信息,包括位置偏置(Position Bias)、马尔可夫条件(Markov Condition)、繁衍模型、双语对称(BilingualSymmetry)等信息.实验在罗马尼亚语、爱沙尼亚语、俄语、汉语到英语四个语言对上进行,其中汉英翻译采 用 BTEC 语 料 库 (Basic Travel ExpressionCorpus,BTEC),相比基于注意力神经机器翻译,提高了3个BLEU 值,而其余实验效果并不显著.Zhang等人[46]将位变模型显式地集成到注意力机制中,使得该机制同时获得源语言的词语信息和词语重排序(Word Reordering)信息.在较大规模的汉英语料上能够显著提高翻译质量和词对齐质量.4.1.5 过度翻译和翻译不充分问题过度翻译指一些词或短语被重复地翻译,翻译不充分指部分词或短语没有被完整地翻译.该问题在神经机器翻译中普遍存在,包括基于注意力的神经机器翻译.上述问题部分原因在于神经机器翻译并没有很好的机制来记忆历史翻译信息,比如已翻译词语信息和未翻译词语信息,从式(13)~(15)可以看出.在这方面研究中,Tu等人[23]提出 的覆盖 (Coverage)机制是很重要的研究成果.该方法将统计机器翻译的覆盖机制引入基于注意力神经机器翻译.设计了一种覆盖向量,用于记录翻译过程的历史注意力信息,能够使注意力机制更多地关注未翻译词语,并降低已翻译词语权重.覆盖机制是统计机器翻译常用的方法,用于保证翻译的完整性.在神经机器翻译中,直接对覆盖机制建模是很困难的,Tu等人通过在源语言编码状态中增加覆盖向量,显式地指导注意力机制的覆盖度.这种方法可以缓解过度翻译和翻译不充分问题,效果很明显.虽然没有完全解决该问题,但仍然是对注意力机制的重大改进.该问题的另外一种解决方法是在翻译过程中控制源语言信息和目标语言信息对翻译结果的影响比例.这种思想很直观,在翻译过程中源语言上下文和目标语言上下文分别影响翻译忠实度和流利度.因此,当生成实词时应多关注源语言上下文,生成虚词时应更多依靠目标语言上下文.这就需要一种动态手段控制翻译过程中两种信息对翻译结果的影响,而这种控 制 手 段 是 神 经 机 器 翻 译 所 缺 少 的.这 方面典型工作为 Tu等人[47]提出的上下文门(ContextGate)方法,在保证翻译流利度同时,也确保了翻译的忠实度.覆盖机制和上下文门能够结合在一起,互为补充.覆盖机制能够生成更好的源语言上下文向量,着重考虑翻译充分性;上下文门则能够根据源语言、目标语言上下文的重要程度,动态控制两种信息対生成目标语言词语的影响比重.过度翻译和翻译不充分问题是神经机器翻译存在的问题之一,在商用神经机器翻译系统中仍然存在该问题,需要更加深入研究.4.1.6 融合外部记忆方法在神经网络中增加外部记忆[35-36],解码时与之交互,可以扩展神经网络的表达能力.因为外部记忆可以将当前时刻的重要中间信息存储起来,用于后续时刻,以此增强神经网络的长时记忆能力.在一些任务上可以达到并超过传统的循环神经网络和长短时记忆神经网络[37].外部记忆应用在神经机器翻译的重要工作是Wang等人[28]提出的 MEMDEC解码方法.该方法首先定义一个n×m 大小的外部记忆,n表示记忆单元个数,m 表示记忆单元大小,在解码过程中可以读取和写入信息,记忆单元的读取和写入类似神经图灵机的读写机制[36].在解码中,将当前时刻的目标语言信息、源语言信息和解码器状态信息写入记忆里,并在下一时刻读取.如图6所示,MS为源语言记忆,即源语言表示,MB为外部记忆,st表示隐藏状态,yt表示在t时刻生成的目标语言词语.图 6 MEMDEC 解码方法图示这种方法在记忆里选择性地存储可用于后续时刻的中间状态信息,在一定程度上弥补了注意机制的不足,能够更好地扩展神经机器翻译模型的表达能力及增强长距离依赖效果.4.2 字符级神经机器翻译字符级神经机器翻译(Character Level NMT)是为了解决未登录词、词语切分、词语形态变化等问题提出的一种神经机器翻译模型,主要特点是减小了输入和输出粒度.不同粒度词语切分示例如图 7所示,空格表示词语之间切分,短线表示字符、亚词(Subword)之间切分.121472期 李亚超等:神经机器翻译综述图 7 词语粒度示例4.2.1 词语编码方案多数神经机器翻译模型都以词语作为翻译基本单位,存在未登录词、数据稀疏以及汉语、日语等语言中的分词问题.此外,在形态变化较多的语言中,如英语、法语等语言,以词为处理基本单位时,丢失了词 语 之 间 的 形 态 变 化、语 义 信 息.如 英 语 单 词,“run”,“runs”,“ran”,“running”被认为是四个不同的词,忽略了他们有着共同的前缀“run”.为了解决上述问题,学者们提出了不同的词语编码方案,根据粒度划分可以归为以下两种:(1)字符编码方案.对于英语、法语等拼音文字来说字符是组成词语的基本单位,在语言处理中能够以字符为单位建模.这方面工作很早就开始研究,比如字符级神经网络语言模型[48].该方案同时也存在不足,比如编码粒度过小,适合英语、法语等字符数量相近的语言之间的翻译,如果用在英语到汉语翻译上会出现诸多问题.(2)亚词编码方案.亚词编码方案选用的翻译基本单位介于字符和词语,可以得到两种方案的共同优势.词素的粒度同样介于字符和词语之间,不足之处是跟特定语言相关,限 制了应用的通用性.因此,亚词通 常 采 用 BPE 编 码 (Byte Pair Encoding,BPE)得到[49],该方案将经常结合的字符组合看作是一个单位,比如词语“dreamworks interactive”,可以切分成“dre+am+wo+rks/in+te+ra+cti+ve”序列,方法简单有效,适应性强.4.2.2 半字符级神经机器翻译半字符级神经机器翻译是编码器或者解码器的一端采用字符,另外一端采用亚词或者词语.这种方案是字符级和词语级编码的折中方案.源语言端为亚词,目标语言端为字符或亚词,代表工作为Chung等人[50]提出的字符级解码方法.该方法中源语言翻译基本单位为亚词,通过 BPE 编码得到,目标语言以字符形式生成,编码器和解码器均采用循 环 神经网络 实 现.实验 采 用 WMT 2015 语料,源语言为英语,目标语言分别为捷克语、德语、法语、俄语等四个语言对.相比亚词级解码,字符级解码均取得了最好的翻译效果.在上述工作中发现了一些特点:(1)注意力机制能够实现字符到亚词、词语之间的对齐;(2)目标语言未登录词处理效果较好,因为字符级解码可以对任何词语建模;(3)解码中,字符序列显著长于亚词序列,但是在该实验中两者翻译效果相近.源语言为字符,目标语言为词语是本节论述的另外一种形式.Costa-Jussa等人[51]将编码器的查找表(用于实现词语到词向量转换)替换为一个卷积神经网络,从而实现字符到词语的映射,解码器仍采用词语 级 解 码.这 种 方 法 在 源 语 言 端 采 用 字 符级编码,能够捕捉到所有词语表达形式,消除了未登录词问题.这类工作同样应用在汉语、日语等需要分词的语言上.Su等人[52]采用基于格循环神经网络(Lattice-based RNN),对汉语采用基于字的输入,通过词网格对词语的不同切分形式进行表示,并作为编码器的输入,以此处理汉英翻译中汉语词语切分问题;解码时,仍然以词语形式生成英语翻译结果.与之类似,Yang等人[53]则在编码器端采用行卷积(Row Convolution)神经网络,自动地从输入的字符序列学习到词语信息.这两种方法都以字符作为输入,可在源语言端减少未登录词问题,适合源语言需要分词的翻译任务,不足之处是目标语言端仍然为词语.4.2.3 字符级神经机器翻译字符级神经机器翻译要求输入和输出均以字符为基本单位.这类方法通过在编码器、解码器上增加字符到词语之间映射机制,从而实现字符序列输入和输出.Ling等人[54]在编码器上增加字符到词语映射,实现字符级输入,解码时生成目标语言字符序列,注意力机制关注源语言词语序列.这种方法人为在双语语料中加入“SOS”、“EOS”,分别表示句子开始、结尾标志;加入“SOW”、“EOW”,分别表示 词语开始和结尾标志.用循环神经网络实现字符到词语的映射,构建基于字符的词语表示.在解码中实现字符级输出,包括词语和句子的开始、结尾标志.当产生“EOS”表示生成一个完整的句子,产生“EOW”表示生成一个完整的词语.通过这种方法实现了字符级的输入和输出.2472计  算  机  学  报 2018年

[返回]
上一篇:基于语义分割的双目场景流估计
下一篇:面向搜索引擎的实体推荐综述