欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
生成对抗网络及其在图像生成中的应用研究综述
来源:一起赢论文网     日期:2022-01-05     浏览数:835     【 字体:

 第44 第2期2021 年2 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No.2Feb. 2021生成对抗网络及其在图像生成中的应用研究综述吴清潇 郝颖明w’ "崔芸阁中国科学院沈阳自动化研究所 沈阳 110 016)2)( 中国科学院机器人与智能制造创新研究院 沈阳 110 016)3)( 中国科学院大学 北京 100049)?( 中国科学院光电信息处理重点实验室 沈阳 110 016)摘 要 生成对抗网络(GAN)是无监督学习领域最近几年快速发展的一个研究方向, 其主要特点是能够以一种间接的方式对一个未知分布进行建模. 在计算机视觉研究领域中, 生成对抗网络有着广泛的应用, 特别是在图像生成方面, 与其他的生成模型相比, 生成对抗网络不仅可以避免复杂的计算, 而且生成的图像质量也更好. 因此, 本文将对生成对抗网络及其在图像生成中的研究进展做一个小结和分析: 本文首先从模型的架构、 目标函数的设计、 生成对抗网络在训练中存在的问题、以及如何处理模式崩溃问题等角度对生成对抗网络进行一个详细地总结和归纳;其次介绍生成对抗网络在图像生成中的两种方法; 随后对一些典型的、用来评估生成图像质量和多样性的方法进行小结, 并且对基于图像生成的应用进行详细分析; 最后对生成对抗网络和图像生成进行总结, 同时对其发展趋势进行一个展望.关键词 生成模型; 生成对抗网络; 图像生成; 生成图像质量评估中图法分类号TP18DOI号10.11897/SP.J.1016.2021.00347ASurveyAboutImageGenerationwithGenerativeAdversarialNetsCHENFoJi1) ,2) ,3) ,4)ZHUFeng1) ,2) ,4)WUQi ngXi ao1) ,2) ,4)HAOYi ngMi ng1) ,2) ,4)WANGEnDe1) ,2) ,4)CUIYunGe1) ,2) ,3) ,4){ShenyangInsi i iui eofAuLomaL ion-, Chi neseAcademyofSci ences-, Shenyang110016)2)( InsL i LuLesforRoboticsandInLel ligenLManufact uring? ChineseAcademyofSciences, Shenyang110016)3)( Uni versityofChineseAcademyofSci ences?Beijing100 04 9)4 )( KeyLaboratoryofOpio EL eci ronicInformationProcess?Chi neseAcademyofSciences ,Shenyang1 10016)AbstractIntasksofunsupervisedl earni ng,thegenerati vemodelisoneofthemostcriticaltechniques. Thegenerati vemodel consistsofprobabi l i tydensityestimati onandsampl i ng, whi chcanlearndatadistri butionbyl ooki ngatexisti ngsamplesandgeneratenewsamplesthatobeythesamedistri buti onastheorigi nal sampl es. Forcompl exdistri butionsi nahighdi mensi onalspace,densityesti mationandsampl egenerati onareoftenhardtorealize. Si ncehigh di mensi onalrandomvectorsaregeneral lydi ffi cul ttomodeldi rectly,i ti snecessarytosimpli fythemodel wi thsomeconditi onindependencehypothesis. Evengi venacompl exdistri buti onthathasbeenmodel ed,therei sal ackofeffecti vesampl i ngmethods.Wi ththerapi ddevel opmentofdeepneuralnetworktechnol ogy,thegenerati vemodelhasmadegreatprogress. Inthepastfewyears,therehasbeen收稿日期:2019 08 28; 在线发布日期:2020 05 19. 本课题得到国家自然科学基金( U1713216) 和机器人学重点实验室自主课题项目(2017 Z21) 资助. 陈佛计, 硕士, 主要研究方向为图像生成、 机器学习、模式识别、 视觉测量. Email: chen丨oji@Sia.cn. 朱 枫( 通信作者),博士, 研究员, 博士生导师, 主要研究领域为机器人视觉、 视觉测量、 视觉检测、 红外图像仿真、 3D物体识别. Email : 1754 208529 @qq.com.吴清潇, 博士, 研究员, 硕士生导师, 主要研究领域为机器人视觉、 机器视觉. 郝颖明, 博士, 研究员, 硕士生导师, 主要研究领域为图像处理、 空间视觉测量. 王恩德, 博士, 研究员, 硕士生导师, 主要研究领域为小型飞行器控制、 图像目标检测、 识别与跟踪、 微弱信号检测预处理. 崔芸阁, 硕士, 主要研究方向为SLAM和图像生成.348 计 算机 学 报 2021年adrasticgrowthofresearchi nGenerati veAdversarialNetwork( GAN)whichcanmodelanunknowndi stributi oninani ndirectwayandcanavoi dstati sti calandcomputati onalchal l enges.Atthesameti me,generati veadversarialnetworksarethel atestandmostsuccessfultechnol ogyamonggenerativemodel s.Especi al lyintermsofimagegenerati on,comparedwithothergenerati onmodel s,generati veadversarialnetworkscannotonl yavoi dcompl i catedcal cul ati ons,butal sogeneratebetterqualityi mages.Therefore,thispaperwillmakeasummaryandanal ysisofgenerati veadversarialnetworksandit sappl i cati onsi nimagegenerati on. Fi rstl y,fromthetheoreti calaspect,thebasici deaandworki ngmechanismofgenerati veadversarialnetworksareexplai nedi ndetail ;Howtodesignthel ossfuncti onofgenerati veadversarialnetworksbasedonF di vergenceorintegralprobabilitymetricisi ntroduced,anditsadvantagesanddisadvantagesaresummari zed;Fromthetwoaspectsofconvol utional neuralnetworkstructureandautoencoderneuralnetworkstructure,themodelstructurecommonl yusedingenerati ngadversarialnetworksissummari zed;Atthesametime,theprobl emsandcorrespondingsol uti onsi ntheprocessoftrai ni nggenerati veadversarialnetworksareanal yzedfromboththeoreti calandpracti calperspecti ves;Secondl y,basedonthedirectmethodandtheintegrati onmethodasthecl assificationcriteria,currentmethodsofgeneratingi magesbasedongenerati ngadversari al networksaresummari zed,andthebasi ci deasofthesemethodsareexplai nedi ndetai ls.Then,fromthethreeaspectsofi magegenerati onbasedonmutualinformati on,i magegenerati onbasedonattentionmechanism,andi magegenerati onbasedonasingl eimage,themethodofdirectl ygeneratingimagesbasedonrandomnoisevectorsissummari zed.Thecurrentmethodsofgenerati ngi magesbasedoni magetransl ati onareexpl ainedindetail sfromtheaspectsofsupervisedandunsupervisedmethods.Later,fromaqualitati veandquantitati vepoi ntofview,theexisti ngmethodsusedtoeval uatethequalityanddi versityofgeneratedi magesbasedongenerati veadversarial networksareanalyzed,andcontrasted.Fi nal ly,theapplicati onofgenerativeadversarial networksi nthefiel dofsmal lsampl es,datacategoryi mbal ance,targetdetectionandtracki ng, i mageattri buteedi ting,andmedi cali magesprocessi ngisintroducedi ndetai ls. Andsomeproblemsi ntheoryandpracticeofgenerativeadversarialnetworksandi magegenerati onareanal yzed;Thedevel opmenttrendofgenerati veadversarialnetworksandthedevel opmenttrendofi magegenerati onaresummarizedandprospected.Keywordsenerati vemodel;generati veadversarialnetwork;i magegenerati on;generateimagesqualityassessmenti 引 言生成模型是无监督学习任务中一类重要的方法. 生成模型可以直接学习样本数据中的分布, 然后从学到的分布中进行采样可以得到类似于样本数据、 服从同一分布的样本. 伴随着深度神经网络的快速发展, 基于神经网络的生成模型取得了显著的成果. 在神经网络兴起之前, 生成模型主要是对数据的分布进行显式地建模, 例如: 基于有向图模型的赫姆霍兹机[1]( Hel mholtzmachi nes)、 变分自动编码器(Vari ati onalAuto Encoder,VAE)[2 ]、 深度信念网络[ 3 ](DeepBeliefNetwork, DBN) 等和基于无向图模型的受限玻尔兹曼机[4]( RestrictedBol tzmannMachi nes, RBM)、深度玻尔兹曼机[ 5](DeepBoltzmannMachi nes, DBM) 等, 以及自回归模型[ 6 ](AR模型).由于被建模随机变量的高维度, 学习十分困难. 其主要体现在统计上的挑战和计算上的挑战, 统计上的挑战就是这些生成模型不能很好地泛化生成的结果, 计算上的挑战主要来自于执行难解的推断和归一化的分布. 面对这些难以处理的计算,一种方法就是近似它们; 另一种方法就是通过设计模型, 完全避免这些难以处理的计算. 基于这样的想法, 研究者们提出了一系列新的模型, 而由 Goodfel l ow等人m(2014) 提出的生成对抗网络( Generati veAdversarial Networks,GAN) 是生成模型目前最好緣佛肩: 4麟卵赛具纖興像生ft中餘麵研露雜 349 2: 期的一种方法.受博弈论中两人零和博弈思想的启发,GAN主荽由生成器和鉴别器商个部分组成? 生成器的目的暴生成真实的样本去骗过鉴别器, 而氅别器是去鼠分真实餘#'本和生成的样本.纖该对救训练難不断的提高各自的能力.? 最终达到一个纳什均衡的状态.因为生獻対抗网络歡生成厳像方面的能力超过了其他的方法, 所以其成为了一个热门的研究方向.GAN中的对抗箏习風想逐靳与深度-习中的其他研究方向梱互渗遂, 从而诞生了很多新. 的研究方向和S用? 相笑综述性的文章包括: 隹. 成对抗网络教職_( 2016NIPS):、 Cwswel I 等人[ ?的銳成对抗网络综述、 Kimich等人 从掼失函数、神?网络架构、芷则化和.! &一化等:角度做的嫁述、林懿伦等人[11]的生成式对抗ft導、Zamarski等入[1 2]:,生成对抗网翁的最新进展. 从这些文:章中可踩教出, 关于生成对抗网络的研究主繁是以下两个方面^(1) 在理论研究方面, 主要的丈作是糖除生成对抗网铬的不稳定性和模式崩溃的问题?Gopdfdlow在NIPSmiS 会议期间做的一个关fGAN的报贅中 他阐述T"生珙壤'塑的重蘩牲, ,并且解释了生成对抗:网络如何工作以通;一蠢前沿的谱题, &6S,el l等人M在生成对抗网络的综述中, 主要介绍了几种GAN的网络架构和GAN的应用, 并且从倩'号处理的角度, 除了确定狐练和构造GAN的方法, 还指出了在GAN的理论和实际斑用中仍然存在的挑战?Kurach等人[ 1 °]从损失函数、 网络架构、 疋则化以及批标准化等角度对GAN的一些两题和可重复性进行了研究- 林懿伦等人》?对GAN常见的网络结构、训练方法、集成方法、 以及一些应用场鼙迸行了介鼙?Zamorski 等人M从学习隐空间表示的衔虔出发, 对GAN嫌新的进展进行论述.(2) 莅应用方面\主要关注的是生成对抗网络在计算机视觉(CV), S然语曹处理《NLP) 和其他领.域的应用. 目前生成对抗网络在计算机视觉任务中已盗有了很多的应用, 例如■像生成、谣义分割、 图像编辑、超分_率.、 图像修复,域转换、 视频生成和预测等I而生戚对抗网络在自然语言处理中的应用也呈现H益增长的趋势, 例如: 从文本ft成图像、 字体的生成、对请生成、 机器麵译等'*同时生成对抗网络_语音生成:#W也有一链斑甩. 生成对抗__在视觉中的应用情况如表1 所示?在生成对抗网络的众多应用中, 被研究最多的领域是图像生成?其目标是通过生成器.来生成斯望的图像.表IGAfT在视觉任务中的应用视觉任务 GAN模型图像转换Pix2pix[1 3], Cycle-GAJ Sf[14], Dbc〇-GAlSf[1 5]D2GAN[1 6], ACGAN[1 7]超分辨率 SRGAN[l s]属性编辑SD-GAN[1 9]SL-GAN[2 0], DR-GAN[21]AGE-GAN[22], AttGAN[23]目标检测 SeGAN[2 4], PerceptualGANE2 S]视频生成 VGAN[2 6 ], MoCoGAN[叼图像修复 GenerativeFaceCompletion[ 28 ]姿态估计 PoseGuidedPersonGenerationNetwork(PG2)[2 9]:本文首先分紹龜成对抗网络胁: 塞本慕理痛存在的问题, 以及针对存在问题做的改进. 靠次对生成对抗两络在图像生成中应用* 以及对生成菌像的威量的评估迸行探讨. 然后对基于图像生. 成的应用做一个详细介绍<最后射&成对抗网络的发展趋勢和其在图像生成领域中的应用进行展望42GAN的介绍2. 1GAN的工作机理生成对抗阿络由生成器(G) 和鉴别器( D>两个部分祖成4卩图1 所示. G是由0秦数化的神经网络实现 的输人暴一个服从宁慕一-分布九的随机_營 而G的输出可以着成是. 采禅于某一分布九的一个祥本G< d?假设真实数据的分布为 在给定一定量寘实数据集的条件下, 对生成对抗网络进行训练, 让G学到一个近似于真实数据分布的函数. GAM中G的主要目的基座成类似于真实数据的祥:率以骗过 商D的输人_寫实的样: 本和生成的样本两个部分组成,D的目标躭是判断输人的数琚是来自于寘实的样本还是来自于G生成的样本.G和D经. 过对抗训练达到一个纳什平衡状态, 即D判断不出其输人*来;§于真实的样本* 还是来自于G生成的#本, 此时就可以认为G学召到了真实数据的分布. 在理论上?假设在生成对抗网络中真实数据分布齿 , 弁且有一^被^参数化的: 生成分帝馬“; 仍? 如舉想it高实歡堪分布和生成分事予分接近, 首先从PjmW随机采样数#为《的样嵐1 進成对抗网络■龜构3 50 计 算机 学 报 2021年本, 并且计算出 最后通过最大似然函数:L=JJPG(^j d)(1)i i来求出参数A其结果如下:d*^argmi nKL( Pda ta( ^)P〇( ^;^) )(2)0知当IT( X)=pr 、 时, 似然函数的值最大; 此时, 将 ( d代人到似然函数中就可以得到生成分布和真实数据分布之间的JensenShannon散度(JSD). 最终就可以将一个分布逼近另一个分布的问题转化为最小化两分布之间的JSD. 基于这样的思想可以设计出GAN的目标函数如下式所示:mi nmax=mi nmaxEp。[l ogD(a:)]+GDGDd ataE_#Jl og( l D(G( z) ) )](3)其中V( G, D) 是一个二分类的交叉熵函数, 该损失函数的最终目标是最小化生成分布和真实分布之间的KL散度. 通过分析对抗网络的目标函数, 并且从D的角度来看的话, 如果D的输人是来自于真实样本, D将会最大化输出; 如果D的输人来自于G生成的样本, 则D将会最小化输出; 同时G想要去欺骗D, 那当G生成的样本作为D的输人的时候, 必须最小化损失函数V(G, D). 但是当D被训练得非常好的时候, 他将以很高的置信度直接将来自于G的样本判别为假. 此时l 〇g(l D(G( Z) ) )就会饱和,从而导致梯度为〇 , 最终参数得不到更新. 此时可以将l 〇g( l D(G( Z) ) ) 换成l 〇gD( G(z) ). 尽管新的目标函数可以提供不同于原始损失函数的梯度, 但是仍然存在梯度消失的问题; 同时在理论上假设D和G具有充分的能力去对一个未知的分布进行建模,但实际上这种建模能力是有限的.因此有很多学者尝试通过改变目标函数和神经网络结构等技巧来解决这些问题, 接下来我们将分析这些GAN的变体,然后重点关注如何处理GAN训练中的存在问题以及模式崩溃.2.2GAN的目标函数GAN的主要目标就是去最小化真实数据分布与生成数据分布&之间的距离, 怎么样度量分布之间的距离对于GAN极其关键. 标准的对抗网络通过JSD来度量两分布之间的差异, 然而这种度量方式存在很多缺陷. 针对这些问题, 研究人员最近几年提出了不同的距离度量方式和散度度量方式来代替JSD, 以提高GAN的性能. 这节我们将讨论如何基于这些距离或者散度的度量方式来对分布之间的差异进行准确地度量. 目前常见的度量方式分为以下几类, 如表2 所示.表2 分布之间距离的度量方式Met ric 度量方式 GAN模型FdivergenceKLDJSDPearsonX2标准GAN[7]LSGAN[30]Int egralProbabilityWasserst ei nDist anceWGAN[3 1]WGANGP[32]Met ric(IPM) MaximumMean GMMN[ 33 ]Discrepancy( MMD) MMDGAN[3 4 ]在接下来的小节中, 将按照表2 的分类方式, 分别对每一种方法进行详细地分析.2.2.1F散度( Fdi vergence)F散度[3 5]是用一种特殊的凸函数/来度量两分布之间差异的一种方法, 基于两分布之间的比值, 可以将两分布之间的Fdi vergence定义为如下的形式:Dr(PdalaPg)=Or )/( 》〇:!: ( 4)在采用式(4) 对两分布之间的差异进行度量时,必须满足这样的前提条件: /(1)=〇 并且/是一个凸函数, 即当两个分布是一致的时候, 其比值为1,而相应的散度应该为〇. 由于任意满足/(1)=〇 条件的凸函数, 都可以衍生一种GAN的目标函数, 这样就在很大程度上拓展了标准GAN. 但实际操作过程中, 并不能准确地求出数据分布的函数形式, 所以应该采用一种可以计算的方法将式(4) 给估计出来./GAN采用了变分估计的方法来估计模型的参数,首先求出凸函数/( 也叫作生成器函数) 的共轭函数尸, 也称为Fenchel 共轭, 其形式如式(5) 所示:f*(t)—sup{ utf(u)}(5)u^dom/由于Fenchel 共轭是可逆, 也可以将/表示为f('u)—sup{utf*(t)}( 6)u^dom/*将式(6) 代人到式(4) 中可以得到/的下界, 如式(7)所示:)sup(7)(x)f*(T( x')')pg( x')^dx(8)=supC E^^[T(^>] Ex^ps[/*(T(x')') J)( 9)其中/#是凸函数/的Fenchel 共轭函数, dom/#是尸的域.因为最大值的和大于其和的最大值, 所以式(7) 可以变为式( 8); 在公式中了表示满足%—的一类函数, 因此可以用TX:r) 来代替公式中的r;而且TX:r) 可以用式( 10) 来表示:D,(》da ta 》裏)叫>sup(\T( x) pd陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 35 12 期T(x)=a(Dm( x) ),a(*): R ?dom/*Dm(x):%>-R(10)在式(10) 中, 可以将7X:r) 看成是带有一个特别激活函数aO) 的鉴别器; 用不同的生成器函数/以及与其对应的激活函数a〇) 可以导出很多GAN的变体. 与标准GAN—样, /GAN首先最大化等式( 9) 关于T(:r) 的下界, 然后最小化近似的散度,使得生成器学到的分布更加类似于真实数据的分布. KL散度(KLD)、 逆KL散度、JSD以及一些其他的散度都可以由带有特殊生成器函数/的/GAN架构衍生出来. 在这些衍生出来的GAN的变体中,LSGAN[ 2 9 ]的性能是最好的一个; 但是在标准的GAN中, 当生成器学到的分布 和真实的数据分布 之间没有交集的时候, 即&距离 还是很远时, 他仍会以很高的置信度将生成器生成的样本判别为假, 此时就会导致目标函数值是一个常量, 反向传播的时候梯度为〇, 最终导致梯度消失. 基于这些问题LSGAN采用最小二乘损失函数来代替原始GAN中的交叉熵损失函数. 最小二乘损失函数相较于容易饱和的交叉熵损失函数有一个优势, 即只在某一个点是饱和的. 最小二乘损失函数不仅骗过鉴别器, 而且还让生成器把距离决策边界比较远的样本拉向决策边界. 类似于等式( 3) , LSGAN[ 3 °14损失函数如下所示:mi nJ"(_D)=mi n0.5X^D( x)a]2+DD細0?5XE?z[D( G(z) )b]2(11)mi nJ( D)=mi n0.5X [D(G(z) )c]2( 12)GGz其中, D(:r) 表示鉴别器的输出、 G( z) 表示生成器生成的样本, z 表示服从某一分布的随机向量. 常数a、6分别是表示生成图像和真实图像的标记;c 是生成器为了让鉴别器判定生成的图像是真实数据而设定的一个阈值.因此, 与标准GAN目标函数不同的一点是, 最小二乘损失函数不仅仅对真实样本和生成的样本进行分类, 而且还迫使生成的样本数据更加靠近真实数据的分布. 我们总结LSGAN的优势如下, 首先是稳定了训练, 解决了标准GAN在训练过程中容易饱和的问题; 其次是通过惩罚远离鉴别器的决策边界的生成样本来改善生成图像的质量.2.2.2IntegralProbabi l i tyMetri c( IPM)IPM[3 6]是与散度相似的一种、 用来对两个分布之间的差异进行度量的一种方式, 并且在IPM中定义了属于某一个特殊函数类,的评价函数/. 在一个空间中XC7^, P(;() 是定义在X上的概率测度, 基于这个测度, 和 之间的IPM可以被定义为下边的形式:Mfe^( Pd^, Pg)= sup!EPd aaU)[f] EPg(a[/] | (13)在式(13) 中, 基于评价函数/的度量标准IPM决定了&和P 之间的差异的大小. 在这里评价函数可以用一个被 参数化的神经网络和激活函数^的乘积来表示. 如式(14) 所示:={ f(x)={v, vu( x))\ v^:Rm,zv(x): X^Rm}( 14)类似于F散度, 基于不同的评价函数就有IPM的不同的变体, 典型的性能比较好的变体有WassersteindistancemetricC3 1]fWMaxi mumMeanDiscrepancyC3 7]( MMD). 接下来, 分别对这两种距离度量方法进行详细地分析.首先对Wasserstei n 距离进行详细地讨论,WGAN[3 1]采用最优传输理论中Wasserstei n距离( 也称作Earth mover( EM) 距离) 来度量两个分布h和 之间的差异. 并且Wasserstei n距离被定义为如式( 15) 所示的形式:W( P,, Pda la)=mf 瓦(工, 3〇?t[¥y]( 15)7 ̄il(^,Pdata)其中II(圮, Pdala) 是九和fdala 组合起来的所有可能的联合分布的集合. 对于每一个联合分布y而言, 可以从联合分布中采样, 从而得到一个真实的样本_y和一个生成的样本:c, 并且求出这两个样本之间的距离z , 然后计算在联合分布7下的期望值E(^[k _y ]. 最后在所有可能的联合分布中求出期望值的下界, 而此下界就定义为Wasserstei n距离; 直观上可以将Wasserst ei n距离理解为在最优路径规划下的最小能量消耗. 由于直接对式(15) 进行求解是很困难的, WGAN利用Kantorovich Rubi nsteinduality 的技巧将式( 15) 转换成以下形式:, f*dala)=尺戸(/(工) ) (/(工) )fl<i(16)在式(16) 中sup表示的是一个上确界, /々表示的是评价函数必须满足々利普希茨( Lipschkz)连续性约束; 这里的Upschkz 连续性要求指的是,对于一个连续函数/施加一个限制, 并且存在一个常数&>〇 使得定义域内的任何两个元素:^和&都满足如式(17) :|f(xj )f(.x2)\<k\ xxx2\ ( 17)式(17) 中的々 称为是函数/的Lipschi tz 常数,实际上该连续性约束是为了限制连续型函数最大局31 2 计導机攀报: _1苹部变动的幅度, 式( 16>中的/函数可以甩一个用w参数化的、 最后一层裨经网絡不用非线性激话■'数的多层神罃两络九来实现< 其实就是鉴别器神经. 网络DV在限制权值w不通过某个范爾的条件下, 使得£=Et'P—[/(表)]£±乂[/〇*)]( 18)尽可能最大, 此时的£就是近似真i分布和生成分布之间的Wa_;r_i n距离, 翁卖际屢现前时傭聲:注意*原始OAN的鉴别器做的是一个真假二#类的任务? 所以最启一层着鼕添加一+非线性激活函数sigmoi d爾数: , 但是现在 器是近似拟合Wasserstein 距离, 属f回|3任务, 神逶网络的最后一层菲线性激活函数襄拿抵我们的陳.标是暨去最小化厶, 因此基于式(m), 可以设计出WGAN的损失函数如下所示:G^Loss,}Ex-ps[jL, t, x)](19)D的Loss'tEi*^[/?(又)] 瓦、/[/?心')];C20)録上, 采; 用Wasser sfei n躯离来度量生處分布I3,和真实分布 之间差异胁好处就是, 当^和之间没有雙_减#是:交: _狼小的时候, Wa热ers_i艇离不是一个常量!■. 其仍然可以度量两分布之间的■异, 所以很好地缓解了梯度消失的问题. 但是喪上述WGA. N: 中%粗暴的权重裁剪会导致如下问题;在对抗网络中鉴别器的Lo路是希望尽可能地拉尤寫假祥本之间的差距. 然后权: 霞裁剪的策略又独立地限劁每一个网络参数的取值范围, 在这样的情况下就是让所有的参数走向极端凑么取最大值蘩么取最小值5 导致参数值的分布很不均匀, 如?2(治所示. 针对这个问題, 学者们又用梯度惩罚项来代替WGAN中的权重裁剪的技巧, 逋过限制鉴到器的梯度不超过LLpsahi tz:常数為乘构造: 様愈: 藝罚项.(a) 梯度裁剪(b) 梯度惩罚SI 双<54;?[31 ]_被:重疸势布魂迸后的损失函数, 如式m) 所示tC=Ex.tg[(*)] ET,lot)]+AEa[ U山'1#l]a( 21)通过_2(h)¥賓以, 观赛_满足ILipschi ?約東的梯度惩S使得禆经网络的参数分布得更加均邻接下来对最大平均羞异[3 7](MMD) 做深入的讨论? 最大平均差异被槔出时最舞被用于双样本检测问M,用f判断苘个分布P和Q是■否一样,其基本思想是t对于所有以分布生成的祥本空间为输人的函数/, 如杲两个分布P和Q生成足够多的样本, 并里.这些祥本在涵数/卞值的均值刺等、 那么就可以认为这两个分布是词一个分布. 首先介绡一TF希尔伯特瘦间H, 希尔伯#空间是一个完备的线性空间,同时也是一个内积空间. 核6 袜定义为6避, l(、v, x) =M 对于任意一个给定的KJS核M?,?:V都拿_一个唯 雜爾翁空间"/:4麗!<frf其满足再生性, 因此也叫做再生核希尔伯特空间(ReprpducnigKiernelHilbertSpacf.RKHS) ; 再生性指: 札是一个希尔怕待空间, 并且其满足以下特性:</. ^; {*? a:l )>if). =/( x).V/(;(?(22)假设有一个满足P分布规律的数据集Xs=[4,…, <]和一个满足Q分布的数据集A”=[4,*u; ? ]; 并且存在一个RKHS和一个梭函数 :可以将_原始数据X从原始空间映射到再生核希尔猶特空间? 诨此MMD可以被表示为如式C23) :M(H)=—)rYY\ 丄4' im)逋过式03J可以着出, 其康理就是对每一个霧实祥本和生成的样本进行投影并求和、 利用和的大小对巧和P_之间的差异迸行璨量..类似于IPM? MMD#参数空间—牡灶達# 镦的, 同: 时?IPM爾框架下MMD也有以被瑪解, 此时其函数类綦7=队.2.2.3IPM度:#标准和F散度度量标准的比较对于F散度来讲, 在式⑷中被定义的、带有凸函数/的/散度涵数族, 当数据空间中的维数 逐渐增加的时候,/散度. 是很难被估计的, 并且两个分布的支撑集是没对齐的》^ 又会导致散度的值趋向于无穷大.. 尽管等式(&) 推导出了等式(4) 的变分下界,但是在实践中不能保证变分下界对真实散度的收紧性, 从而会导致不芷确、甚至鼻有偏的估计.Sripenimbuchjr^人[ 3 6]研:兹: 義_齊/-divergence族和IPM族之间唯一的褒集_暴TotalVariatkMiDistancef, 属此IPM族也棱?继樣/」divergeiic&||的缺点; 他们也证明了在使用独立同分布祥本的倩况下,IPM估计器是在收欽性方面吏加一敷.在实践应用中_, 吏多采用IPM度量标准来对真实分布和生成分布之间的差异进行度量. 与F散度度量标准相比.IPM度量标准有以下优点:( 1.)IPM度量标准不会受到数据遍潍的影响;緣佛肩: 4麟卵赛具纖興像生ft中餘麵研露雜 35 3 2: 期(2) 始终可似反映两分布之间的真实距离,即使是两分布的支撑集没有相应的交集,IPM也不会发散.2. 3GAN的模型结构員前芘对抗网络中處用最为广泛的两种神g网络结构分别是卷积神g两络结构和自动编码神经网络结构■基于卷积神经网络搭建的对抗网络^生成器由多层反卷积.网络晨构成, 而鉴别器由多层卷积网络层构成. DCGAN[ 3 S ]是首先采用该结构的模型4 其结构如图3所示同时该模猶也加入了批量正则化的技巧来帮助稳定GAN的训练; 由于DCGA.N良好的性能> 基于此网络猪梅提出了很多新的方法; 例如: :pix: 2pi: x[13]、 々ycl e-CJAS[[1 4]馨; : 同財: 受DC&Al^思想的启发>Dmuel 等人@使用递归神g.网络( RNN)去生成图像. 通过交眷对抗训练, DCGAN可以生成质量根:高的图像?綱*自动编码网络[4°], 如图4| 是一种甩于无监督学习的自重构神经两络, 并且嘗输人作为_标值, 甩自监督牵习方法来进軒训练.自重构的I[的是去学、习输入数据的高雄特征或者是压缩表示. VAE-GA.N[ 41 ]用鉴别器D来表示VAEM的重构损失. 从而可以结合变分自编码器和GAN苘者的优势. 去ft成高赓量的图像,最终该模型生成的图像要比单独用VAE或奢是单独用GAN生成的图像质量要好?aGAtF2 ]構ifi用Enco: de;r-Decoder结构来实现对抗网络中的生成器, 该结构中的Encoder, 输人是真实图片,输虚:是一个 讀码ilif与Enccder 无关的Dee; oder_: _输人一段给定编码, 输出是一张图片? 同时有一个鉴别器*其输人是顧像和隐编码组成的配对, 它讀荽去_断送个節对慕来自 Enccider 还裏Xteeoder? 该模型勒肩标就是让来自于Eneotfa配对的分布:P(i',s|)和来自于D&edde:r 配對的分布'QCr%之间的艇离越来遞小, 在: Bi-G_AN〔*2]中Encoder和就是一个互为逆运箅的过程.,从而窠好地实现重构.EBO AN[4?是一个由编码器、解码器和鉴别器三个部分组成的生成模SIs 其中鑒别器的作用晕判断解码器对输人酉像重构性的高低, 而编码器、解码器组成A. aferenco: der,壤ABtcKncoder提翁用,壽禽图Jf_行预训峯義.fi綱训靡好的Autsraeoxler_鲁: -租鉴别器两雄, 即可搭建该模型的对抗陶"络结构.ip-E(x)编码器E生成图像G(s〇鉴别器DA真图像X(a) VAE-GAIvP1的网络结构图4■自糖編與虛戚,#抗: 网繪采用卷积神经网络和转置卷积神经W络来搭建覺¥1司迸行一个很好的探索, 例如对图像进行属性编生成对抗网络是大多数人采用的方法. 如果想对隐变辑, 基于自动编码网络的GAN是一个最佳的选择.3 54 计 算机 学 报 2021年CGAN^47^Pix2pix^3^Text ure GAN[4 8]、 G2GAN[4 9], Bicycl e GAN[50]-Cont our2image[ 51 ]、SPADE[52]、PLDT[5 3]GAN[1Cl]、 WGAN[ 31 ]、 LeastsquareGAN[30], WGANGP[32]JAN[35],DCGAN[38]、 Unrol ledGAN[5 4]、Improved GAN[5 5]、InkrGAN[56]、LossSensit iveGAN「57」、 DTT^58 ]、UNIT[ 59 ]^ Self At tentionGAN[60]St ack GAN[6 1]、SS GAN[62]Dual GAN[6 3], TriangleGAN[64],St ar GAN[4 6]X〇mb〇 GAN[6 5],XGAN[66]、 LAP GAN[67]、LRGAN[6 8 ]、 SGAN[ 69 ]、2. 5 生成对抗网络的优势和劣势从上述讨论中可以知道, 在目前生成模型的各种方法中, 生成对抗网络相较于其他的方法有以下优势:(1)GAN通过一种间接的方式来对未知的分布进行建模, 从而避免无监督学习中难解的推断、 难解的归一化常数等问题; 所以GAN不需要引人下界来近似似然.(2)GAN可以并行地生成数据, 与自回归模型相比, GAN生成数据的速度比较快; 同时GAN生成的图像还比较清晰.( 3) 在理论上, 只要是可微分的函数都能够用于构建生成器和判别器, 因而GAN能够与深度神经网络结合来构建深度生成式模型.但是生成对抗网络也存在着如下劣势:(1) 可解释性比较差, 因为最终生成器学到的数据分布只是一个端到端的、 黑盒子一样的映射函数, 而且没有显式的表达式.(2) 在实际应用中GAN比较难以训练, 由于GAN需要交替训练生成器和鉴别器两个模块, 因此两者之间的优化需要很好地同步.(3) 可能发生模式崩溃的现象, 导致生成器学到的模式仅仅覆盖真实数据中的部分模式, 使得生成样本的多样性变低.( 4) 训练不稳定, 神经网络需要良好的初始化,否则可能找不到最优解, 导致学到的分布距离真实数据的分布仍然很远, 并且无法根据损失函数的值来判断模型的收敛性.3 基于GAN做图像生成的一般方法GAN在计算机视觉任务中应用最多的是图像生成, 各种模型可以按照是否有监督和直接法或是集成法的分类方式分为以下几类, 如表3 所示.表3 图像生成方法分类有监督无监督2.4 训练GAN存在的问题以及应对策略尽管GAN在某些方面取得了令人满意的效果,但是其在理论和实践中还是存在一些缺陷.在理论方面, 标准的对抗网络是用KL散度或者是JSD来度量真实数据分布和生成数据分布之间的差异. 由于这种度量方式在某些状态下是饱和的, 梯度消失的问题就会发生, 同时KL散度的不对称性使得对抗网络宁可丧失生成器生成模式的多样性, 也不愿丧失鉴别器的准确性, 最终导致模型的模式崩溃问题.在实践过程中, 对生成器生成图像质量的好坏的评估还没有一个统一的标准; 并且在训练对抗网络的过程中无法根据损失函数的值来判断模型是否收敛; 同时很难量化地判断生成器在什么样的条件下能够生成高质量的图像.为了更好地生成图像, 研究者们提出了相应的方法来解决上述在训练对抗网络中存在的问题. 比如采用替代损失函数的方法来改善梯度消失问题,Wasserstei nGAN提出用EM距离来替代标准GAN中的JSD.使用EM距离的优势在于, 即使是真实数据分布和生成数据分布不相交, 他也能很好地度量两者之间的差异. LSGAN用的另一种方法是使用均方损失替代标准GAN中的对数损失, 其目的是对距离决策边界较远的样本进行一个惩罚,使生成数据的分布更加接近于真实数据的分布.针对模式崩溃的问题, DRAGAN[44]采用梯度惩罚的方式来避免GAN的博弈达到一个局部平衡的状态, 极大地增强GAN的稳定性, 尽可能地减少模式崩溃问题的产生. Unrol l edGANs 在更新参数的时候不是仅仅用当前的梯度值, 而且是用前几次梯度值的加权和来对当前的参数值进行更新, 从而以此方法来预防模式崩溃的问题. Pac GAN[ 45 ]将多个属于同一类的样本进行打包, 然后传递给鉴别器,来减少模式崩溃现象的发生. 还有就是用集成的方法来处理模式崩溃的问题,一个GAN可能不足以有效地处理任务, 因此学者们就提出用多个连续GAN, 其中每一个GAN解决任务中的一小块问题.STARGAN[46]先独立地训练N对局部GAN, 然后基于局部GAN去训练全局GAN, 从而保证全局GAN生成模式的多样性. 在对抗网络的损失函数中加人感知正则化项, 则在一定的程度上可以改善生成图像的质量问题. 而对GAN生成图像质量的评估方法, 将在后边的章节中进行介绍.直接法集成法緣佛肩: 4麟卵赛具纖興像生ft中餘麵研露雜 35 5 2: 期本节将从:霞朦方法和魏鹿方法两个實商:来对基于GAS做菌像生成的方法做一个1C总, 并且最后对图像生成方法进行一个小结.3.1直接法如画ICa) 所示, 在: 这神■像 成方法中,, 对抗M络只有一个生成器和一个鉴别器, 生成器直接学习 个逼近真实数据分布的分布, 从学习到的分布中采样来生成样本. . 其中dcgan[3 S]是最为典型的一个模型,其结构己經被很多模型作为一个基准, 例如?lnf0-GAN[ 56 ],TTe3rt-t0-im'ag:e[ 7。]、ICGAN[ 7 1 ]等模型;DCGAN中生成器和鉴别器的模块结构如图6 所示,產成器的网络模块使用转置卷积批gEviJ化-ReLU激活函数? 而鉴别器的网络模块使用卷积-批量正姻化-LeakyReLU激活函致层? 这种方法设计#1赛现起来通. 常比辍寬隱(a) 直撒(b) 触法m§ 圈傷生成#餐直禱法和筆織■.輝ReLU激活函数 卷积批量正则化 批量正则化转置卷积 Leak-ReLU生成器 判别器图6 搭讀:DCGAl,]的网舉樓块3. 2 集成法如ag(b)所示, 集成方法与直接进行图|生成的方法不同, 集成方法模型的结构有以下几种形式:多个生成器.一个鉴別器、一个生成器多个鉴别器、多个生成器和多个盤别器. 集成方法的思想是去把视觉任务分成几个部分1然后每一个GAW去g成视觉任务的一部分, 比如: 可以用两个GAN去分别学习'图像的内容和属性、前輦和曹; 或者用多个GAN粗到细、由小到大地去生成图像, 而生成器之间的关系可以是迭代的, 也可以是M次递进的?SS-GAI#2 ]用了两个GA興来进行图像的生成,一个是'结构GAN, 用来根据随机向量Z生成表面法线贴图; 另一个是类型GAN,以表面法线贴西和随机噪声Z为输人来生成瓜图像? 该方:法首先生成图像的结构, 然舜基于虜像错构再生成犯图偉》结构GAW的实现方式采用和DCGAN—样的卷积模块, 而类型GAN在实现方式上稍敵有点不同. 类型GAN的生成器先、让其输人量Z和表面袪线贴图先分别痉过转瓮卷积层和卷积层的处理* 最后将两个M络的输出合为一个向量, 而合成后的向量作为类■親GAK生成器的输人. 类聲GAN的鉴别器以图像和图像表面法錢向量在通道屠面进行连接后的量作为输入. 在理想的情况下, 生成器生成的图像和真实图像应该有相同的表面法线贴图r基于这一想法,SfGAN用一个全卷积神羟网络来将生成图輟再转变成表.两法钱贴图, 并且銮f此表?法巍贴图构造一个重构损失作为拫失函数的一今疋则化项, 从而约東生成器学到的分布询真实数据的分布靠近.LRGAfip]的实现方法是使用不同的生成器去*成图像的前憙内容和背景内窖. 而使用一个鉴别器来对虜像进行判定^该模型通过实验证明了分别生成前景和曹景内容,然后合成清晰的围像是实. 现图像生成的一种#法, 综上可知?SS-GA.N模型和LR-GAN: 模型都是集成了两个生成器. 通过g级錯构的方式乘实翁歷像龜成;LAPGAN[6 7]是用多个生成器由祖到细地来生成图像, 底层的生威器以服从某一分布的随机向量作为输人, 并且输出?围像; 其他的生成器都执行以’下同样的功能s 用前边%成器输岀的图像和一-个随机噪声向量作为输人,输出&成面像的细节.该细节曹以鑛_如:斑生咸厲像中, 使得生成圓傳霉加的着晰;除了. 底鳥生成器外f其他生成器唯一的不同之处是输人和输出维数的大小不一#.SGA#W中集成了多种生成器, 底层的生成器以随机噪声询量为输人.输出低爱次特征向量I 而'中间层的生成器以低层次特征向量为输人, 输出霄层次特征向量i 猶层的生成器以高层次特征向量为输入,输出生成_像. 并且SGAN在目标函数中加人了条件损央项和熵摄失项★ 条件损失项可以帮助生成器有效地使甩来自上一顏的条件信息, 熵损: 失项可以最大化生成器输出的条件熵的_分下界s 这些绮東项的加人可以徂If地帮助生成器去生成图像.Stack-〇4#6 1]有两个生成器,. 第一个生成器以随机矂声歧羹Z和类标遂.C组成的向量作为输人, 输出是可K着出物体轮廓和模糊细节的模糊图像, 而第二个生成器以第一个3131 6 计導机攀报: _1苹成器生成的图像和随机噪声向量以及类标签作为输人, 然诗生成一个逼真的图像. 綜上可知, LAPGAN、SCJAN和Stack GAM都是集成了多个生成器, 以迭代的方式来实现图像的生成.与直揍法相比, 基于_成法来做图翁生成, 可以有效改善模式崩溃的问题, 可以实现多个域之间的转换r同时还可以实现特征分离; 但是基于集成法的模型训练起来会比较_难.3. 3图像生成方法小结禱于GAK的图像生成主襄考虑两个方面, 分别墓生成图像的质量和多#性. 用标准GAN生成的图像, 在质量和多样性方面存在着很多不足, 所以针对这西个问題, 稂多方法基于GAB做出J改进:(1) 通过替代目标函数来改善生成_镩的质覺s 例如r用EMD的钜离度暈方式来替代JSD或者是用均方损失函数替代对数损失涵数.( 2) 通过增加梯度惩罚项来改春生成图像的质?養, 该技巧不仗能缓*梯度消失或者是梯度惩罚的问题, 而且可以极大地增强GAN的稳定性, 尽可能地减少模式崩溃问: 癍. 类似的技巧还有谱归一化, 该技巧比梯慶惩窃吏加高效.(3) 通过辅助信惪来帮助改_生成图像的质?量, 例如类标签信息. 等,通过搭建處变量和观测数据之间的联系来改善生成图像的质量,比如: 苴倩息等,<在模型构建的时候, 使用批量正则化的技巧, 该技巧可以解决初始化差的问题, 可以彼坏原来的分布, 在一定的獲度上可以缓解过拟合.C6) ,通过集成的方式来改善模式崩溃的何题, 由于乘甩了多个生成器和判别器. 它们之间有很多信息可以共享从而W以提高生成器轚体的学;9能力.4 基于随机向量生成图像读方法的基本息想是用一个多层神逄网络来实_一个非线性映射, 诙映射的功能是翁一个服从某一分布的随机[%1映射为采样于服从某一分布的图像. 基于这样的思想; 本小节将从基于互信息的图像生成, 基于注窵力机制的图像生成, 以及基于单幅图像傲腹儀生成三个: 方朦乘If. 这一图俸生成的賞法迸行介绍.( 1)基于互信息的B像生成在标准的对杭网络中, 生成器的输人一般都是一段连续的单一的随机噪声向量: 这样的情况下输入向量通常会被生成器进行过度地耦合处理, 导致无法逋过控制输人向量的某些维度来控制生成数据的语义特征? 针对这一问题Jnfo-OAN通过加人互倉息: 正则化约束项来实现输入某些雄度的?可解释性*其樣型结构如图7 所示; 该方法人为地将输人向量限制为随机噪声_量和隐向量两个部分,这些_向量服从于某一先.验的连续的或者离散盼概率分布, 用以表示生成数据的不同特征维度^真实图像 生成图像生成器G隐賴C^)[ 随机噪声向歡图7Inf0-G八N的结构示意图互信息是一种用来度量一个随机变蠶中包含的关于另一个随机变量的信息量, 而读圈像生成方法Efe基于此度董方式来确定输出关于输人的倚息.營A而实现对输人向營弟些维度的可麵释性. 假设隐向量■为 而生戚器的输出为G W), 其中Z代_餘是输人尚量. 因此输人和输出的互信息: 可供義示为如下形式ICC; G(Z> C))=H(C)H(C| G(Z, C))(24)式(24)中的J表示苴信息, H表示计算熵 基于互信息的琯像生成方法的目标函数由对抗损失函数和2狺息约束项两个部分组成,可以写Jt是如下.形式:minm&xVAD^n)=Vm,D)-XKCf UCZ, 0)(ZS)GD该模谨的鉴别器t两个功能:一是辦别图儒是杏来自于真实数据分布*另一个是a图像中预溅一个维食与输人_向璧:相同的向 在基于互_息正则项的约束下,该方法?可以将隐向量中毎一维度代表: 的特怔養息学■出来因此读模塑对以很好地解释输入向量中的隐变量但是这种方法的可解释性仅仅局限在输人_最中人为添加的_变量的那一小块, 如果想对输入向量申所有维度代表的实际含义做出解释, 这一方法就不适用了.(2> 基于^意力机制的图像&成注纛力机制与人类对外箅善物的观察机制很类陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 35 72 期似, 当人类观察外界事物的时候,一般不会把事物当成一个整体去看, 往往倾向于根据需要选择性地去获取被观察事物的某些重要部分. 比如我们看到一个人的时候, 往往是先注意到这个人的脸, 然后再把不同区域的信息组合起来, 形成一个对被观察事物的整体印象. 因此注意力机制可以帮助模型对输人向量的每一个部分赋予不同的权值, 抽取出更加关键以及重要的信息, 使模型做出更加准确的判断, 同时不会对模型的计算和存储带来更大的开销.在传统的GAN中, 使用小的卷积核, 导致难以发现图像中的依赖关系, 使用大的卷积核, 就会导致丧失了计算的效率, 而注意力机制可以快速提取数据的重要特征, 因此在Self Attenti onGAN[ 6°]中引人了自注意力机制; 该机制的抽象数学模型如下, 假定特征向量是X, 首先该模型通过1 X1 的卷积分别对特征向量叉做处理, 从而得到/(:r) , g(:r) ,/i(:r)如果我们用 来表示网络的参数, 则/&) ,,/i(:r) 可以被表亦成式(26) :fix)—WfX^ gix)—Wgxy h(x)—Whx(26)通过式( 27) 来获得注意力权值:二 =fix. yg( xj)(27)expO")i i基于注意力权值, 进一步通过式(28) 可以得到注意力特征映射:N〇j=(xt )( 28)i i最后将式(28) 融合到特征向量X中就得到带注思力机制的特征映射: M+ 6?注意力机制可以将内部经验和外部感觉对齐,从而来增加对部分区域的观察精细度. 而自注意力机制是注意力机制的改进, 其减少了对外部信息的依赖, 更擅长捕捉数据或特征的内部相关性. 并且基于自注意力机制的对抗网络允许图像生成任务中使用注意力驱动的、 长距依赖模型, 并且自注意力机制是对正常卷积操作的一个补充, 全局信息也会被更好地利用去生成质量更好的图像.为了更好地探索基于对抗网络生成的图片究竟可以精细到什么样的程度, 基于Self Attenti onGAN改进的BigGAN被提出. 该模型通过以下措施来提高模型生成图像的质量和多样性:(1) 增大Batch.—个大的Batch可以让每个批次覆盖更多的内容, 从而为生成器和鉴别器两个网络提供更好的梯度.因此简单地增加Batch, 就可以实现性能上较好的提升, 同时还可以在更短的时间内训练出更好的模型.(2) 增大模型容量. 在合适的范围内通过增加每层网络的通道数来提高模型的容量.( 3) 共享嵌人. 将噪声向量Z等分成多块, 然后将其和条件标签C连接后一起送人到生成网络的各个BatchNorm层.(4) 分层潜在空间. 与传统模型直接将噪声向量Z嵌人生成网络初始层不同的是, BigGAN将噪声向量Z输人模型的多个层, 而不仅仅是初始层.( 5) 截断技巧. 在对先验分布Z采样的过程中,通过设置阈值的方式来截断Z的采样, 其中超出范围的值会被重新采样以落人要求的范围内, 该方法允许对样本多样性和保真度进行精细控制.( 6) 正交正则化. 该方法的目的是让生成网络的权重矩阵尽可能是一个正交矩阵, 这样最大的好处就是权重系数彼此之间的干扰会非常得低.在该模型设计过程中, 增加Batch 的大小会导致训练不稳定, 因此在模型中采用谱正则化的技巧来改善训练模型时候的稳定性, 从而抵消增加Batch 对训练稳定性的影响. 最终这项工作表明通过上述技巧可以很好地改善生成网络的性能, 但是该图像生成方法对计算力的要求很高.(3) 基于单幅图像做图像生成单幅图像中通常具有足够内部统计信息, 可以使得网络学习到一个强大的生成模型. 基于这样的思想, SmGAN[ 7 2 ]提出从单幅自然图像中去学习一个非条件生成模型, 该模型可以以任意尺寸生成各种高质量的图像, 同时也能够处理包含复杂结构和纹理的普通自然图像. 如图8 所示, 与常规GAN不同的是, 该模型使用的训练样本是单幅图像不同尺度下采样的图像, 而不是数据集中的整个图像样本.该模型选择处理更一般的自然图像, 使得模型具有生成纹理以外的其他功能. 为了更好地捕捉图像中目标的几何形状、位置信息、 以及细节信息和纹理信息等图像属性, SmGAN[7 2]采用了层级结构的对抗网络, 由 N对生成器{ GN,…, G。} 和鉴别器,…, D。 } 组成, 如图8 所示. 其中, 每个生成器负责生成不同尺度的图像, 而相应的每个鉴别器负责捕捉图像不同尺度的分布. 从最粗到最细顺序的训练该模型的多尺度结构, 当每个GAN被训练好以后, 其参数就会被固定. 同时, 模型中第N个GAN的损失函数由对抗损失Ladv和重建损失 两个部分组成, 如式(29) 所示.31 8 计導机攀报: _1苹mi nmaxLaSvtCGn §L式(33》中的a愚趨参截, 乂yj 翁 , 抑: P5* ;V4抗损失采用WGAM-GP损失,重崖损失是: 为了确保使模型存在可以生成原始菌像怎的特定噪声時谱集令, 如式(30>所示.Lr, G, C〇:? PT+i)t) ( 20)式(3Q)中 表示上个尺度生成图像上采祥后的结果A指的綦尺度iV 下的真龛虜像? 这项工作不仅仅具有生成纹理的能力, 而且还具有为复杂自然'图像生成各种遥禽#本的能力. _此. 其为多种图像处埋任务提供了: 真強太的工具, 但棊该方法在语义多#性方面存在固有的限制.5 基于图像转换生成图像在这一节* 图像到图像的转换将被从有监督和束的厨像转换、基于辅助分类器的?镩转换、基于特征分离的图像转换、'图像多域之向的转换.5. 1 基于有监督方式的图像转换Pi x2pi x可以将一种类型的图像转换到另一种类型, 例如: 黑夜转成白天、 猶素描图转成猶的真实?片等, 如图9 所示. 用于构建诙隹型‘生成器的樂构是编码器-解码器网■络结构的一种—U-Ne#3 ]网络, 并且在网络中允许编码器到对称解码器之间的跳跃连接,.基于这样的操作可'以共享一些低层的信息>由于数据采用成对的fl像, Pix2Pi x的目标画数被读计成两个部分:一个是对抗损失函数r第二个晕A正则化项即生成商像与Groundtruth翁差的儀;由于心正则化使得生成的图像比较模糊,因此采用的是AB则化项* 该模型的目*涵数如式U1.) 所示:语义分割图转换到街景图 语义分割图转换到建筑正视图黑白图转换到彩色图104111MillM卫星遥感图转换到平面图日景图转换到夜景图图9 图像到图像转换示意图[1 3 :轮廓图转换成实物照片Gtarge t=argmi nmaxlEx,y[_logD(x,y)^\+GDUll 〇sI>C3£* &(句轉:)] +AliaCG)]t31)L代表簡是厶息则化项^其实现方式如式炫幻*:(G)=E,.3, . =[Ujy—G(x#)](32.)_式众2) 中_v代纖露实图像V代泰養:标藥; ?_彩色图像: G表示生成器;D表示鉴别器. 该模^4 htU1!L样_^N-.t 0 ^N-l1j ̄[1 mn纊一fA图8Sin-GAN模型的多尺度网络架构Tn?Dn)+〇Lr ec (Gw)( 29) 无监督两个方面来进行介绍, 而无监督方面, 将从以下四个方面来进行讨论, 分别是: 基于自重构损失约DN,;a .zot:藝螈写S■鹚緣佛肩: 4麟卵赛具纖興像生ft中餘麵研露雜 35 9 2: 期藝在训练过程中鉴别器的输人不是整幅图像, 而是将整幅图像分割后的很多小块用小块图像训练该模型, 可以让模型根好地去捕捉局部细节或者是商频信息, 同时正则化可以让摟複更好地学到低频信息.? 虽然这种方法可以生成高廣鸶的图?像, 但甚唯一的缺点就是必须使用成对的图像.Pi x2pi xHD誠在Pix2pi?c 獏觀的藝础之上, 基于实例分割fi像,使用多尺度的生成器以及鉴别器來生成高分辨率的菌像. 该模M的生成器由 G和G两个部分组成s,其中仏是一个端到端的U」Net网络结构 被分割成两个部分. 应的一部分甩于提取特征, 并且将该特征和Gi 输出B的前一S特征进行相加融貪. 最后将融'費后的特征作为&另一部分的输人来生成高分辨率的M輟, 而该模型的鉴别器暴一个多尺度鉴别器, 判别的三个尺度分别梟: 原图V原圈"的1/2降采样、原悤的1/4 降采祥; #且对最il的判别结果取平均作为.最终的结果. 多尽度判别的主要目的是让模塑更好地保持内容一敖性, 而细节性的东西则由网铬自己去学* 该模型的损失函数除了对抗损失國数以外, 还加人了由待征提取器对產威祥本和真实样本椹取特征后构建_特征西靡:损失. 同时该模型生成图像多样性的方法不匣于Pi xZpi x模灌1其在模型的输人端加人类标.签信息,通过学习隐变童的方式来这到控制?像颜色、 致理风格倩息的旨的, 从而来增加生成样本的多样性.PLDT[ 5 3 ]遛过在对抗钶络的基础上增加一个用来判断来@不枏_: 域的图像对是否相关的盤别器来实现有监督的图像到图像转换, 该? 鉴别器能够约束獲塑去保■ 爵象成?像翁Orcsmd-truth題像之间的一致性邊模型的生成器来用基乎卷积的编码-解码结构网络来实现, 而鉴别器都是采用全卷积网络来实现. 利用该模讓来做图像到图像的转换, 在保持不相词域中柑翁图像纹難一致牲的同时', 也可:以修放題像中物体的形状.基于有监膂的方式做图像生成. 就是要将模型的输人和输出联系起来.. 而逢于这种联系就可以构逄一.个相歲的约束项,在进行网络参数更新的时候,就可以约束M络拟合的分布向着真实数据的分布逼'近; 同时, 以有监督方式應戚的图像的质量一般都比截好.5. 2 基于无监督方式的图像转换在无监督学习方法中有很多技巧被處用到了图像到图像转换的视觉任务中, 例如: 自重构损失、 辅助分类器、距离约東、 以及多域之间的图像转换等等; 速一小节将对这. 些方法进行深人地讨论.(1) 基宁_童构掼失约束的图像转换g童构损宍也被称为是自我一致性约束.,目的是鋒过一个游环变换以后让输出和输人保持一發性?如图1,0 所示,:在: Gfde GA:N[ 1 4]中會2 个愚戚器, 分础是仏3, 、G3,_T 和2 个鉴荆器k分.劍是D_T 、 巧;其中 生成器的目的是将源域X中的图像转换到目标域 而G*执行相反的变换; 而鉴别器£^和D,预测输人的图像是否薦于相应的域.雷:1〇德环A成对抗网聲?3]对于GIV 和D, 组成的对抗网络的损失函数如式(33) 所示:Cgan CGxy—-^y ̄Ijjj.jjijjH-属t=-#da ta( vi[log[1i?yflspCs:1?.)]](33)而由61?和1^銀成的对抗网络的损失函数可以表亦戚式 ::CsMii&tXs Dx')=C**2'DxC&xCy) ) )]&4)同时, 在 模型中ft熏构损失是通过最小化霊构邁差来矣现的! 具体指将一_图儳叉转换到另一个域乃再将#到的结果从Y域民向转换到叉域后得到文, 而用X和文做差的r.模构建重构误差, 上述过歷如卞: 拓'&:)(C?j*―):)免息霞重:构误差的实现方式如式(35)所示:A?c^GiyjGVII=E:xr - 1'—Chx(Gxy(J-'i1J i]+En[b (_V>3ua5)最终将上述三种损失函数组合起来可以得到Cyde GAN的损失S数, 如式(360所示:jCCi ^yy Gjtc' Dx f D^)—jCgan(Gxi-<I)y):  ̄b£?篇&?s* +A(36)在式CSS?中,A, 綦一个超参数》其大小可以决定在训练过程中起到的作用的大小. 模型最终的目标是优化式(37h麵*, t^=argmi nmax£(G攀復《, !>*, £0(甚7)Gxy, GyxDY, DXDmdGAW651也采用了g重构掼失约東项其模型架构采用了和Cycle-GAN—样的结构, 伹是其目标涵数用的是.式(3幻所示的最小二乘损失涵数, 隹训练过程中最小二乘损失函数在稽定训练和擁决梯36 0 计導机攀报: _1苹度消失问题上有一定的优势.^-t-SRSEiXGt.f ^ Dy)—^y ̄fd ata,3〇1)-]+艮、#d‘,[DY(GA-Y( x))2](58)DmJ-GAN在训:綵吏Jlf鉴别器参数的时候不仅仅用爾前生成播生成的酉像, 而且还会用到以前生成器生成的图像, 有点类似fUnrol l edGAN[ 4S3的训练桊略, 这种技巧在一定的賴虞上可以缓解模式崩_的问龜.虽熬甚于自重构規失的无监 的廚像转换樓型可場生處富质量的图像, 値:ft柑樣宁Pi x2|Ji x辱有监督的图像转换模型含成的图像还是有点模糊管逋过实验.证明了基于本成对的图像和自重构损失可以生成质量比较好的樹像, 但是在实际中该方法并不是适用于所有的情况. 野菌像转换中芽在几何转换的时候, 该方法的效果会变的较 数摒集中的图像是不成对的或.者是不同凤格的情况下_自熏构损失约東的技巧基一个比较好的选#.(2) 碁于辅助分类器的围像转换儀:#錄是通过在猶N模質结构前隐養:间中增加: 更多的网络銷■构, 并且在: 目标爾数中增加相应的约束项来提高生成图像的廣量和增加生成面像的多样性. 在ACGAN[ 1 7],, 如图11(a), 鉴别器不仅仅判别输人图像是来鳥于生成数据的分布述是来自于真实数据分布. 而且还. 会对输人團像的类别做一个预1则? 鉴财雜会给出域概率分布和类标签概卓分布,[P(S| X), P(CI X) ]=D( X); 而该模型的_标函数篆」I L;..翻器D类标SC随机噪巧&] 量Z(a)ACGAN?的网络结构真]真]同 [g1签别r鉴廳aft生成图如蜂g实图像X-生成惠G机噪声向量Z(b)D2GAN?的网络结构图1 1 辅助分養:讀抗两讀有两个鄧分:一部分是域损失函数LS h另一部分是类謂失函数Lc, 如式(S9)和W0)所示sL¥=E[l agP(S=real| +E[l agP(S=fakeI XrieQ(S#)Lc=E[l ogP(C=cUU]+E[l ogP(C=cI X^)]t4〇 )1标函数中的A:丨 和XIs1?分别表示真实数据祥本和生成数据、样本., 而C■ 表示样本的类别标签; 在该模M中, D的目标 最太化込+LC, 而〇的目标是最大化 基于这样的策略, 该樓型不仅仅可以提高生成图像的质量, 而且还能够稳定GAN,的训霖.DfGAN[1 6], 如ft11(b), 与标_GAM本減的暴, D2GAIf1 6]墓宁集成 来构建樓當的架构, 霞模型有两个鉴别器, 这两个鉴别器仍然是与一个生成器进行极小极大的博弈, 其中一今鉴别器-会绐符合?分布数据祥本畜的概率值,而另一个则祖反4亥模型.的生成器要同时欺骗两个鉴别器? 理论分析表明, 优化D2GAN的生成雜可以让原始数摒分布和生成数据分布之间的KL散度和反KL散度同时最小化,从而有效地避免模式崩溃的问题>该模型的目标函数如式(41)所示:mi nmax. Da)=a+GD-y> 〇2[ log!?!CO(kS+Ef^46 M[—+|JXE£-#u. [l Qg-Di( G(?))]til)镓目标函数中的公&>和IHGk))表示鉴别器萁输人:分瓶为真 和坐成样本下的输出; 中超参数《,/? 的取值.笵围是((M], 超参数的目的有两个, 第一个是稳定GAN的训练.,ft于两个鉴别器的输出都是正的. 认(GC?): )和 可能会变箱比l〇:gI7i fe3 和l 〇:gA:(G(球')大; ;《_:终可能_晌攀霉的稳定性. 为了克服这个间题/可以降低a,/? 的值. 第二个貝的就是控制KL散度和gKL散度对优化的影垧. 与标准GAN—样, 通过交替对抗训练来对D2GAN进行训藤综上可知, 基于辅助分类器的方法来做■像4成是通迓增加阿络结构的功能或者是集成更多的鉴别器等方法来实现的? 虽然基于此方法可以生成高质邐的图像, 但是带标签的数据在实际中是很难获.取到的, 同时此方法可以有效地避免模式崩溃的丨句题,《3>碁于特征分离的图像转换在无监督学习中, 因为缺乏对齐的、成对的训练緣佛肩: 4麟卵赛具纖興像生ft中餘麵研露雜 K1 2: 期图像* 所以研究者们就提出通过特征分离的技巧来实现两个域之间的图像转换, 特征分离的基本思想是在隐空间中将圏像的内容和属性分另学习, 然后将图像的属性■和内容任意钽合来生成带有期望:属性■的■像.DRIT[ 7?構型提出基于分离辆(' Dismit紐gkdRepresentati on)的方濃豪做图像转换, 如麗12 所示. 诙方法将图像嵌人到两个空间:一个是域不变的内#空间,另一个是特定域的属性空间▲ 该模型逋过编码器从给窣的输入图輟中瘥取內容特征和薦性特征. 如图12所示该模型的输人来自两个不相同域的不同图像 该模型首先通过编妈器来分别提取两幅图像的内容特征4=钇, 属性特征拉旧=玛; ■后交换两幅图像的屬性编码, 将(疋,坞)和(埤, 拉} 作为生成器&, G,, 的输人, 假定生成器的输出分别为 , 基于这些生成的图像, 再次用编码器提取内容特怔4=£;:K和属性特征<:二=K, 然后像前边一样衮换两幅图像的屬性待征, 将得到的总的特征向:*作为生成器 G,的输人,生成器的输出暴X'; 最煞的期隻是输出的图像和该模型输人的图像是一致的, 即X=X%Y=f; 由于 型中会将一个域中薦像的内容表示和另一个域中樹像的属性拿示组合起来, 诱模遒基于此提出了一个?循坏一致性约束, 为了执行此约處, 将:#実现为式(4i)s:图II: 特征分灘:读窻: 图[7?4ic(G*?E%.Ecy.Ei, Ep=E..3,[ G^ElSv), £:(??-Ah+GjE;( u)-yK]( 42)?=O,(EJCz^).g:fej# G4MCu), Eitv) )生成器不仅仅可以实现不同域图像时属性交换, 而且还能暴于一幅图像的内容特征和属性特怔熏构出廣始的图像, 这一约朿可.以通过式(4幻来实现:£r=Es.3,[ aiEifx), E:ix} )XI L+(EpCaO, 抝0>)—F]k](43)由于不IS域中图片的内睿倩息不包含特征信息, 所以应谏是不可区分的; 在这祥的前提下, 两个内容编码器的最后一层网絡的参数處该共享. 保证内容分布一致.同时两生成器第一层网络参数也要共享, 并且还得让内容鉴别器!>'辨别不出两个内容特征是遽于哪一类. 这一目标通过在目标函数中加人如式(W)所示的损失项实现?E,Tyl 〇gDe{El(x)')+yl ogCl-De{E| fe))) 1+EjylogD^£;(;y3 )+yl ogClDC( E:(^1)'<4:i)为了在测试的时候迸行随机采样, 可以通过在目标画数中加人一个KL散度约束项来让属性表示向量逼近一个先验高斯分布; 该约東项的实现方式如式(4S.)所CBt=E Ipm[JTW,1))](?3为了实现图像和隐. 变量空间的可逆映射, 该模型通过在目标函数中加人隐变量回归损失 约東项来实现. 如果从某一个高斯先验分布中随机采样一个隐向量z 作为属性特征向量.必须能够用'式(祕)寒现重麴它.z’=E(G5CE|Ca*),zV)jV=勾 £珥(: W?z))(46)与标准GAN—样, 诱模型坯有一个用丰判断生成图像是来S宁哪个域的域对抗损失项ilfT"; 所以该模型的损失函数由内容对抗损失、交叉循环损失、A班则化项、域对魏损失、一■个对噪声的约東項和隐变釐回归摘'夹组成, ,其形式如式(47) 所示:£=mi nmax[arrenl£:f?l+lf£f+afi:f+G, ^D, DC)domain/* domainI )l ate nt l ate nt| )r ̄I(Aadv>〇adv\ AiL,i ̄TAklLkL」^其中A是遛参数用乘控制每一项的重要性. 虽然賓以通过这种方法来实现图像域的转换? 但: 是当_像之间的域有很大的塞别的时候.4亥方法实现的效果不是很好,_时由于训练数据量的限制;导致属性空间不能被完全?覆盖. 同时该模型的目标通数比较复杂, 不好训练; 当图像域之间的差别不是很太的时36 2 计導机攀报: _1苹候; 基于此方法来做圈像转换是一个不错的选择.(4) 多域图像之间的转换之前讨论的擦型^大多都是在: 两个域之间进行转换圈像. 如果想要在多个域之甸相瓦转换? 就必须在每两个域之间单独训练一个对抗网络, 然旅这样做的敏率很低, 而且每次训绛特别的耗时?为了解决这一问题, Star-GAN[ 4H使用一个.生成器来实现域之间的相3转換. 考标准每AN不同的jfe用图像和目标域的类标签作为输人, 将输人图像转换到*类标签指明的域词时允许该模霍在具有不相同域的多个数据集上进行训练, 为了预测生成圈"像所在的域? 类似于ACGAMffl、 DAAC[7 6], 该模塑的鉴别器增加了辅助分类摇, 用來顸测输入图像的域, 也就是说, 鉴别器不仅仅粟判断输人_像是生成图像还是;寫实图像. 而且还得输出域标签的概率分窜sD:HH* Dds(jt)1■? 焉了_樣產遞的菌偉不同于真实的图像, 该模型采用如式( 48) 所示的对撤损負袁CMy=E_t[l og13^(x) ][l og(l UsW(G(jrse)) ]働其中G〇r, 岭表示生成器基于输人图像¥和目标域标聲f 生成的图像.同时为了将输人图像转换后的围像分类到陳.标域c 中. 该模型在目标函数中增加了一个域分类损失项; 并且将读损失分'为了真賓图像的域分类损失 利生成图像的域分类损失这两个损失函数分别被定义为E,. / [l og^I ?)](49)C(k=E?. c [l ogDc l s C);I( 50)其中DPl,cyui表示鉴. 别器输出的域标签的概卓分布. 通过最小化£1,氅别器学着去糌真实菌像分类到相应的?始域Y!生成器去最小化£i, 使傳生成的图像被分类到貝标域、 c训_獻不是成对的图像, 因此模型使用糖环一致性损失 来保证生成題像和输入菌像:内容上的一致性.模型复杂度—E*.,. /[| | M—G(S(jr,c')i]:(: S1 )最终优化生成器和鉴别器的目标函数可以被写成如式(S2:)和(6B).*Cp=^1*C%(52)^0I ^g Is> ^啦I A獅(53)其中, At.l s 和‘梟'控制域分类.损失和■重'构损失重要性的超参数; 该模型在人脸属性转换中取得了很好的敏乗‘采用多域面像转换的模型, 可以解决用一对一图像转换模型训练低效和训'练效果有限的问题r甩来做多域图像转换的模型, 可以利用其他领. 域的数据来增强模型的泛化能力. 从雨可以生成威惫吏高的图像, 同: 时其扩麗性也比较好.6 生成图像质量和多样性的评估方法在目前的研究中. 对生成圈像的质量进行合理地评估主要是从定性评估和定量评估两个方面进行. 定性的评估一般在众包平台靠人完成; 而定霪的评估方St有In?ptie.nS*6: fe、 FrfehetInceptioii: DismnaivMo:deSe〇re_;|f漢. 定性翁评祜方:式翁在这―节首先被讨论.6. 1 定性评估该方法主要还是掌人的眼晴来进行判断.一般的做法是将.寘实■像和生成图像对上传到众包乎台上让人来判断图像的真假, 并且靖出甫者的相似鞋度, 最后根据打分的结果统计一个最终的措标*在实践中由于人的主观性是很强的,每个人的标准是不一致的, 导致定性评估不是一个通用的标准; 视觉检查在评估一个樓型对数据的拟合?度时,在低维度数据的情况下可以工作#很好^但是在高维度数磨的情况下, 这种直觉性可能会导致谋导? 如菌'13鮮班, 農标r隹CAN爾巔近BIfiOAN稿處擧构的变化, 以及生成圏像的结果乘着, 圈像生成模型质量和多样性浅深标准GAN▼全卷积神经网络金字塔式的神经网络结构转置卷积神经网络SAGANBIGGAN鉴别器采用自编码结构渐进式神经网络结构自注意力卷积神经网络生成器釆用正交正则化更深的网络, 更大Batch20142019低图13 生成图像质量和多样性, 以及模型复杂度的变化流图[ 77 ]陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 36 32 期的复杂度和计算量在不断地增加; 同时, 生成图像的逼真度越来越好, 多样性也越来越好.6. 2 定量评估(1)Incepti onscoreIncepti onscore[7 8](IS) 是一种用类概率分布来对生成图像进行评估的方法. 诙方法使用一个预先在ImageNet 数据集上训练的Incepti onV3 网络, 然后以生成的图像:r 作为输人, 并且输出 如果一幅生成图像的质量越好, 那条件概率分布Myk)的熵就越低, 也就意味着分类器以很高的置信度将图像分到某一类. 生成器生成的图像应诙具有多样性, 因此边缘分布>(>〇l ¥=G(2; ) ) d2; 应诙有很高的熵; 基于这样的条件,IS可以通过式(54) 来计算:IS二exp(£^?g⑴DKL(.p(. yI a:) p(. y) )( 54)式( 54) 中的E表示计算期望值, Dn表示计算两分布之间的KL散度; Luci c 等人?指出Incepti ons cor e对类标签的先验分布和距离的度量方式都是不敏感的; 由于生成模型只需在每一个类中生成一个质量很好的图像就可以得到高的IS值, 因此该方法也面临无法判别模式崩溃的问题. 并且IS可以展现出生成图像的质量和多样性之间的合理关联, 所以该评估指标在实践应用中被广泛采用.如表4所示, 基于ImageNET数据集和CIFAR10数据集, 用定量评估指标Incepti onScore 对多个模型生成的图像的质量和多样性进行了定量计算.可以发现BigGAN模型是当前性能最好的模型, 但是通过比较也发现, 该评估指标并不适合评估与ImageNET数据集差别较大的图像数据.表4 定量指标Inceptionscore下图像生成模型的实验结果数据集I mageNET128 X128CIFAR10模型ACGANProject ionDiscriminat orSAGANS3GANBigGANBigGANDEEPACGANBEGANAuto GANBigGANDCGANPGGANSGANI mprovedGANIncept ionScore( IS)总的来讲,Incepti onScore 是用来衡量生成模型个体特征和整体特征的方法. 个体特征指生成的图像要清晰, 质量要好. 整体特征指生成的图像要有多样性, 即使他们属于同一类别, 他们的输出的向量还是应该有差别.(2)FrechetIncepti onDi stanceFrfechetIncepti onDistance[ 8 ( ) ]( FID) 的基本思想是用Incepti on 网络的卷积特征层作为一个特征函数p并且用特征函数将真实数据分布尺和生成数据分布&建模为两个多元高斯随机变量. 这样就可以计算多元高斯分布的均值&,&和方差基于这些信息, 生成图像的质量可以通过式(55: ^由两个高斯分布之间的Fr6chet 距离来计算.FID(X, G)=^ ^ \+TrQ]+S2( 2S)1)(55)FID度量方式的思想和人类判^是一致的, 该评价指标值越小, 表示生成的图像越接近真实图像, 生成的图片质量越好. FID和生成图像的质量之间有很强的负相关性; 该度量方式的优势在于其对噪声不是很敏感, 而且可以检测出类内的模式崩溃的问题. 如表5 所示, 基于ImageNE了数据集和CIFAR10数据集, 对一些图像生成模型在FID下的性能进行了汇总. 通过分析和比较, 可以发现BigGANDEEP模型在生成图像的质量和多样性方面都是最好的.表5 定量指标FID下图像生成模型的实验结果数据集SIFIDCIFAR 10ImageNET128 X128WGANGPWGANGP + TTURRSGANGPSNGANSDISTGANAuto GANProjectionDiscriminat orSAGANS3GANBigGANBigGANDEEP( 3)ModeScoreModeScore[ 8 1 ]可以看成是Incepti onscore的一个改进版本, 其被定义为如下形式:MS( Pg)二eE文??[ KL(fiM(yy) ]gg(56)其中知(, U) dPr 是真实数据分布中样本的边缘标签分布; 与IS 不同的是, ModeScore 可以通过KL(^M(_y) bM(_y〇) 测量真实数据分布^和生成数据分布 之间的非相似性. 由于该模型是基于IS的一种评估指标, 因此其沿袭了IS的固有缺陷,一些简单的扰动就有可能导致彻底地欺骗该3 64 计 算机 学 报 2021年评估指标, 从到导致该评估该方法也无法判别模式崩溃的问题.(4) 1 最近邻双样本检验在双样本检验中,1 最近邻分类器被使用去评估两个分布是否完全相同; 给定两个样本集, 分别是真实数据样本集民?P:! 和生成数据样本集S,?,并且将样本集民全部标注为正样本, 而样本集S, 全部被标注为负样本. 基于正负样本集, 可以训练一个1 最近邻分类器, 并且可以计算1 最近邻分类器的留l( LOO) 准确率. 此准确率是一个统计量,当样本的数量足够大的时候, 并且两个数据集的分布是一致的时候, 该留1 准确率的值应该是〇.5; 当生成器学到的数据分布圮过拟合真实数据分布P. 时, 留1 准确率的值应该小于〇.5; 反之则该值大于0.5.该评估方法在理论上存在一个极端的情况, 如果生成器仅仅是简单地记住真实数据集民中的每一个样本, 并且可以精确地重新生成每一个样本的时候, 导致民中的每一个样本在、中都有一个距离为〇 的最近邻, 所以LOO准确率将变为0; 原则上分类器可以采用任意的二分类器, 但是该方法只考虑1 NN分类器, 因为该分类器不需要特殊的训练,并且只有很少需要调整的超参数.模式崩溃问题出现时, 真实图像和生成图像的主要最近邻都是生成的图像; 由于真实数据分布的模式通常都可以被生成器捕捉, 就会导致民中大多数真实样本的周围都是生成的样本, 这就会导致较低的LOO准确率. 而生成样本倾向于聚集到少量的模式中心, 而这些模式一般都是相同类别的生成样本包围, 因此会导致较高的LOO准确率. 所以1 最近邻双样本检验的评估方式在保证可以很好地鉴别真与假的同时, 还可以很好地鉴别模式崩溃的问题, 并且该方法有很高的计算效率.6. 3 评估方法小结(1) 尽管上述评估方法在不同的任务中展现了有效性, 但是在什么样的场景用什么样的评估方法或者是在什么样的场景下用那个评估方法容易导致误解目前是不清晰的;一种评估方式是否合适, 只有在实际应用的上下文中才能知晓.(2) 不同的评估方法适合于不同的模型, 所以根据自己的任务选择与任务相匹配的评估方式相当重要.(3) 目前的评估方式都是基于样本来度量的,大多数现有的方法都试图展现其与人类评估的相关性来证明自身的正确性. 但是人往往只注重图像的质量, 而会忽视对于无监督学习很重要的整体分布特征, 用人来做评估评估还容易受主观因素的影响,因此人的评估是有偏的. 所以不要以人的标准来看图像. 在本小节最后, 将通过表6 对上述四种评估方式做一个汇总和比较.表6 评估标准的比较评估方法 优点 缺点InceptionscoreMo deScore可以很好地展现质量和多样性之间的关联无法检测到过拟合和模式崩溃的问题; 对扰动比较敏感; 不能用于和I mageNET差别比较大的数据集FrechetIncept ionDist ance(FID)判别力、 鲁棒性、 效率方面表现良好无法捕捉细微的变化;无法断定髙的FIS值是由什么原因导致的;1最近邻双样本检验判别力好; 鲁棒性强; 对模式崩溃敏感; 计算效率高7 图像生成的应用基于生成对抗网络强大的隐式建模能力, 目前可以生成十分清晰的图像, 而且在实践过程中不需要知道真实样本数据的显式分布, 同时也不需要假设更多的数学条件. 这些优势使得基于对抗网络的图像生成可以被应用到很多学术和工程领域.( 1) 小样本问题在目前的工作中, 深度学习的良好表现很大程度上依赖于大的数据量和计算力的提高. 但是很多实际的项目难以有充足的数据来完成任务, 而要保证很好地完成任务, 就得必须寻找很多的数据或者是用无监督学习的其他方法来完成.目前比较常用的方法是在已有的数据上, 用几何变换类方法和颜色变换类方法来获取更多的数据, 但是这种方法没有实质性的增加数据. 而基于GAN的图像生成方法是解决这一问题的一个很好的思路. 通过图像生成的方式可以生成与真实数据分布一致的很多样本, 对小样本集进行一个扩充, 然后将混合样本集作为其他视觉任务的数据集, 从而达到增强模型学习效果的目的.( 2) 数据类别不平衡数据类别不平衡指的是数据集中各个类别的样本数量有很大的差别.目前针对这一问题比较常用的方法是随机采样, 该方法从数据角度出发来解决这一问题. 随机采样又分为上采样和下采样, 上采样方法指从少数类的样本中进行随机采样来增加新的陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 36 52 期样本, 而下采样方法是从多数类样本中随机选择少量样本, 再合并原有少数类样本作为新的训练数据集. 但是如果采用上采样的方法, 上采样后的数据集中会反复出现一些样本, 训练出来的模型会有一定的过拟合; 而下采样的缺点是最终的训练集丢失了数据, 模型只学到了总体模式的一部分. 而基于图像生成的方法来解决数据类别不平衡, 则可以避免上述缺点, 更好地扩充数量少的数据.(3) 超分辨率基于图像生成能够以低分辨率图像为输人, 然后输出带有清晰细节信息的超分辨率图像. SRGAN采用基于残差块构建的生成器和基于全卷积网络构建的鉴别器来做单幅图像的超分辨率. 该模型的损失函数除了对抗损失外, 还组合了像素级别的MSE损失、感知损失和正则化损失, 并且该模型可以生成质量很好的图像.(4) 目标检测和跟踪中的应用受益于图像生成在超分辨率领域中的应用, 在目标检测任务中, 对一幅图像中的小目标进行检测经常会遇到目标对象是低分辨率的情况.因此, Li等人[ 8 2 ]试着将低分辨率的小物体转换成高分辨率的大物体, 从而提高物体的可判别性; 在该模型中鉴别器被分成了两个部分: 对抗部分和感知部分. 对抗部分的作用是与生成网络进行对抗训练, 使得生成网络可以是生成高分辨率大尺度的目标; 而感知部分的作用是确保生成的大尺度目标对检测任务是有用的. Wang等人[ 8 3]提出通过对抗网络生成带有遮挡和变形的图片样本来训练检测网络, 从而提高检测网络的性能.由于基于生成对抗网络做图像生成可以保持图像的细节纹理特征. 因此, Orest 等人[84]提出Debl urGAN来实现对运动图像的去模糊化.图像模糊是视觉任务中经常遇到的一个问题, 比如: 图像数据采集过程中由于物体运动导致的模糊, 目标跟踪中相机的运动导致的模糊等. 而基于Debl urGAN的去模糊方法则为处理模糊问题提供了一个很好的途径.同时基于生成对抗网络强大的生成能力, VGAN被提出去生成视频, 而生成的视频可以为目标跟踪任务提供更多的运动信息.(5) 图像属性编辑图像属性编辑指通过对抗网络学习一个映射,该映射不仅具有生成图像的功能, 而且还具备根据属性信息向量修改图像属性的能力. IcGAN[ 8 5]提出通过学习两个独立的编码器I和E,, 其中艮的作用是将一幅图像映射成一个隐向量Z, 而E,的作用是学习一个属性信息向量,属性编辑操作是通过调整属性信息向量h并将其和隐向量Z链接后,一起送人生成器来实现的. 而AttGAN[8 6]实现了在保留原图像细节信息的同时, 编辑人脸图像的单个或多个属性, 生成带有新属性的人脸图像. 该模型基于编码器解码器架构, 通过解码以期望属性为条件的给定面部的潜在表示来实现面部属性的编辑. 而这些图像属性编辑的方法在图像编辑软件, 以及一些娱乐软件中将会有很好的应用前景.(6) 医学图像领域中的应用在医学领域, 由于过度辐射, 会对人体造成一定的伤害, 而降低辐射剂量已经被作为一种有效的解决方案. 但是, 剂量的减少会增加医学图像的噪声水平, 这就会导致一些信息的丢失.目前, 基于卷积网络的去噪声方法的主要问题是在优化中使用了均方误差, 导致预测的图像比较模糊, 无法提供常规剂量下图像的那种高质量的纹理.因此, 可以使用图像转换的方法建立噪声图像和去噪图像之间的映射来消除这个问题, 并且生成高质量的图像. 在获取一些医学图像的过程中, 由于运动而使得一些器官的关键信息丢失, 而基于图像生成的办法则可以在有信息丢失和完全采样的图像之间建立一个映射, 帮助更好地采集图像.8 总结和展望生成对抗网络作为一种概率生成模型, 其已经被应用于很多视觉任务中, 特别是在图像生成方向的优良表现. 本文首先从工作机理、 目标函数、 模型结构、 和训练GAN存在的问题以及应对策略等角度对GAN进行了一个详细地讨论. 其次, 本文按照直接法和集成法的分类方式对基于GAN做图像生成的方法进行了一个汇总; 然后根据输人向量形式的不同, 对图像生成进行了详细地探讨. 并且对图像生成的应用做了详细介绍. 最后, 本文对目前工作中对生成图像进行质量评估的方法做了详细地汇总和分析.通过以上论述, 总体来看, 基于生成对抗网络来做图像生成的方法相较于2014 年提出来的GAN,其做出的改进主要集中在以下几方面: 生成器和鉴别器的神经网络架构、损失函数的设计、 改善模型训练时候的稳定性, 以及改善模式崩溃.虽然这些改进后的模型在业界取得了一系列成果, 但是模式崩塌问题仍然是做图像生成过程中一个严重的问题. 在模型训练过程中, 生成网络有选择3 66 计 算机 学 报 2021年地学习了某些模式, 同时又放弃了某些模式. 针对这一问题, 目前的方法只是通过修改目标函数、改变训练方式等来改善这一问题, 而导致这一问题的原因目前还尚不清楚. 因此, 在理论上对这一问题的研究有待进一步的突破.基于生成对抗网络来做图像生成, 其良好性能很大程度上还是依赖于神经网络强大的拟合能力.所以生成图像质量和多样性的好坏, 与神经网络中的架构有着直接的关系. 但是, 现在还没有成功的理论可以根据环境来优化神经网络的结构, 或者评价修改神经网络结构对生成模型性能的影响. 而只有针对实际问题进行彻底的实验研究, 才能得到满意的效果. 因此, 针对设计的神经网络架构不一定是最优架构这一问题, 基于神经网络架构搜索找最优神经网络架构可能是一个很好的解决方案. 该方法通过定义一个合适的搜索空间, 设计一个合适的搜索策略, 在合适的性能指标下找到一个最佳模型.除了上述问题, 仍然有很多问题在制约图像生成的发展, 最为突出的是模型的可解释性. 要想将图像生成方法成功落地, 可解释性是必不可少的一个环节, 并且有关GAN收敛性的数学分析仍有待建立. 因此目前图像生成的研究主要是建立在深度学习积累的经验之上. 其次, 对GAN模型生成图像质量和多样性的评估, 目前还没有一个统一的、适用于所有模型的方式, 因此在实际操作中, 只能根据实际要解决的问题来选择一个合理的评估方式, 并且目前存在的对生成图像进行评估的方式, 都有一定的局限性. 最后就是目前的图像生成方法, 对计算力的要求都很高, 如果将模型进行部署的话, 对模型的大小定会提出新的要求.因此, 如何建立起有关分析基于GAN做图像生成的机制, 以及基于这些机制如何对模型进行优化和压缩, 如何拓展图像生成的应用范围, 这些问题都有待研究者们进一步地研究.随着人工智能技术的发展, 多模态融合是一个必然的发展趋势, 通过改进神经的架构和算法, 基于语音和文字生成语义一致的图像是一个很好的研究方向. 由于基于有监督方式生成图像的质量比较好,但是实际中大量带标签的数据是很难去获得的, 而少量带标签的数据很容易得到, 因此, 探索如何组合GAN和半监督学习去更好地做图像生成也是一个很有希望的研究方向.在神经网络安全领域, 图像生成将会有很大的用处. 目前深度神经网络虽然精确度越来越高, 但是也发现它们极其容易被攻击和影响. 如果对样本做轻微的扰动, 而神经网络就会以很高的置信度, 做出错误的分类或者是预测, 这一现象就是对抗攻击.同时, 深度神经网络对于对抗攻击鲁棒性差是一个非常普遍的现象.因此, 为了增强网络抗攻击的能力,可以通过图像生成来生成对抗样本, 基于对抗样本来训练网络, 不断地提高深度神经网络的鲁棒性, 使其性能有更大的提升. 所以将图像生成用于提高网络的鲁棒性是一个非常需要研究者们去研究的方向.参 考 文 献[1]DayanP. Helmholtzmachi nesandwakesleeplearning.Handbookof BrainTheoryandNeuralNetwork. Cambridge,USA: MITPress,2000[2]Kingma , DiederikP? MaxW. Aut o encodingvariationalbayes. arXivpreprintarXiv: 1312. 6114,20 13[3]Hint onGE. Deepbelief networks. Scholarpedia ,2009,4 ( 5):5947[4]Sal akhut dinovR?MnihA,Hint onG. Rest ri ct edBolt zmannmachinesforcollaborat iveIiltering//Proceedingsof the24thInternat ionalConf erenceonMachineLearning. NewYork,USA,2007 :791 798[5]Sal akhutdinovR, HintonG. DeepBol tzmannmachines//Proceedingsof t he12t hI nt ernat ionalConf erenceonArtif ici alIntelligenceandSt atist ics( AISTATS). Clearwat er, USA,200 9: 448 4 55[6]Oord,vandenA, KalchbrennerN, KavukcuogluK. Pixelrecurrentneuralnetworks. arXivpreprintarXi v: 1601. 0 6759,20 16[7]Goodf ellowI?Pouget AbadieJ? Mi rzaM, etal . Generat iveadversari alnets//ProceedingsoftheAdvancesinNeuralInformat ionProcessingSyst ems. Mont rel ?Canada ? 2014:2672 2680[8]Goodf ellow?Ian. NIPS20 16t utori al: Generativeadversari alnet works. arXivprepri ntarXiv: 1701.00160 ,2017[9]CreswellA, Whit eT, DumoulinV, etal. Generat iveadversari alnet works: Anoverview. IEEESignalProcessingMagazine ,2018 ,35(1) : 53 65[10]Kurach K,etal. TheGANlandscape: Losses? architectures?regularizat ion, andnormalization. arXivprepri ntarXiv:1807. 04720 ,2018[11]Li nYi Lun, DaiXing Yuan,LiLi ,etal. Thenewf ront ierofAlresearch: Generat iveadversarialnet works. Act aAutomat icaSinica, 2018,44(5); 7 75 7 92(inChinese)( 林懿伦, 戴星原, 李力等. 人工智能研究的新前线: 生成式对抗网络. 自动化学报,2018, 44(5) : 775 792)[12]ZamorskiM, ZdobylakA, Zi^baM, et al . Generat iveadversari alnet works: Recentdevelopments//ProceedingsoftheInt ernat ionalConferenceonArt ificialInt elligenceandSoft Comput ing. Cham,USA,2019; 248 258[13]Isol aP,ZhuJY,ZhouT,et al. Image toimagetranslationwit hcondit ionaladversarialnet wo rks//Proceedingsoft heIEEEConferenceonComput erVisionandPat ternRecognition.Hawaii , USA, 2017: 1125 1134陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 36 72 期[14]ZhuJY, ParkT, I solaP, etal. Unpairedimage t〇imaget ranslat ionusingcycle consistent adversarialnetworks//Proceedingsoft heIEEEInternationalConferenceonComput erVision. Venice,It aly,2017; 2223 2232[15]KimT, ChaM, KimI I , etal. Learningt odiscovercrossdomainrelationswithgenerativeadversarialnetworks//Proceedingsoft he34t hInt ernat ionalConferenceonMachineLearning. Sydney, Australia, 2017 : 1857 1865[16]NguyenT, LeT, VuI I , etal. Dualdiscriminatorgenerat iveadversarialnets//ProceedingsoftheAdvancesi nNeuralInformationProcessingSyst ems. LongBeach,USA,2017:2670 2680[17]OdenaA, OlahC, ShlensJ. Condit ionalimagesynthesiswit hauxi liarycl assifierGANs/ /Proceedingsofthe34t hInt ernat ionalConferenceonMachineLearning. Sydney,Aust ralia ,20 17: 2642 265 1[18]LedigC, Thei sL?I luszarF? etal. Photorealisticsingleimagesuper resolut ionusingagenerativeadversarialnetwork//Proceedingsoft heIEEEConf erenceonComput erVisi onandPat ternRecognit ion. Honolulu,USA,2017; 4681 4690[19]DonahueC, etal . Semant ical lydecomposingthelatentspacesofgenerat iveadversarialnet works. arXivpreprintarXiv:1705. 07904 ,20 17[20]YinWei Dong? etal. Semilat entGAN: Learningtogenerateandmodifyfacialimagesfromat tribut es. arXivpreprintarXiv: 1704 . 0 2166,2017[21]TranL, YinX, LiuX. Represent at ionlearningbyrot ati ngyourf aces. IEEETransact ionsonPatt ernAnalysisandMachineIntelligence,20 18, 41(12) : 3007 3021[22]Ant ipovG? BaccoucheM, DugelayJL. Faceagi ngwi t hcondit ionalgenerat iveadversarialnet works//Proceedingsoft he2017IEEEInternationalConf erenceonI mageProcessi ng( ICIP) . Beijing,Chi na, 2017;20892093[23]HeZ,ZuoW,KanM, etal. At tGAN: Faci alat t ributeedit ingbyonlychangingwhatyouwant . IEEETransactionsonImageProcessi ng,2019,28(11); 5464 5478[24]EhsaniK,Mot taghiR,FarhadiA. SeGAN: Segmentingandgenerat ingtheinvisible//ProceedingsoftheIEEEConferenceonComputerVisionandPatt ernRecogni tion. Salt LakeCity, USA,2018: 6144 6153[25]LiJ, LiangX,WeiY?etal. Percept ualgenerat iveadversarialnetworksf orsmallobjectdet ection/ /ProceedingsoftheIEEEConferenceonComputerVisionandPat t ernRecognit ion.Honolulu, USA,2017; 1222 1230[26]VondrickC?Pirsi avashI I, Torral baA. Generatingvideoswit hscenedynamics//Proceedingsof t heAdvancesinNeuralInformationProcessingSyst ems. Barcelona?Spain,2016:613 621[27]TulyakovS, LiuMY, YangX,etal. MocoGAN: Decomposingmot ionandcont entf orvideogenerat ion//Proceedingsoft heIEEEConferenceonComputerVisionandPat ternRecogni tion. SaltLakeCity, USA,2018: 1526 1535[28]LiY, LiuS, YangJ, etal. Generat ivefacecompleti on//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognition. Hawaii ,USA, 2017: 3911 3919[29]MaL, JiaX, SunQ,et al. Poseguidedpersonimagegeneration//Proceedingsof t heAdvancesinNeuralInformat ionProcessingSystems. LongBeach,USA,2017 : 406 4 16[30]MaoX, LiQ, XieI I , etal. Leastsquaresgenerat iveadversari alnet works//Proceedingsoft heIEEEInternationalConferenceon Computer Vision. Venice, Italy, 2017: 2794 2802[31]ArjovskyM?Soumit hC?LeonB. Wasserst einGAN. arXivprepri ntarXiv: 1701.07875,2017[32]Gul rajaniI , AhmedF?ArjovskyM?etal. Improvedt rainingof wassersteinGANs//ProceedingsoftheAdvancesinNeuralInformat ionProcessingSystems. LongBeach, USA,2017:57 67 5777[33]LiY, SwerskyK,ZemelR. Generat ivemomentmat chingnet works//Proceedingsoft heI nt ernationalConferenceonMachineLearni ng. Lil le, France,2015: 1718 1727[34]LiCL, ChangWC, ChengY, et al. MMDGAN: Towardsdeeperunderstandingof moment mat chingnet work//Proceedingsof theAdvancesinNeuralInformat ionProcessingSystems.LongBeach,USA, 20 17; 2203 2 213[35]NowozinS? CsekeB? TomiokaR. FGAN: Traininggenerat iveneuralsamplersusingvariat ionaldivergenceminimizat ion//Proceedingsof theAdvancesi nNeuralInformationProcessingSystems. Barcelona,Spain,20 16; 271 279[36]SriperumbudurBK,etal . Onint egralprobabilitymet rics?^divergencesandbinaryclassifi cation.arXivpreprintarXiv:090 1. 2 698 ,2009[37]XuQian Tong, etal. Anempiricalst udyonevaluationmet ricsofgenerat iveadversari alnet works. arXivpreprintarXiv: 1806. 07755,2018[38]RadfordA,LukeM, Soumit hC. Unsupervisedrepresentationlearningwithdeepconvolutionalgenerativeadversarialnetworks.arXivpreprint arXiv: 1511. 06434,20 15[39]ImDJ,etal. Generat ingimageswi threcurrentadversari alnet works. arXivpreprintarXiv: 1602. 05110 , 20 16[40]MakhzaniA,et al . Adversarialautoencoders. arXivpreprintarXiv:1511. 05 644 ,2015[41]LarsenABL? etal . Autoencodingbeyondpixel susingalearnedsimilaritymet ric. arXivpreprint arXiv: 15 12.0 9300 ,20 15[42]DonahueJ?PhilippK? TrevorD. Adversarialfeaturelearning.arXivpreprint arXiv: 1605 . 0 9782 ,2016[43]ZhaoJunBo ? Mi chaelM, YannLe Cun. Energybasedgenerat iveadversari alnetwork. arXivprepri ntarXiv:160 9. 03 12 6,2016[44]KodaliN,et al. Howtot rainyourDRAGAN. arXivpreprintarXiv: 1705 07215,2017[45]Li nZ, Khet anA, Fant iG,etal. PacGAN: Thepoweroftwosamplesi ngenerat iveadversari alnetworks//Proceedingsof theAdvancesinNeuralInformat ionProcessi ngSystems.Mont real,Canada , 2018: 1498 1507[46]ChoiY, ChoiM, KimM,etal. StarGAN: Unifiedgenerativeadversari alnetworksformult idomainimage t〇imaget ranslation//Proceedingsoft heIEEECo nferenceonComput erVisionandPat t ernRecognit ion. SaltLakeCi ty, USA,20 18: 8789 87 973 68 计 算机 学 报 2021年[47]MirzaM? SimonOsindero. Condi tionalgenerat iveadversarialnets. arXivpreprintarXiv: 1411. 17 84, 2014[48]XianW,SangkloyP, AgrawalV, etal. TextureGAN:Cont rollingdeepimagesynthesi swithtext urepat ches//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognit ion. Sal tLakeCity,USA,2018; 8456 8465[49]SongL, LuZ, l i eR, etal. Geomet ryguidedadversarialfacialexpressionsynthesis//Proceedingsoft he26t hACMInt ernat ionalConferenceonMult imedia. Seoul ? Korea?2018: 627 635[50]ZhuJY, ZhangR, Pat hakD? etal . Towardmult imodalimage t〇imagetranslat ion//ProceedingsoftheAdvancesinNeuralInf ormat ionProcessingSyst ems. LongBeach? USA,2017; 4 65 476[51]DekelT?et al . Smart ,sparsecont ourst orepresentandeditimages. arXivpreprintarXiv:17 12. 08232,2017[52]ParkT, LiuMY, WangTC, etal. Semant icimagesynt hesiswithspatiallyadaptivenormalization//ProceedingsoftheIEEEConference onComputerVisionandPatt ernRecognit ion. LongBeach, USA, 2019; 2337 234 6[53]YooD, KimN, ParkS,et al. Pixel leveldomaintransfer//Proceedingsof theEuropeanConferenceonComput erVision. Amst erdam, Net herlands:Springer , 20 16: 517 532[54]MetzL, etal. Unrolledgenerat iveadversari alnetworks.arXivprepri ntarXiv: 1 61 1.02163 , 2016[55]SalimansT, GoodfellowI , ZarembaW,etal. I mprovedt echniquesf ort rai ningGANs//ProceedingsoftheAdvancesinNeuralI nf ormationProcessingSystems. Barcelona ?Spain,2016: 2234 2242[56]ChenX?DuanY?I l outhoof tR?etal. InfoGAN: I nterpret ablerepresent ationlearningbyinformat ionmaximizinggenerativeadversarialnets//Proceedingsoft heAdvancesi nNeuralInformationProcessingSyst ems. Barcelona?Spain,2016:2172 2180[57]QiGuo Jun. Loss sensit ivegenerat iveadversarialnet worksonlipschi tzdensi ties. arXivpreprintarXiv: 1701. 06264 ,2017[58]TaigmanY, AdamP, LiorW. Unsupervisedcrossdomainimagegeneration. arXivpreprintarXiv: 1611. 02 200,2016[59]LiuMY, BreuelT?Kaut zJ. Unsupervisedimage t〇imaget ranslat ionnet works//Proceedingsof theAdvancesinNeuralInformationProcessingSyst ems. LongBeach?USA,2017:700 7 08[60]ZhangI l an,etal. Sel fatt entiongenerat iveadversarialnetworks. arXivpreprint arXiv: 1805. 08318 ,2018[61]ZhangI I , XuT, LiI I , et al. St ackGAN: Texttophotorealisti cimagesynthesiswithst ackedgenerat iveadversarialnetworks//ProceedingsoftheIEEEInternat ionalConferenceonComput erVision. Venice ,I t aly, 20 17: 5907 5 915[62]Dent onEL, ChintalaS? FergusR. Deepgenerat iveimagemodelsusingalaplacianpyramidofadversarialnetworks//Proceedingsof theAdvancesinNeuralInf ormat ionProcessingSystems. Mont real , Canada ,20 15; 1486 14 94[63]YiZ, ZhangI I, TanP,etal. DualGAN: Unsupervisedduallearningforimage t〇imaget ranslation//Proceedi ngsof t heIEEEInternationalConferenceonComputerVision. Venice,It aly,2 017: 2849 2857[64]GanZ, ChenL, WangW, etal. Trianglegenerat iveadversari alnet works//Proceedingsof theAdvancesinNeuralInformat ionProcessingSystems. LongBeach, USA, 2017:5247 5256[65]AnooshehA, AgustssonE?Timof t eR?et al . ComboGAN:Unrest rainedscalabili tyf orimagedomaintranslat ion//Proceedingsoft heIEEEConferenceonComput erVisionandPat ternRecogni tionWorkshops. Salt LakeCi ty, USA,20 18: 783 7 90[66]RoyerA,et al. XGAN: Unsupervisedimage toimagetranslat ionf ormanyt〇 manymappings. arXivpreprintarXiv: 1711. 05139 ,2017[67]WangX, GuptaA. Generat ivei magemodelingusi ngstyleandst ruct ureadversarialnet works//Proceedingsof theEuropeanConferenceonComput erVision. Cham, Netherlands:Springer?20 16: 318 3 35[68]YangJianWei, et al. LRGAN: Layeredrecursivegenerativeadversari alnet worksf orimagegenerat ion. arXivpreprintarXiv: 1703. 01560 ,2017[69]I l uangX, LiY, Poursaeed0, etal. St ackedgenerat iveadversari alnet works//Proceedingsoft heIEEEConf erenceonComputerVisionandPat t ernRecognit ion. Hawaii, USA,20 17: 5077 50 86[70]ReedS? etal. Generat iveadversarialt ext toimagesynthesis.arXivpreprint arXiv: 1605. 05396 ,20 16[71]PerarnauG? etal . Invert iblecondit ionalGANsf orimageedit ing. arXivpreprint arXiv: 1611. 06355,20 16[72]ShahamTR, DekelT, MichaeliT. Si nGAN: Learningagenerat ivemodelfromasinglenaturalimage//Proceedingsof theIEEEInt ernat ionalConferenceonComput erVision.Seoul,Korea,2019: 4570 4580[73]RonnebergerO,Fi scherP, BroxT. Unet: Convolutionalnet worksforbiomedicalimagesegment at ion//ProceedingsoftheI nt ernat ionalConf erenceonMedicalI mageComput ingandComput er Assist edInt ervent ion. Munich? Germany,20 15: 234 2 41[74]WangTing Chun, LiuMing Yu,ZhuJunYan, et al. I l ighresol uti onimagesynt hesisandsemant icmanipul at ionwit hcondit ionalGANs//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecogni tionWorkshops. SaltLakeCity, USA, 2018: 8798 8807[75]LeeI IY, TsengI IY, I luangJB, etal. Diverseimage toimagetranslationviadisentangledrepresentations//Proceedingsof theEuropeanConferenceonComput erVision( ECCV) .Munich,Germany,2018; 35 51[76]BousmalisK, Sil bermanN?DohanD? et al. Unsupervisedpi xel leveldomainadaptat ionwit hgenerat iveadversari alnet works//Proceedi ngso ftheIEEEConferenceonComput ervisionandPat t ernRecognition. Hawaii, USA,2017: 3722373 1陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 36 9 2 期[77]WangZheng-Wei,QiShe,TomasEW.Generativeadversarialnetworks: Asurveyandtaxonomy. arXivpreprintarXi v:190 6.0152 9,2019[78]BarrattS,Ri shiS. Anoteontheinceptionscore. arXivpreprintarXiv: 1801. 01973 ?2018[79]LucicM,KurachK,Mi chalskiM,etal. AreGANscreatedequal?Alarge-scalestudy//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.Montreal,Canada,2018 :700-709[80]I leuselM, RamsauerI I, UnterthinerT, etal. GANstrainedbyatwotime-scaleupdateruleconvergetoalocalNashequilibrium//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.LongBeach,USA,20 17:662 6-6637[81]CheTong,etal . Moderegularizedgenerativeadversarialnetworks. arXivpreprintarXiv: 1612.0 2136,2016[82]LiJ, LiangX, WeiY,etal.PerceptualgenerativeadversarialCHENFo-Ji,M.S.Hisresearch' interestsincl udeimagegeneration,machinel earning,patternrecognition,ZHUFeng,Ph.D.,professor,Ph.D.supervisor.Hisresearchinterestsincluderobotvision,visualmeasurement,visualdetection,infraredi magesimulation,and3-Dobjectrecognition.BackgroundDeeplearning-basedmethodshaveachievedexcellentperformanceinmanyvisiontasksinrecentyears.Butthegoodresul tsalwaysrelyonl argeamountsofdatawithl abel sandpowerfulcomputingpower.Asthelabeleddataishardtocoll ectorevenimpossibletocoll ect,whichcausesthatfewermodelsarelearnedbythemodelandthegeneralizationabi lityofthemodeli snotwel l .Therefore,theapplicationofmethodsbasedondeeplearningtopracticalproblemsisdi fficult.Toefficientlycompl etevisiontasks, itisnecessarytocollectmorelabeleddata.Fortheexcel lentperformanceinthefieldofi magegeneration,thegenerativeadversarialnetworkshavereceivedalotofattention.Thegenerativeadversarial networksmodelanunknowndistributioninindi rectlywayandavoidcomputati onaldi fficul ti es.Comparedwithothermethodsingenerativemodels,imagesgeneratedbygenerativeadversarial networksarehigh-quality.Therefore,itisagoodideatodoinfraredi magesaugmentationbasedonimagesgenerationwithgenerativeadversarialnetworks.Toprovideacomprehensiveandsystematicunderstandingnetworksforsmallobjectdetection//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.Hawaii,USA,2017 :1222-1230[83]WangX, ShrivastavaA,GuptaA. A-fast-RCNN: Hardposi tivegenerationviaadversaryforobjectdetection//ProceedingsoftheIEEEConferenceonComputerVi sionandPatternRecognition.Hawaii ,USA,2017 :2606-2615[84]KupynO,BudzanV,MykhailychM,etal.Deblur-GAN:Blindmotiondeblurringusingconditionaladversarialnetworks^/ProceedingsoftheIEEEConferenceonComputerVi sionandPatternRecognition. SaltLakeCity,USA,2018 :8183-8192[85]PerarnauG,etal . InvertibleconditionalGANsforimageediting. arXivpreprintarXiv: 1611. 06355 ,2016[8 6]l ieZ, ZuoW, KanM,etal . AttGAN:Facialattributeeditingbyonlychangingwhatyouwant. IEEETransactionsonImageProcessing,2019,28(11):5464-5478WUQing-Xiao,Ph.D.,professor.Hisresearchinterestsincl uderobotvisionandmachinevision.HAOYing-Mi ng, Ph.D. ,professor.Hermainresearchinterestsincludeimageprocessingandspatialvisionmeasure?ment.WANGEn-De,Ph.D.,professor ,M.S.supervisor.Hisresearchinterestsincludesmallaircraftcontrol ,i magedetection,recognitionandtrackingandweaksignal detectionandpreprocessing.CUIYun-Ge,M.S.Hisresearchinterestsincludei magegenerationandSLAM.ofi magegenerationbasedongenerativeadversarialnetworksforresearcherswhowanttoworkonthisfield,itisnecessarytocarryoutaninvestigationintothebasictheory,modelarchitecture,objectivefunction,andsomerelatedtricks.Inthispaper,howthegenerativeadversarialnetworksworkandhowtoconstructamodelareintroducedfirstly.Andthenmethodsaboutimagesgenerationarediscussedindetail s ;Atthesametime,thefundamentaltheoryandexistingproblemsofcurrentmethodsarediscussed.Asummaryandanalysisofmethodswhichareusedtodoevaluationofgenera?tedimagesgeneratedbygenerativeadversarialnetworksisdone.Final ly,intheory,theexistingprobl emsandchall engesarediscussed;Meanwhil e,sometricksthatareemployedtoimprovetheperformanceofgenerativeadversari alnetworksinpracticalapplicationsareintroducedandsummarized.Inpracti?calapplication,doingimagessetaugmentationwhichbasedongenerativeadversarialnetworksandguidedbypriorknowl edgeisapromisingresearchdirection.Meantime, itishopedthati magesgenerationwithgenerativeadversarialnetworkscanbeappli edtoawiderrangeofareas.

[返回]
上一篇:基于区块链的网络安全体系结构与关键技术研究进展
下一篇:基于注意力感知和语义感知的RGB_D室内图像语义分割算法_段立娟