生成对抗网络及其在图像生成中的应用研究综述 |
来源:一起赢论文网 日期:2022-01-05 浏览数:1051 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第44 卷 第2期2021 年2 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No.2Feb. 2021生成对抗网络及其在图像生成中的应用研究综述吴清潇 郝颖明w’ "崔芸阁中国科学院沈阳自动化研究所 沈阳 110 016)2)( 中国科学院机器人与智能制造创新研究院 沈阳 110 016)3)( 中国科学院大学 北京 100049)?( 中国科学院光电信息处理重点实验室 沈阳 110 016)摘 要 生成对抗网络(GAN)是无监督学习领域最近几年快速发展的一个研究方向, 其主要特点是能够以一种间接的方式对一个未知分布进行建模. 在计算机视觉研究领域中, 生成对抗网络有着广泛的应用, 特别是在图像生成方面, 与其他的生成模型相比, 生成对抗网络不仅可以避免复杂的计算, 而且生成的图像质量也更好. 因此, 本文将对生成对抗网络及其在图像生成中的研究进展做一个小结和分析: 本文首先从模型的架构、 目标函数的设计、 生成对抗网络在训练中存在的问题、以及如何处理模式崩溃问题等角度对生成对抗网络进行一个详细地总结和归纳;其次介绍生成对抗网络在图像生成中的两种方法; 随后对一些典型的、用来评估生成图像质量和多样性的方法进行小结, 并且对基于图像生成的应用进行详细分析; 最后对生成对抗网络和图像生成进行总结, 同时对其发展趋势进行一个展望.关键词 生成模型; 生成对抗网络; 图像生成; 生成图像质量评估中图法分类号TP18DOI号10.11897/SP.J.1016.2021.00347ASurveyAboutImageGenerationwithGenerativeAdversarialNetsCHENFoJi1) ,2) ,3) ,4)ZHUFeng1) ,2) ,4)WUQi ngXi ao1) ,2) ,4)HAOYi ngMi ng1) ,2) ,4)WANGEnDe1) ,2) ,4)CUIYunGe1) ,2) ,3) ,4){ShenyangInsi i iui eofAuLomaL ion-, Chi neseAcademyofSci ences-, Shenyang110016)2)( InsL i LuLesforRoboticsandInLel ligenLManufact uring? ChineseAcademyofSciences, Shenyang110016)3)( Uni versityofChineseAcademyofSci ences?Beijing100 04 9)4 )( KeyLaboratoryofOpio EL eci ronicInformationProcess?Chi neseAcademyofSciences ,Shenyang1 10016)AbstractIntasksofunsupervisedl earni ng,thegenerati vemodelisoneofthemostcriticaltechniques. Thegenerati vemodel consistsofprobabi l i tydensityestimati onandsampl i ng, whi chcanlearndatadistri butionbyl ooki ngatexisti ngsamplesandgeneratenewsamplesthatobeythesamedistri buti onastheorigi nal sampl es. Forcompl exdistri butionsi nahighdi mensi onalspace,densityesti mationandsampl egenerati onareoftenhardtorealize. Si ncehigh di mensi onalrandomvectorsaregeneral lydi ffi cul ttomodeldi rectly,i ti snecessarytosimpli fythemodel wi thsomeconditi onindependencehypothesis. Evengi venacompl exdistri buti onthathasbeenmodel ed,therei sal ackofeffecti vesampl i ngmethods.Wi ththerapi ddevel opmentofdeepneuralnetworktechnol ogy,thegenerati vemodelhasmadegreatprogress. Inthepastfewyears,therehasbeen收稿日期:2019 08 28; 在线发布日期:2020 05 19. 本课题得到国家自然科学基金( U1713216) 和机器人学重点实验室自主课题项目(2017 Z21) 资助. 陈佛计, 硕士, 主要研究方向为图像生成、 机器学习、模式识别、 视觉测量. Email: chen丨oji@Sia.cn. 朱 枫( 通信作者),博士, 研究员, 博士生导师, 主要研究领域为机器人视觉、 视觉测量、 视觉检测、 红外图像仿真、 3D物体识别. Email : 1754 208529 @qq.com.吴清潇, 博士, 研究员, 硕士生导师, 主要研究领域为机器人视觉、 机器视觉. 郝颖明, 博士, 研究员, 硕士生导师, 主要研究领域为图像处理、 空间视觉测量. 王恩德, 博士, 研究员, 硕士生导师, 主要研究领域为小型飞行器控制、 图像目标检测、 识别与跟踪、 微弱信号检测预处理. 崔芸阁, 硕士, 主要研究方向为SLAM和图像生成.348 计 算机 学 报 2021年adrasticgrowthofresearchi nGenerati veAdversarialNetwork( GAN)whichcanmodelanunknowndi stributi oninani ndirectwayandcanavoi dstati sti calandcomputati onalchal l enges.Atthesameti me,generati veadversarialnetworksarethel atestandmostsuccessfultechnol ogyamonggenerativemodel s.Especi al lyintermsofimagegenerati on,comparedwithothergenerati onmodel s,generati veadversarialnetworkscannotonl yavoi dcompl i catedcal cul ati ons,butal sogeneratebetterqualityi mages.Therefore,thispaperwillmakeasummaryandanal ysisofgenerati veadversarialnetworksandit sappl i cati onsi nimagegenerati on. Fi rstl y,fromthetheoreti calaspect,thebasici deaandworki ngmechanismofgenerati veadversarialnetworksareexplai nedi ndetail ;Howtodesignthel ossfuncti onofgenerati veadversarialnetworksbasedonF di vergenceorintegralprobabilitymetricisi ntroduced,anditsadvantagesanddisadvantagesaresummari zed;Fromthetwoaspectsofconvol utional neuralnetworkstructureandautoencoderneuralnetworkstructure,themodelstructurecommonl yusedingenerati ngadversarialnetworksissummari zed;Atthesametime,theprobl emsandcorrespondingsol uti onsi ntheprocessoftrai ni nggenerati veadversarialnetworksareanal yzedfromboththeoreti calandpracti calperspecti ves;Secondl y,basedonthedirectmethodandtheintegrati onmethodasthecl assificationcriteria,currentmethodsofgeneratingi magesbasedongenerati ngadversari al networksaresummari zed,andthebasi ci deasofthesemethodsareexplai nedi ndetai ls.Then,fromthethreeaspectsofi magegenerati onbasedonmutualinformati on,i magegenerati onbasedonattentionmechanism,andi magegenerati onbasedonasingl eimage,themethodofdirectl ygeneratingimagesbasedonrandomnoisevectorsissummari zed.Thecurrentmethodsofgenerati ngi magesbasedoni magetransl ati onareexpl ainedindetail sfromtheaspectsofsupervisedandunsupervisedmethods.Later,fromaqualitati veandquantitati vepoi ntofview,theexisti ngmethodsusedtoeval uatethequalityanddi versityofgeneratedi magesbasedongenerati veadversarial networksareanalyzed,andcontrasted.Fi nal ly,theapplicati onofgenerativeadversarial networksi nthefiel dofsmal lsampl es,datacategoryi mbal ance,targetdetectionandtracki ng, i mageattri buteedi ting,andmedi cali magesprocessi ngisintroducedi ndetai ls. Andsomeproblemsi ntheoryandpracticeofgenerativeadversarialnetworksandi magegenerati onareanal yzed;Thedevel opmenttrendofgenerati veadversarialnetworksandthedevel opmenttrendofi magegenerati onaresummarizedandprospected.Keywordsenerati vemodel;generati veadversarialnetwork;i magegenerati on;generateimagesqualityassessmenti 引 言生成模型是无监督学习任务中一类重要的方法. 生成模型可以直接学习样本数据中的分布, 然后从学到的分布中进行采样可以得到类似于样本数据、 服从同一分布的样本. 伴随着深度神经网络的快速发展, 基于神经网络的生成模型取得了显著的成果. 在神经网络兴起之前, 生成模型主要是对数据的分布进行显式地建模, 例如: 基于有向图模型的赫姆霍兹机[1]( Hel mholtzmachi nes)、 变分自动编码器(Vari ati onalAuto Encoder,VAE)[2 ]、 深度信念网络[ 3 ](DeepBeliefNetwork, DBN) 等和基于无向图模型的受限玻尔兹曼机[4]( RestrictedBol tzmannMachi nes, RBM)、深度玻尔兹曼机[ 5](DeepBoltzmannMachi nes, DBM) 等, 以及自回归模型[ 6 ](AR模型).由于被建模随机变量的高维度, 学习十分困难. 其主要体现在统计上的挑战和计算上的挑战, 统计上的挑战就是这些生成模型不能很好地泛化生成的结果, 计算上的挑战主要来自于执行难解的推断和归一化的分布. 面对这些难以处理的计算,一种方法就是近似它们; 另一种方法就是通过设计模型, 完全避免这些难以处理的计算. 基于这样的想法, 研究者们提出了一系列新的模型, 而由 Goodfel l ow等人m(2014) 提出的生成对抗网络( Generati veAdversarial Networks,GAN) 是生成模型目前最好緣佛肩: 4麟卵赛具纖興像生ft中餘麵研露雜 349 2: 期的一种方法.受博弈论中两人零和博弈思想的启发,GAN主荽由生成器和鉴别器商个部分组成? 生成器的目的暴生成真实的样本去骗过鉴别器, 而氅别器是去鼠分真实餘#'本和生成的样本.纖该对救训练難不断的提高各自的能力.? 最终达到一个纳什均衡的状态.因为生獻対抗网络歡生成厳像方面的能力超过了其他的方法, 所以其成为了一个热门的研究方向.GAN中的对抗箏习風想逐靳与深度-习中的其他研究方向梱互渗遂, 从而诞生了很多新. 的研究方向和S用? 相笑综述性的文章包括: 隹. 成对抗网络教職_( 2016NIPS):、 Cwswel I 等人[ ?的銳成对抗网络综述、 Kimich等人 从掼失函数、神?网络架构、芷则化和.! &一化等:角度做的嫁述、林懿伦等人[11]的生成式对抗ft導、Zamarski等入[1 2]:,生成对抗网翁的最新进展. 从这些文:章中可踩教出, 关于生成对抗网络的研究主繁是以下两个方面^(1) 在理论研究方面, 主要的丈作是糖除生成对抗网铬的不稳定性和模式崩溃的问题?Gopdfdlow在NIPSmiS 会议期间做的一个关fGAN的报贅中 他阐述T"生珙壤'塑的重蘩牲, ,并且解释了生成对抗:网络如何工作以通;一蠢前沿的谱题, &6S,el l等人M在生成对抗网络的综述中, 主要介绍了几种GAN的网络架构和GAN的应用, 并且从倩'号处理的角度, 除了确定狐练和构造GAN的方法, 还指出了在GAN的理论和实际斑用中仍然存在的挑战?Kurach等人[ 1 °]从损失函数、 网络架构、 疋则化以及批标准化等角度对GAN的一些两题和可重复性进行了研究- 林懿伦等人》?对GAN常见的网络结构、训练方法、集成方法、 以及一些应用场鼙迸行了介鼙?Zamorski 等人M从学习隐空间表示的衔虔出发, 对GAN嫌新的进展进行论述.(2) 莅应用方面\主要关注的是生成对抗网络在计算机视觉(CV), S然语曹处理《NLP) 和其他领.域的应用. 目前生成对抗网络在计算机视觉任务中已盗有了很多的应用, 例如■像生成、谣义分割、 图像编辑、超分_率.、 图像修复,域转换、 视频生成和预测等I而生戚对抗网络在自然语言处理中的应用也呈现H益增长的趋势, 例如: 从文本ft成图像、 字体的生成、对请生成、 机器麵译等'*同时生成对抗网络_语音生成:#W也有一链斑甩. 生成对抗__在视觉中的应用情况如表1 所示?在生成对抗网络的众多应用中, 被研究最多的领域是图像生成?其目标是通过生成器.来生成斯望的图像.表IGAfT在视觉任务中的应用视觉任务 GAN模型图像转换Pix2pix[1 3], Cycle-GAJ Sf[14], Dbc〇-GAlSf[1 5]D2GAN[1 6], ACGAN[1 7]超分辨率 SRGAN[l s]属性编辑SD-GAN[1 9]SL-GAN[2 0], DR-GAN[21]AGE-GAN[22], AttGAN[23]目标检测 SeGAN[2 4], PerceptualGANE2 S]视频生成 VGAN[2 6 ], MoCoGAN[叼图像修复 GenerativeFaceCompletion[ 28 ]姿态估计 PoseGuidedPersonGenerationNetwork(PG2)[2 9]:本文首先分紹龜成对抗网络胁: 塞本慕理痛存在的问题, 以及针对存在问题做的改进. 靠次对生成对抗两络在图像生成中应用* 以及对生成菌像的威量的评估迸行探讨. 然后对基于图像生. 成的应用做一个详细介绍<最后射&成对抗网络的发展趋勢和其在图像生成领域中的应用进行展望42GAN的介绍2. 1GAN的工作机理生成对抗阿络由生成器(G) 和鉴别器( D>两个部分祖成4卩图1 所示. G是由0秦数化的神经网络实现 的输人暴一个服从宁慕一-分布九的随机_營 而G的输出可以着成是. 采禅于某一分布九的一个祥本G< d?假设真实数据的分布为 在给定一定量寘实数据集的条件下, 对生成对抗网络进行训练, 让G学到一个近似于真实数据分布的函数. GAM中G的主要目的基座成类似于真实数据的祥:率以骗过 商D的输人_寫实的样: 本和生成的样本两个部分组成,D的目标躭是判断输人的数琚是来自于寘实的样本还是来自于G生成的样本.G和D经. 过对抗训练达到一个纳什平衡状态, 即D判断不出其输人*来;§于真实的样本* 还是来自于G生成的#本, 此时就可以认为G学召到了真实数据的分布. 在理论上?假设在生成对抗网络中真实数据分布齿 , 弁且有一^被^参数化的: 生成分帝馬“; 仍? 如舉想it高实歡堪分布和生成分事予分接近, 首先从PjmW随机采样数#为《的样嵐1 進成对抗网络■龜构3 50 计 算机 学 报 2021年本, 并且计算出 最后通过最大似然函数:L=JJPG(^j d)(1)i i来求出参数A其结果如下:d*^argmi nKL( Pda ta( ^)P〇( ^;^) )(2)0知当IT( X)=pr 、 时, 似然函数的值最大; 此时, 将 ( d代人到似然函数中就可以得到生成分布和真实数据分布之间的JensenShannon散度(JSD). 最终就可以将一个分布逼近另一个分布的问题转化为最小化两分布之间的JSD. 基于这样的思想可以设计出GAN的目标函数如下式所示:mi nmax=mi nmaxEp。[l ogD(a:)]+GDGDd ataE_#Jl og( l D(G( z) ) )](3)其中V( G, D) 是一个二分类的交叉熵函数, 该损失函数的最终目标是最小化生成分布和真实分布之间的KL散度. 通过分析对抗网络的目标函数, 并且从D的角度来看的话, 如果D的输人是来自于真实样本, D将会最大化输出; 如果D的输人来自于G生成的样本, 则D将会最小化输出; 同时G想要去欺骗D, 那当G生成的样本作为D的输人的时候, 必须最小化损失函数V(G, D). 但是当D被训练得非常好的时候, 他将以很高的置信度直接将来自于G的样本判别为假. 此时l 〇g(l D(G( Z) ) )就会饱和,从而导致梯度为〇 , 最终参数得不到更新. 此时可以将l 〇g( l D(G( Z) ) ) 换成l 〇gD( G(z) ). 尽管新的目标函数可以提供不同于原始损失函数的梯度, 但是仍然存在梯度消失的问题; 同时在理论上假设D和G具有充分的能力去对一个未知的分布进行建模,但实际上这种建模能力是有限的.因此有很多学者尝试通过改变目标函数和神经网络结构等技巧来解决这些问题, 接下来我们将分析这些GAN的变体,然后重点关注如何处理GAN训练中的存在问题以及模式崩溃.2.2GAN的目标函数GAN的主要目标就是去最小化真实数据分布与生成数据分布&之间的距离, 怎么样度量分布之间的距离对于GAN极其关键. 标准的对抗网络通过JSD来度量两分布之间的差异, 然而这种度量方式存在很多缺陷. 针对这些问题, 研究人员最近几年提出了不同的距离度量方式和散度度量方式来代替JSD, 以提高GAN的性能. 这节我们将讨论如何基于这些距离或者散度的度量方式来对分布之间的差异进行准确地度量. 目前常见的度量方式分为以下几类, 如表2 所示.表2 分布之间距离的度量方式Met ric 度量方式 GAN模型FdivergenceKLDJSDPearsonX2标准GAN[7]LSGAN[30]Int egralProbabilityWasserst ei nDist anceWGAN[3 1]WGANGP[32]Met ric(IPM) MaximumMean GMMN[ 33 ]Discrepancy( MMD) MMDGAN[3 4 ]在接下来的小节中, 将按照表2 的分类方式, 分别对每一种方法进行详细地分析.2.2.1F散度( Fdi vergence)F散度[3 5]是用一种特殊的凸函数/来度量两分布之间差异的一种方法, 基于两分布之间的比值, 可以将两分布之间的Fdi vergence定义为如下的形式:Dr(PdalaPg)=Or )/( 》〇:!: ( 4)在采用式(4) 对两分布之间的差异进行度量时,必须满足这样的前提条件: /(1)=〇 并且/是一个凸函数, 即当两个分布是一致的时候, 其比值为1,而相应的散度应该为〇. 由于任意满足/(1)=〇 条件的凸函数, 都可以衍生一种GAN的目标函数, 这样就在很大程度上拓展了标准GAN. 但实际操作过程中, 并不能准确地求出数据分布的函数形式, 所以应该采用一种可以计算的方法将式(4) 给估计出来./GAN采用了变分估计的方法来估计模型的参数,首先求出凸函数/( 也叫作生成器函数) 的共轭函数尸, 也称为Fenchel 共轭, 其形式如式(5) 所示:f*(t)—sup{ utf(u)}(5)u^dom/由于Fenchel 共轭是可逆, 也可以将/表示为f('u)—sup{utf*(t)}( 6)u^dom/*将式(6) 代人到式(4) 中可以得到/的下界, 如式(7)所示:)sup(7)(x)f*(T( x')')pg( x')^dx(8)=supC E^^[T(^>] Ex^ps[/*(T(x')') J)( 9)其中/#是凸函数/的Fenchel 共轭函数, dom/#是尸的域.因为最大值的和大于其和的最大值, 所以式(7) 可以变为式( 8); 在公式中了表示满足%—的一类函数, 因此可以用TX:r) 来代替公式中的r;而且TX:r) 可以用式( 10) 来表示:D,(》da ta 》裏)叫>sup(\T( x) pd陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 35 12 期T(x)=a(Dm( x) ),a(*): R ?dom/*Dm(x):%>-R(10)在式(10) 中, 可以将7X:r) 看成是带有一个特别激活函数aO) 的鉴别器; 用不同的生成器函数/以及与其对应的激活函数a〇) 可以导出很多GAN的变体. 与标准GAN—样, /GAN首先最大化等式( 9) 关于T(:r) 的下界, 然后最小化近似的散度,使得生成器学到的分布更加类似于真实数据的分布. KL散度(KLD)、 逆KL散度、JSD以及一些其他的散度都可以由带有特殊生成器函数/的/GAN架构衍生出来. 在这些衍生出来的GAN的变体中,LSGAN[ 2 9 ]的性能是最好的一个; 但是在标准的GAN中, 当生成器学到的分布 和真实的数据分布 之间没有交集的时候, 即&距离 还是很远时, 他仍会以很高的置信度将生成器生成的样本判别为假, 此时就会导致目标函数值是一个常量, 反向传播的时候梯度为〇, 最终导致梯度消失. 基于这些问题LSGAN采用最小二乘损失函数来代替原始GAN中的交叉熵损失函数. 最小二乘损失函数相较于容易饱和的交叉熵损失函数有一个优势, 即只在某一个点是饱和的. 最小二乘损失函数不仅骗过鉴别器, 而且还让生成器把距离决策边界比较远的样本拉向决策边界. 类似于等式( 3) , LSGAN[ 3 °14损失函数如下所示:mi nJ"(_D)=mi n0.5X^D( x)a]2+DD細0?5XE?z[D( G(z) )b]2(11)mi nJ( D)=mi n0.5X [D(G(z) )c]2( 12)GGz其中, D(:r) 表示鉴别器的输出、 G( z) 表示生成器生成的样本, z 表示服从某一分布的随机向量. 常数a、6分别是表示生成图像和真实图像的标记;c 是生成器为了让鉴别器判定生成的图像是真实数据而设定的一个阈值.因此, 与标准GAN目标函数不同的一点是, 最小二乘损失函数不仅仅对真实样本和生成的样本进行分类, 而且还迫使生成的样本数据更加靠近真实数据的分布. 我们总结LSGAN的优势如下, 首先是稳定了训练, 解决了标准GAN在训练过程中容易饱和的问题; 其次是通过惩罚远离鉴别器的决策边界的生成样本来改善生成图像的质量.2.2.2IntegralProbabi l i tyMetri c( IPM)IPM[3 6]是与散度相似的一种、 用来对两个分布之间的差异进行度量的一种方式, 并且在IPM中定义了属于某一个特殊函数类,的评价函数/. 在一个空间中XC7^, P(;() 是定义在X上的概率测度, 基于这个测度, 和 之间的IPM可以被定义为下边的形式:Mfe^( Pd^, Pg)= sup!EPd aaU)[f] EPg(a[/] | (13)在式(13) 中, 基于评价函数/的度量标准IPM决定了&和P 之间的差异的大小. 在这里评价函数可以用一个被 参数化的神经网络和激活函数^的乘积来表示. 如式(14) 所示:={ f(x)={v, vu( x))\ v^:Rm,zv(x): X^Rm}( 14)类似于F散度, 基于不同的评价函数就有IPM的不同的变体, 典型的性能比较好的变体有WassersteindistancemetricC3 1]fWMaxi mumMeanDiscrepancyC3 7]( MMD). 接下来, 分别对这两种距离度量方法进行详细地分析.首先对Wasserstei n 距离进行详细地讨论,WGAN[3 1]采用最优传输理论中Wasserstei n距离( 也称作Earth mover( EM) 距离) 来度量两个分布h和 之间的差异. 并且Wasserstei n距离被定义为如式( 15) 所示的形式:W( P,, Pda la)=mf 瓦(工, 3〇?t[¥y]( 15)7 ̄il(^,Pdata)其中II(圮, Pdala) 是九和fdala 组合起来的所有可能的联合分布的集合. 对于每一个联合分布y而言, 可以从联合分布中采样, 从而得到一个真实的样本_y和一个生成的样本:c, 并且求出这两个样本之间的距离z , 然后计算在联合分布7下的期望值E(^[k _y ]. 最后在所有可能的联合分布中求出期望值的下界, 而此下界就定义为Wasserstei n距离; 直观上可以将Wasserst ei n距离理解为在最优路径规划下的最小能量消耗. 由于直接对式(15) 进行求解是很困难的, WGAN利用Kantorovich Rubi nsteinduality 的技巧将式( 15) 转换成以下形式:, f*dala)=尺戸(/(工) ) (/(工) )fl<i(16)在式(16) 中sup表示的是一个上确界, /々表示的是评价函数必须满足々利普希茨( Lipschkz)连续性约束; 这里的Upschkz 连续性要求指的是,对于一个连续函数/施加一个限制, 并且存在一个常数&>〇 使得定义域内的任何两个元素:^和&都满足如式(17) :|f(xj )f(.x2)\<k\ xxx2\ ( 17)式(17) 中的々 称为是函数/的Lipschi tz 常数,实际上该连续性约束是为了限制连续型函数最大局31 2 计導机攀报: _1苹部变动的幅度, 式( 16>中的/函数可以甩一个用w参数化的、 最后一层裨经网絡不用非线性激话■'数的多层神罃两络九来实现< 其实就是鉴别器神经. 网络DV在限制权值w不通过某个范爾的条件下, 使得£=Et'P—[/(表)]£±乂[/〇*)]( 18)尽可能最大, 此时的£就是近似真i分布和生成分布之间的Wa_;r_i n距离, 翁卖际屢现前时傭聲:注意*原始OAN的鉴别器做的是一个真假二#类的任务? 所以最启一层着鼕添加一+非线性激活函数sigmoi d爾数: , 但是现在 器是近似拟合Wasserstein 距离, 属f回|3任务, 神逶网络的最后一层菲线性激活函数襄拿抵我们的陳.标是暨去最小化厶, 因此基于式(m), 可以设计出WGAN的损失函数如下所示:G^Loss,}Ex-ps[jL, t, x)](19)D的Loss'tEi*^[/?(又)] 瓦、/[/?心')];C20)録上, 采; 用Wasser sfei n躯离来度量生處分布I3,和真实分布 之间差异胁好处就是, 当^和之间没有雙_减#是:交: _狼小的时候, Wa热ers_i艇离不是一个常量!■. 其仍然可以度量两分布之间的■异, 所以很好地缓解了梯度消失的问题. 但是喪上述WGA. N: 中%粗暴的权重裁剪会导致如下问题;在对抗网络中鉴别器的Lo路是希望尽可能地拉尤寫假祥本之间的差距. 然后权: 霞裁剪的策略又独立地限劁每一个网络参数的取值范围, 在这样的情况下就是让所有的参数走向极端凑么取最大值蘩么取最小值5 导致参数值的分布很不均匀, 如?2(治所示. 针对这个问題, 学者们又用梯度惩罚项来代替WGAN中的权重裁剪的技巧, 逋过限制鉴到器的梯度不超过LLpsahi tz:常数為乘构造: 様愈: 藝罚项.(a) 梯度裁剪(b) 梯度惩罚SI 双<54;?[31 ]_被:重疸势布魂迸后的损失函数, 如式m) 所示tC=Ex.tg[(*)] ET,lot)]+AEa[ U山'1#l]a( 21)通过_2(h)¥賓以, 观赛_满足ILipschi ?約東的梯度惩S使得禆经网络的参数分布得更加均邻接下来对最大平均羞异[3 7](MMD) 做深入的讨论? 最大平均差异被槔出时最舞被用于双样本检测问M,用f判断苘个分布P和Q是■否一样,其基本思想是t对于所有以分布生成的祥本空间为输人的函数/, 如杲两个分布P和Q生成足够多的样本, 并里.这些祥本在涵数/卞值的均值刺等、 那么就可以认为这两个分布是词一个分布. 首先介绡一TF希尔伯特瘦间H, 希尔伯#空间是一个完备的线性空间,同时也是一个内积空间. 核6 袜定义为6避, l(、v, x) =M 对于任意一个给定的KJS核M?,?:V都拿_一个唯 雜爾翁空间"/:4麗!<frf其满足再生性, 因此也叫做再生核希尔伯特空间(ReprpducnigKiernelHilbertSpacf.RKHS) ; 再生性指: 札是一个希尔怕待空间, 并且其满足以下特性:</. ^; {*? a:l )>if). =/( x).V/(;(?(22)假设有一个满足P分布规律的数据集Xs=[4,…, <]和一个满足Q分布的数据集A”=[4,*u; ? ]; 并且存在一个RKHS和一个梭函数 :可以将_原始数据X从原始空间映射到再生核希尔猶特空间? 诨此MMD可以被表示为如式C23) :M(H)=—)rYY\ 丄4' im)逋过式03J可以着出, 其康理就是对每一个霧实祥本和生成的样本进行投影并求和、 利用和的大小对巧和P_之间的差异迸行璨量..类似于IPM? MMD#参数空间—牡灶達# 镦的, 同: 时?IPM爾框架下MMD也有以被瑪解, 此时其函数类綦7=队.2.2.3IPM度:#标准和F散度度量标准的比较对于F散度来讲, 在式⑷中被定义的、带有凸函数/的/散度涵数族, 当数据空间中的维数 逐渐增加的时候,/散度. 是很难被估计的, 并且两个分布的支撑集是没对齐的》^ 又会导致散度的值趋向于无穷大.. 尽管等式(&) 推导出了等式(4) 的变分下界,但是在实践中不能保证变分下界对真实散度的收紧性, 从而会导致不芷确、甚至鼻有偏的估计.Sripenimbuchjr^人[ 3 6]研:兹: 義_齊/-divergence族和IPM族之间唯一的褒集_暴TotalVariatkMiDistancef, 属此IPM族也棱?继樣/」divergeiic&||的缺点; 他们也证明了在使用独立同分布祥本的倩况下,IPM估计器是在收欽性方面吏加一敷.在实践应用中_, 吏多采用IPM度量标准来对真实分布和生成分布之间的差异进行度量. 与F散度度量标准相比.IPM度量标准有以下优点:( 1.)IPM度量标准不会受到数据遍潍的影响;緣佛肩: 4麟卵赛具纖興像生ft中餘麵研露雜 35 3 2: 期(2) 始终可似反映两分布之间的真实距离,即使是两分布的支撑集没有相应的交集,IPM也不会发散.2. 3GAN的模型结构員前芘对抗网络中處用最为广泛的两种神g网络结构分别是卷积神g两络结构和自动编码神经网络结构■基于卷积神经网络搭建的对抗网络^生成器由多层反卷积.网络晨构成, 而鉴别器由多层卷积网络层构成. DCGAN[ 3 S ]是首先采用该结构的模型4 其结构如图3所示同时该模猶也加入了批量正则化的技巧来帮助稳定GAN的训练; 由于DCGA.N良好的性能> 基于此网络猪梅提出了很多新的方法; 例如: :pix: 2pi: x[13]、 々ycl e-CJAS[[1 4]馨; : 同財: 受DC&Al^思想的启发>Dmuel 等人@使用递归神g.网络( RNN)去生成图像. 通过交眷对抗训练, DCGAN可以生成质量根:高的图像?綱*自动编码网络[4°], 如图4| 是一种甩于无监督学习的自重构神经两络, 并且嘗输人作为_标值, 甩自监督牵习方法来进軒训练.自重构的I[的是去学、习输入数据的高雄特征或者是压缩表示. VAE-GA.N[ 41 ]用鉴别器D来表示VAEM的重构损失. 从而可以结合变分自编码器和GAN苘者的优势. 去ft成高赓量的图像,最终该模型生成的图像要比单独用VAE或奢是单独用GAN生成的图像质量要好?aGAtF2 ]構ifi用Enco: de;r-Decoder结构来实现对抗网络中的生成器, 该结构中的Encoder, 输人是真实图片,输虚:是一个 讀码ilif与Enccder 无关的Dee; oder_: _输人一段给定编码, 输出是一张图片? 同时有一个鉴别器*其输人是顧像和隐编码组成的配对, 它讀荽去_断送个節对慕来自 Enccider 还裏Xteeoder? 该模型勒肩标就是让来自于Eneotfa配对的分布:P(i',s|)和来自于D&edde:r 配對的分布'QCr%之间的艇离越来遞小, 在: Bi-G_AN〔*2]中Encoder和就是一个互为逆运箅的过程.,从而窠好地实现重构.EBO AN[4?是一个由编码器、解码器和鉴别器三个部分组成的生成模SIs 其中鑒别器的作用晕判断解码器对输人酉像重构性的高低, 而编码器、解码器组成A. aferenco: der,壤ABtcKncoder提翁用,壽禽图Jf_行预训峯義.fi綱训靡好的Autsraeoxler_鲁: -租鉴别器两雄, 即可搭建该模型的对抗陶"络结构.ip-E(x)编码器E生成图像G(s〇鉴别器DA真图像X(a) VAE-GAIvP1的网络结构图4■自糖編與虛戚,#抗: 网繪采用卷积神经网络和转置卷积神经W络来搭建覺¥1司迸行一个很好的探索, 例如对图像进行属性编生成对抗网络是大多数人采用的方法. 如果想对隐变辑, 基于自动编码网络的GAN是一个最佳的选择.3 54 计 算机 学 报 2021年CGAN^47^Pix2pix^3^Text ure GAN[4 8]、 G2GAN[4 9], Bicycl e GAN[50]-Cont our2image[ 51 ]、SPADE[52]、PLDT[5 3]GAN[1Cl]、 WGAN[ 31 ]、 LeastsquareGAN[30], WGANGP[32]JAN[35],DCGAN[38]、 Unrol ledGAN[5 4]、Improved GAN[5 5]、InkrGAN[56]、LossSensit iveGAN「57」、 DTT^58 ]、UNIT[ 59 ]^ Self At tentionGAN[60]St ack GAN[6 1]、SS GAN[62]Dual GAN[6 3], TriangleGAN[64],St ar GAN[4 6]X〇mb〇 GAN[6 5],XGAN[66]、 LAP GAN[67]、LRGAN[6 8 ]、 SGAN[ 69 ]、2. 5 生成对抗网络的优势和劣势从上述讨论中可以知道, 在目前生成模型的各种方法中, 生成对抗网络相较于其他的方法有以下优势:(1)GAN通过一种间接的方式来对未知的分布进行建模, 从而避免无监督学习中难解的推断、 难解的归一化常数等问题; 所以GAN不需要引人下界来近似似然.(2)GAN可以并行地生成数据, 与自回归模型相比, GAN生成数据的速度比较快; 同时GAN生成的图像还比较清晰.( 3) 在理论上, 只要是可微分的函数都能够用于构建生成器和判别器, 因而GAN能够与深度神经网络结合来构建深度生成式模型.但是生成对抗网络也存在着如下劣势:(1) 可解释性比较差, 因为最终生成器学到的数据分布只是一个端到端的、 黑盒子一样的映射函数, 而且没有显式的表达式.(2) 在实际应用中GAN比较难以训练, 由于GAN需要交替训练生成器和鉴别器两个模块, 因此两者之间的优化需要很好地同步.(3) 可能发生模式崩溃的现象, 导致生成器学到的模式仅仅覆盖真实数据中的部分模式, 使得生成样本的多样性变低.( 4) 训练不稳定, 神经网络需要良好的初始化,否则可能找不到最优解, 导致学到的分布距离真实数据的分布仍然很远, 并且无法根据损失函数的值来判断模型的收敛性.3 基于GAN做图像生成的一般方法GAN在计算机视觉任务中应用最多的是图像生成, 各种模型可以按照是否有监督和直接法或是集成法的分类方式分为以下几类, 如表3 所示.表3 图像生成方法分类有监督无监督2.4 训练GAN存在的问题以及应对策略尽管GAN在某些方面取得了令人满意的效果,但是其在理论和实践中还是存在一些缺陷.在理论方面, 标准的对抗网络是用KL散度或者是JSD来度量真实数据分布和生成数据分布之间的差异. 由于这种度量方式在某些状态下是饱和的, 梯度消失的问题就会发生, 同时KL散度的不对称性使得对抗网络宁可丧失生成器生成模式的多样性, 也不愿丧失鉴别器的准确性, 最终导致模型的模式崩溃问题.在实践过程中, 对生成器生成图像质量的好坏的评估还没有一个统一的标准; 并且在训练对抗网络的过程中无法根据损失函数的值来判断模型是否收敛; 同时很难量化地判断生成器在什么样的条件下能够生成高质量的图像.为了更好地生成图像, 研究者们提出了相应的方法来解决上述在训练对抗网络中存在的问题. 比如采用替代损失函数的方法来改善梯度消失问题,Wasserstei nGAN提出用EM距离来替代标准GAN中的JSD.使用EM距离的优势在于, 即使是真实数据分布和生成数据分布不相交, 他也能很好地度量两者之间的差异. LSGAN用的另一种方法是使用均方损失替代标准GAN中的对数损失, 其目的是对距离决策边界较远的样本进行一个惩罚,使生成数据的分布更加接近于真实数据的分布.针对模式崩溃的问题, DRAGAN[44]采用梯度惩罚的方式来避免GAN的博弈达到一个局部平衡的状态, 极大地增强GAN的稳定性, 尽可能地减少模式崩溃问题的产生. Unrol l edGANs 在更新参数的时候不是仅仅用当前的梯度值, 而且是用前几次梯度值的加权和来对当前的参数值进行更新, 从而以此方法来预防模式崩溃的问题. Pac GAN[ 45 ]将多个属于同一类的样本进行打包, 然后传递给鉴别器,来减少模式崩溃现象的发生. 还有就是用集成的方法来处理模式崩溃的问题,一个GAN可能不足以有效地处理任务, 因此学者们就提出用多个连续GAN, 其中每一个GAN解决任务中的一小块问题.STARGAN[46]先独立地训练N对局部GAN, 然后基于局部GAN去训练全局GAN, 从而保证全局GAN生成模式的多样性. 在对抗网络的损失函数中加人感知正则化项, 则在一定的程度上可以改善生成图像的质量问题. 而对GAN生成图像质量的评估方法, 将在后边的章节中进行介绍.直接法集成法緣佛肩: 4麟卵赛具纖興像生ft中餘麵研露雜 35 5 2: 期本节将从:霞朦方法和魏鹿方法两个實商:来对基于GAS做菌像生成的方法做一个1C总, 并且最后对图像生成方法进行一个小结.3.1直接法如画ICa) 所示, 在: 这神■像 成方法中,, 对抗M络只有一个生成器和一个鉴别器, 生成器直接学习 个逼近真实数据分布的分布, 从学习到的分布中采样来生成样本. . 其中dcgan[3 S]是最为典型的一个模型,其结构己經被很多模型作为一个基准, 例如?lnf0-GAN[ 56 ],TTe3rt-t0-im'ag:e[ 7。]、ICGAN[ 7 1 ]等模型;DCGAN中生成器和鉴别器的模块结构如图6 所示,產成器的网络模块使用转置卷积批gEviJ化-ReLU激活函数? 而鉴别器的网络模块使用卷积-批量正姻化-LeakyReLU激活函致层? 这种方法设计#1赛现起来通. 常比辍寬隱(a) 直撒(b) 触法m§ 圈傷生成#餐直禱法和筆織■.輝ReLU激活函数 卷积批量正则化 批量正则化转置卷积 Leak-ReLU生成器 判别器图6 搭讀:DCGAl,]的网舉樓块3. 2 集成法如ag(b)所示, 集成方法与直接进行图|生成的方法不同, 集成方法模型的结构有以下几种形式:多个生成器.一个鉴別器、一个生成器多个鉴别器、多个生成器和多个盤别器. 集成方法的思想是去把视觉任务分成几个部分1然后每一个GAW去g成视觉任务的一部分, 比如: 可以用两个GAN去分别学习'图像的内容和属性、前輦和曹; 或者用多个GAN粗到细、由小到大地去生成图像, 而生成器之间的关系可以是迭代的, 也可以是M次递进的?SS-GAI#2 ]用了两个GA興来进行图像的生成,一个是'结构GAN, 用来根据随机向量Z生成表面法线贴图; 另一个是类型GAN,以表面法线贴西和随机噪声Z为输人来生成瓜图像? 该方:法首先生成图像的结构, 然舜基于虜像错构再生成犯图偉》结构GAW的实现方式采用和DCGAN—样的卷积模块, 而类型GAN在实现方式上稍敵有点不同. 类型GAN的生成器先、让其输人量Z和表面袪线贴图先分别痉过转瓮卷积层和卷积层的处理* 最后将两个M络的输出合为一个向量, 而合成后的向量作为类■親GAK生成器的输人. 类聲GAN的鉴别器以图像和图像表面法錢向量在通道屠面进行连接后的量作为输入. 在理想的情况下, 生成器生成的图像和真实图像应该有相同的表面法线贴图r基于这一想法,SfGAN用一个全卷积神羟网络来将生成图輟再转变成表.两法钱贴图, 并且銮f此表?法巍贴图构造一个重构损失作为拫失函数的一今疋则化项, 从而约東生成器学到的分布询真实数据的分布靠近.LRGAfip]的实现方法是使用不同的生成器去*成图像的前憙内容和背景内窖. 而使用一个鉴别器来对虜像进行判定^该模型通过实验证明了分别生成前景和曹景内容,然后合成清晰的围像是实. 现图像生成的一种#法, 综上可知?SS-GA.N模型和LR-GAN: 模型都是集成了两个生成器. 通过g级錯构的方式乘实翁歷像龜成;LAPGAN[6 7]是用多个生成器由祖到细地来生成图像, 底层的生威器以服从某一分布的随机向量作为输人, 并且输出?围像; 其他的生成器都执行以’下同样的功能s 用前边%成器输岀的图像和一-个随机噪声向量作为输人,输出&成面像的细节.该细节曹以鑛_如:斑生咸厲像中, 使得生成圓傳霉加的着晰;除了. 底鳥生成器外f其他生成器唯一的不同之处是输人和输出维数的大小不一#.SGA#W中集成了多种生成器, 底层的生成器以随机噪声询量为输人.输出低爱次特征向量I 而'中间层的生成器以低层次特征向量为输人, 输出霄层次特征向量i 猶层的生成器以高层次特征向量为输入,输出生成_像. 并且SGAN在目标函数中加人了条件损央项和熵摄失项★ 条件损失项可以帮助生成器有效地使甩来自上一顏的条件信息, 熵损: 失项可以最大化生成器输出的条件熵的_分下界s 这些绮東项的加人可以徂If地帮助生成器去生成图像.Stack-〇4#6 1]有两个生成器,. 第一个生成器以随机矂声歧羹Z和类标遂.C组成的向量作为输人, 输出是可K着出物体轮廓和模糊细节的模糊图像, 而第二个生成器以第一个3131 6 计導机攀报: _1苹成器生成的图像和随机噪声向量以及类标签作为输人, 然诗生成一个逼真的图像. 綜上可知, LAPGAN、SCJAN和Stack GAM都是集成了多个生成器, 以迭代的方式来实现图像的生成.与直揍法相比, 基于_成法来做图翁生成, 可以有效改善模式崩溃的问题, 可以实现多个域之间的转换r同时还可以实现特征分离; 但是基于集成法的模型训练起来会比较_难.3. 3图像生成方法小结禱于GAK的图像生成主襄考虑两个方面, 分别墓生成图像的质量和多#性. 用标准GAN生成的图像, 在质量和多样性方面存在着很多不足, 所以针对这西个问題, 稂多方法基于GAB做出J改进:(1) 通过替代目标函数来改善生成_镩的质覺s 例如r用EMD的钜离度暈方式来替代JSD或者是用均方损失函数替代对数损失涵数.( 2) 通过增加梯度惩罚项来改春生成图像的质?養, 该技巧不仗能缓*梯度消失或者是梯度惩罚的问题, 而且可以极大地增强GAN的稳定性, 尽可能地减少模式崩溃问: 癍. 类似的技巧还有谱归一化, 该技巧比梯慶惩窃吏加高效.(3) 通过辅助信惪来帮助改_生成图像的质?量, 例如类标签信息. 等,通过搭建處变量和观测数据之间的联系来改善生成图像的质量,比如: 苴倩息等,<在模型构建的时候, 使用批量正则化的技巧, 该技巧可以解决初始化差的问题, 可以彼坏原来的分布, 在一定的獲度上可以缓解过拟合.C6) ,通过集成的方式来改善模式崩溃的何题, 由于乘甩了多个生成器和判别器. 它们之间有很多信息可以共享从而W以提高生成器轚体的学;9能力.4 基于随机向量生成图像读方法的基本息想是用一个多层神逄网络来实_一个非线性映射, 诙映射的功能是翁一个服从某一分布的随机[%1映射为采样于服从某一分布的图像. 基于这样的思想; 本小节将从基于互信息的图像生成, 基于注窵力机制的图像生成, 以及基于单幅图像傲腹儀生成三个: 方朦乘If. 这一图俸生成的賞法迸行介绍.( 1)基于互信息的B像生成在标准的对杭网络中, 生成器的输人一般都是一段连续的单一的随机噪声向量: 这样的情况下输入向量通常会被生成器进行过度地耦合处理, 导致无法逋过控制输人向量的某些维度来控制生成数据的语义特征? 针对这一问题Jnfo-OAN通过加人互倉息: 正则化约束项来实现输入某些雄度的?可解释性*其樣型结构如图7 所示; 该方法人为地将输人向量限制为随机噪声_量和隐向量两个部分,这些_向量服从于某一先.验的连续的或者离散盼概率分布, 用以表示生成数据的不同特征维度^真实图像 生成图像生成器G隐賴C^)[ 随机噪声向歡图7Inf0-G八N的结构示意图互信息是一种用来度量一个随机变蠶中包含的关于另一个随机变量的信息量, 而读圈像生成方法Efe基于此度董方式来确定输出关于输人的倚息.營A而实现对输人向營弟些维度的可麵释性. 假设隐向量■为 而生戚器的输出为G W), 其中Z代_餘是输人尚量. 因此输人和输出的互信息: 可供義示为如下形式ICC; G(Z> C))=H(C)H(C| G(Z, C))(24)式(24)中的J表示苴信息, H表示计算熵 基于互信息的琯像生成方法的目标函数由对抗损失函数和2狺息约束项两个部分组成,可以写Jt是如下.形式:minm&xVAD^n)=Vm,D)-XKCf UCZ, 0)(ZS)GD该模谨的鉴别器t两个功能:一是辦别图儒是杏来自于真实数据分布*另一个是a图像中预溅一个维食与输人_向璧:相同的向 在基于互_息正则项的约束下,该方法?可以将隐向量中毎一维度代表: 的特怔養息学■出来因此读模塑对以很好地解释输入向量中的隐变量但是这种方法的可解释性仅仅局限在输人_最中人为添加的_变量的那一小块, 如果想对输入向量申所有维度代表的实际含义做出解释, 这一方法就不适用了.(2> 基于^意力机制的图像&成注纛力机制与人类对外箅善物的观察机制很类陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 35 72 期似, 当人类观察外界事物的时候,一般不会把事物当成一个整体去看, 往往倾向于根据需要选择性地去获取被观察事物的某些重要部分. 比如我们看到一个人的时候, 往往是先注意到这个人的脸, 然后再把不同区域的信息组合起来, 形成一个对被观察事物的整体印象. 因此注意力机制可以帮助模型对输人向量的每一个部分赋予不同的权值, 抽取出更加关键以及重要的信息, 使模型做出更加准确的判断, 同时不会对模型的计算和存储带来更大的开销.在传统的GAN中, 使用小的卷积核, 导致难以发现图像中的依赖关系, 使用大的卷积核, 就会导致丧失了计算的效率, 而注意力机制可以快速提取数据的重要特征, 因此在Self Attenti onGAN[ 6°]中引人了自注意力机制; 该机制的抽象数学模型如下, 假定特征向量是X, 首先该模型通过1 X1 的卷积分别对特征向量叉做处理, 从而得到/(:r) , g(:r) ,/i(:r)如果我们用 来表示网络的参数, 则/&) ,,/i(:r) 可以被表亦成式(26) :fix)—WfX^ gix)—Wgxy h(x)—Whx(26)通过式( 27) 来获得注意力权值:二 =fix. yg( xj)(27)expO")i i基于注意力权值, 进一步通过式(28) 可以得到注意力特征映射:N〇j=(xt )( 28)i i最后将式(28) 融合到特征向量X中就得到带注思力机制的特征映射: M+ 6?注意力机制可以将内部经验和外部感觉对齐,从而来增加对部分区域的观察精细度. 而自注意力机制是注意力机制的改进, 其减少了对外部信息的依赖, 更擅长捕捉数据或特征的内部相关性. 并且基于自注意力机制的对抗网络允许图像生成任务中使用注意力驱动的、 长距依赖模型, 并且自注意力机制是对正常卷积操作的一个补充, 全局信息也会被更好地利用去生成质量更好的图像.为了更好地探索基于对抗网络生成的图片究竟可以精细到什么样的程度, 基于Self Attenti onGAN改进的BigGAN被提出. 该模型通过以下措施来提高模型生成图像的质量和多样性:(1) 增大Batch.—个大的Batch可以让每个批次覆盖更多的内容, 从而为生成器和鉴别器两个网络提供更好的梯度.因此简单地增加Batch, 就可以实现性能上较好的提升, 同时还可以在更短的时间内训练出更好的模型.(2) 增大模型容量. 在合适的范围内通过增加每层网络的通道数来提高模型的容量.( 3) 共享嵌人. 将噪声向量Z等分成多块, 然后将其和条件标签C连接后一起送人到生成网络的各个BatchNorm层.(4) 分层潜在空间. 与传统模型直接将噪声向量Z嵌人生成网络初始层不同的是, BigGAN将噪声向量Z输人模型的多个层, 而不仅仅是初始层.( 5) 截断技巧. 在对先验分布Z采样的过程中,通过设置阈值的方式来截断Z的采样, 其中超出范围的值会被重新采样以落人要求的范围内, 该方法允许对样本多样性和保真度进行精细控制.( 6) 正交正则化. 该方法的目的是让生成网络的权重矩阵尽可能是一个正交矩阵, 这样最大的好处就是权重系数彼此之间的干扰会非常得低.在该模型设计过程中, 增加Batch 的大小会导致训练不稳定, 因此在模型中采用谱正则化的技巧来改善训练模型时候的稳定性, 从而抵消增加Batch 对训练稳定性的影响. 最终这项工作表明通过上述技巧可以很好地改善生成网络的性能, 但是该图像生成方法对计算力的要求很高.(3) 基于单幅图像做图像生成单幅图像中通常具有足够内部统计信息, 可以使得网络学习到一个强大的生成模型. 基于这样的思想, SmGAN[ 7 2 ]提出从单幅自然图像中去学习一个非条件生成模型, 该模型可以以任意尺寸生成各种高质量的图像, 同时也能够处理包含复杂结构和纹理的普通自然图像. 如图8 所示, 与常规GAN不同的是, 该模型使用的训练样本是单幅图像不同尺度下采样的图像, 而不是数据集中的整个图像样本.该模型选择处理更一般的自然图像, 使得模型具有生成纹理以外的其他功能. 为了更好地捕捉图像中目标的几何形状、位置信息、 以及细节信息和纹理信息等图像属性, SmGAN[7 2]采用了层级结构的对抗网络, 由 N对生成器{ GN,…, G。} 和鉴别器,…, D。 } 组成, 如图8 所示. 其中, 每个生成器负责生成不同尺度的图像, 而相应的每个鉴别器负责捕捉图像不同尺度的分布. 从最粗到最细顺序的训练该模型的多尺度结构, 当每个GAN被训练好以后, 其参数就会被固定. 同时, 模型中第N个GAN的损失函数由对抗损失Ladv和重建损失 两个部分组成, 如式(29) 所示.31 8 计導机攀报: _1苹mi nmaxLaSvtCGn §L式(33》中的a愚趨参截, 乂yj 翁 , 抑: P5* ;V4抗损失采用WGAM-GP损失,重崖损失是: 为了确保使模型存在可以生成原始菌像怎的特定噪声時谱集令, 如式(30>所示.Lr, G, C〇:? PT+i)t) ( 20)式(3Q)中 表示上个尺度生成图像上采祥后的结果A指的綦尺度iV 下的真龛虜像? 这项工作不仅仅具有生成纹理的能力, 而且还具有为复杂自然'图像生成各种遥禽#本的能力. _此. 其为多种图像处埋任务提供了: 真強太的工具, 但棊该方法在语义多#性方面存在固有的限制.5 基于图像转换生成图像在这一节* 图像到图像的转换将被从有监督和束的厨像转换、基于辅助分类器的?镩转换、基于特征分离的图像转换、'图像多域之向的转换.5. 1 基于有监督方式的图像转换Pi x2pi x可以将一种类型的图像转换到另一种类型, 例如: 黑夜转成白天、 猶素描图转成猶的真实?片等, 如图9 所示. 用于构建诙隹型‘生成器的樂构是编码器-解码器网■络结构的一种—U-Ne#3 ]网络, 并且在网络中允许编码器到对称解码器之间的跳跃连接,.基于这样的操作可'以共享一些低层的信息>由于数据采用成对的fl像, Pix2Pi x的目标画数被读计成两个部分:一个是对抗损失函数r第二个晕A正则化项即生成商像与Groundtruth翁差的儀;由于心正则化使得生成的图像比较模糊,因此采用的是AB则化项* 该模型的目*涵数如式U1.) 所示:语义分割图转换到街景图 语义分割图转换到建筑正视图黑白图转换到彩色图104111MillM卫星遥感图转换到平面图日景图转换到夜景图图9 图像到图像转换示意图[1 3 :轮廓图转换成实物照片Gtarge t=argmi nmaxlEx,y[_logD(x,y)^\+GDUll 〇sI>C3£* &(句轉:)] +AliaCG)]t31)L代表簡是厶息则化项^其实现方式如式炫幻*:(G)=E,.3, . =[Ujy—G(x#)](32.)_式众2) 中_v代纖露实图像V代泰養:标藥; ?_彩色图像: G表示生成器;D表示鉴别器. 该模^4 htU1!L样_^N-.t 0 ^N-l1j ̄[1 mn纊一fA图8Sin-GAN模型的多尺度网络架构Tn?Dn)+〇Lr ec (Gw)( 29) 无监督两个方面来进行介绍, 而无监督方面, 将从以下四个方面来进行讨论, 分别是: 基于自重构损失约DN,;a .zot:藝螈写S■鹚緣佛肩: 4麟卵赛具纖興像生ft中餘麵研露雜 35 9 2: 期藝在训练过程中鉴别器的输人不是整幅图像, 而是将整幅图像分割后的很多小块用小块图像训练该模型, 可以让模型根好地去捕捉局部细节或者是商频信息, 同时正则化可以让摟複更好地学到低频信息.? 虽然这种方法可以生成高廣鸶的图?像, 但甚唯一的缺点就是必须使用成对的图像.Pi x2pi xHD誠在Pix2pi?c 獏觀的藝础之上, 基于实例分割fi像,使用多尺度的生成器以及鉴别器來生成高分辨率的菌像. 该模M的生成器由 G和G两个部分组成s,其中仏是一个端到端的U」Net网络结构 被分割成两个部分. 应的一部分甩于提取特征, 并且将该特征和Gi 输出B的前一S特征进行相加融貪. 最后将融'費后的特征作为&另一部分的输人来生成高分辨率的M輟, 而该模型的鉴别器暴一个多尺度鉴别器, 判别的三个尺度分别梟: 原图V原圈"的1/2降采样、原悤的1/4 降采祥; #且对最il的判别结果取平均作为.最终的结果. 多尽度判别的主要目的是让模塑更好地保持内容一敖性, 而细节性的东西则由网铬自己去学* 该模型的损失函数除了对抗损失國数以外, 还加人了由待征提取器对產威祥本和真实样本椹取特征后构建_特征西靡:损失. 同时该模型生成图像多样性的方法不匣于Pi xZpi x模灌1其在模型的输人端加人类标.签信息,通过学习隐变童的方式来这到控制?像颜色、 致理风格倩息的旨的, 从而来增加生成样本的多样性.PLDT[ 5 3 ]遛过在对抗钶络的基础上增加一个用来判断来@不枏_: 域的图像对是否相关的盤别器来实现有监督的图像到图像转换, 该? 鉴别器能够约束獲塑去保■ 爵象成?像翁Orcsmd-truth題像之间的一致性邊模型的生成器来用基乎卷积的编码-解码结构网络来实现, 而鉴别器都是采用全卷积网络来实现. 利用该模讓来做图像到图像的转换, 在保持不相词域中柑翁图像纹難一致牲的同时', 也可:以修放題像中物体的形状.基于有监膂的方式做图像生成. 就是要将模型的输人和输出联系起来.. 而逢于这种联系就可以构逄一.个相歲的约束项,在进行网络参数更新的时候,就可以约束M络拟合的分布向着真实数据的分布逼'近; 同时, 以有监督方式應戚的图像的质量一般都比截好.5. 2 基于无监督方式的图像转换在无监督学习方法中有很多技巧被處用到了图像到图像转换的视觉任务中, 例如: 自重构损失、 辅助分类器、距离约東、 以及多域之间的图像转换等等; 速一小节将对这. 些方法进行深人地讨论.(1) 基宁_童构掼失约束的图像转换g童构损宍也被称为是自我一致性约束.,目的是鋒过一个游环变换以后让输出和输人保持一發性?如图1,0 所示,:在: Gfde GA:N[ 1 4]中會2 个愚戚器, 分础是仏3, 、G3,_T 和2 个鉴荆器k分.劍是D_T 、 巧;其中 生成器的目的是将源域X中的图像转换到目标域 而G*执行相反的变换; 而鉴别器£^和D,预测输人的图像是否薦于相应的域.雷:1〇德环A成对抗网聲?3]对于GIV 和D, 组成的对抗网络的损失函数如式(33) 所示:Cgan CGxy—-^y ̄Ijjj.jjijjH-属t=-#da ta( vi[log[1i?yflspCs:1?.)]](33)而由61?和1^銀成的对抗网络的损失函数可以表亦戚式 ::CsMii&tXs Dx')=C**2'DxC&xCy) ) )]&4)同时, 在 模型中ft熏构损失是通过最小化霊构邁差来矣现的! 具体指将一_图儳叉转换到另一个域乃再将#到的结果从Y域民向转换到叉域后得到文, 而用X和文做差的r.模构建重构误差, 上述过歷如卞: 拓'&:)(C?j*―):)免息霞重:构误差的实现方式如式(35)所示:A?c^GiyjGVII=E:xr - 1'—Chx(Gxy(J-'i1J i]+En[b (_V>3ua5)最终将上述三种损失函数组合起来可以得到Cyde GAN的损失S数, 如式(360所示:jCCi ^yy Gjtc' Dx f D^)—jCgan(Gxi-<I)y):  ̄b£?篇&?s* +A(36)在式CSS?中,A, 綦一个超参数》其大小可以决定在训练过程中起到的作用的大小. 模型最终的目标是优化式(37h麵*, t^=argmi nmax£(G攀復《, !>*, £0(甚7)Gxy, GyxDY, DXDmdGAW651也采用了g重构掼失约東项其模型架构采用了和Cycle-GAN—样的结构, 伹是其目标涵数用的是.式(3幻所示的最小二乘损失涵数, 隹训练过程中最小二乘损失函数在稽定训练和擁决梯36 0 计導机攀报: _1苹度消失问题上有一定的优势.^-t-SRSEiXGt.f ^ Dy)—^y ̄fd ata,3〇1)-]+艮、#d‘,[DY(GA-Y( x))2](58)DmJ-GAN在训:綵吏Jlf鉴别器参数的时候不仅仅用爾前生成播生成的酉像, 而且还会用到以前生成器生成的图像, 有点类似fUnrol l edGAN[ 4S3的训练桊略, 这种技巧在一定的賴虞上可以缓解模式崩_的问龜.虽熬甚于自重构規失的无监 的廚像转换樓型可場生處富质量的图像, 値:ft柑樣宁Pi x2|Ji x辱有监督的图像转换模型含成的图像还是有点模糊管逋过实验.证明了基于本成对的图像和自重构损失可以生成质量比较好的樹像, 但是在实际中该方法并不是适用于所有的情况. 野菌像转换中芽在几何转换的时候, 该方法的效果会变的较 数摒集中的图像是不成对的或.者是不同凤格的情况下_自熏构损失约東的技巧基一个比较好的选#.(2) 碁于辅助分类器的围像转换儀:#錄是通过在猶N模質结构前隐養:间中增加: 更多的网络銷■构, 并且在: 目标爾数中增加相应的约束项来提高生成图像的廣量和增加生成面像的多样性. 在ACGAN[ 1 7],, 如图11(a), 鉴别器不仅仅判别输人图像是来鳥于生成数据的分布述是来自于真实数据分布. 而且还. 会对输人團像的类别做一个预1则? 鉴财雜会给出域概率分布和类标签概卓分布,[P(S| X), P(CI X) ]=D( X); 而该模型的_标函数篆」I L;..翻器D类标SC随机噪巧&] 量Z(a)ACGAN?的网络结构真]真]同 [g1签别r鉴廳aft生成图如蜂g实图像X-生成惠G机噪声向量Z(b)D2GAN?的网络结构图1 1 辅助分養:讀抗两讀有两个鄧分:一部分是域损失函数LS h另一部分是类謂失函数Lc, 如式(S9)和W0)所示sL¥=E[l agP(S=real| +E[l agP(S=fakeI XrieQ(S#)Lc=E[l ogP(C=cUU]+E[l ogP(C=cI X^)]t4〇 )1标函数中的A:丨 和XIs1?分别表示真实数据祥本和生成数据、样本., 而C■ 表示样本的类别标签; 在该模M中, D的目标 最太化込+LC, 而〇的目标是最大化 基于这样的策略, 该樓型不仅仅可以提高生成图像的质量, 而且还能够稳定GAN,的训霖.DfGAN[1 6], 如ft11(b), 与标_GAM本減的暴, D2GAIf1 6]墓宁集成 来构建樓當的架构, 霞模型有两个鉴别器, 这两个鉴别器仍然是与一个生成器进行极小极大的博弈, 其中一今鉴别器-会绐符合?分布数据祥本畜的概率值,而另一个则祖反4亥模型.的生成器要同时欺骗两个鉴别器? 理论分析表明, 优化D2GAN的生成雜可以让原始数摒分布和生成数据分布之间的KL散度和反KL散度同时最小化,从而有效地避免模式崩溃的问题>该模型的目标函数如式(41)所示:mi nmax. Da)=a+GD-y> 〇2[ log!?!CO(kS+Ef^46 M[—+|JXE£-#u. [l Qg-Di( G(?))]til)镓目标函数中的公&>和IHGk))表示鉴别器萁输人:分瓶为真 和坐成样本下的输出; 中超参数《,/? 的取值.笵围是((M], 超参数的目的有两个, 第一个是稳定GAN的训练.,ft于两个鉴别器的输出都是正的. 认(GC?): )和 可能会变箱比l〇:gI7i fe3 和l 〇:gA:(G(球')大; ;《_:终可能_晌攀霉的稳定性. 为了克服这个间题/可以降低a,/? 的值. 第二个貝的就是控制KL散度和gKL散度对优化的影垧. 与标准GAN—样, 通过交替对抗训练来对D2GAN进行训藤综上可知, 基于辅助分类器的方法来做■像4成是通迓增加阿络结构的功能或者是集成更多的鉴别器等方法来实现的? 虽然基于此方法可以生成高质邐的图像, 但是带标签的数据在实际中是很难获.取到的, 同时此方法可以有效地避免模式崩溃的丨句题,《3>碁于特征分离的图像转换在无监督学习中, 因为缺乏对齐的、成对的训练緣佛肩: 4麟卵赛具纖興像生ft中餘麵研露雜 K1 2: 期图像* 所以研究者们就提出通过特征分离的技巧来实现两个域之间的图像转换, 特征分离的基本思想是在隐空间中将圏像的内容和属性分另学习, 然后将图像的属性■和内容任意钽合来生成带有期望:属性■的■像.DRIT[ 7?構型提出基于分离辆(' Dismit紐gkdRepresentati on)的方濃豪做图像转换, 如麗12 所示. 诙方法将图像嵌人到两个空间:一个是域不变的内#空间,另一个是特定域的属性空间▲ 该模型逋过编码器从给窣的输入图輟中瘥取內容特征和薦性特征. 如图12所示该模型的输人来自两个不相同域的不同图像 该模型首先通过编妈器来分别提取两幅图像的内容特征4=钇, 属性特征拉旧=玛; ■后交换两幅图像的屬性编码, 将(疋,坞)和(埤, 拉} 作为生成器&, G,, 的输人, 假定生成器的输出分别为 , 基于这些生成的图像, 再次用编码器提取内容特怔4=£;:K和属性特征<:二=K, 然后像前边一样衮换两幅图像的屬性待征, 将得到的总的特征向:*作为生成器 G,的输人,生成器的输出暴X'; 最煞的期隻是输出的图像和该模型输人的图像是一致的, 即X=X%Y=f; 由于 型中会将一个域中薦像的内容表示和另一个域中樹像的属性拿示组合起来, 诱模遒基于此提出了一个?循坏一致性约束, 为了执行此约處, 将:#実现为式(4i)s:图II: 特征分灘:读窻: 图[7?4ic(G*?E%.Ecy.Ei, Ep=E..3,[ G^ElSv), £:(??-Ah+GjE;( u)-yK]( 42)?=O,(EJCz^).g:fej# G4MCu), Eitv) )生成器不仅仅可以实现不同域图像时属性交换, 而且还能暴于一幅图像的内容特征和属性特怔熏构出廣始的图像, 这一约朿可.以通过式(4幻来实现:£r=Es.3,[ aiEifx), E:ix} )XI L+(EpCaO, 抝0>)—F]k](43)由于不IS域中图片的内睿倩息不包含特征信息, 所以应谏是不可区分的; 在这祥的前提下, 两个内容编码器的最后一层网絡的参数處该共享. 保证内容分布一致.同时两生成器第一层网络参数也要共享, 并且还得让内容鉴别器!>'辨别不出两个内容特征是遽于哪一类. 这一目标通过在目标函数中加人如式(W)所示的损失项实现?E,Tyl 〇gDe{El(x)')+yl ogCl-De{E| fe))) 1+EjylogD^£;(;y3 )+yl ogClDC( E:(^1)'<4:i)为了在测试的时候迸行随机采样, 可以通过在目标画数中加人一个KL散度约束项来让属性表示向量逼近一个先验高斯分布; 该约東项的实现方式如式(4S.)所CBt=E Ipm[JTW,1))](?3为了实现图像和隐. 变量空间的可逆映射, 该模型通过在目标函数中加人隐变量回归损失 约東项来实现. 如果从某一个高斯先验分布中随机采样一个隐向量z 作为属性特征向量.必须能够用'式(祕)寒现重麴它.z’=E(G5CE|Ca*),zV)jV=勾 £珥(: W?z))(46)与标准GAN—样, 诱模型坯有一个用丰判断生成图像是来S宁哪个域的域对抗损失项ilfT"; 所以该模型的损失函数由内容对抗损失、交叉循环损失、A班则化项、域对魏损失、一■个对噪声的约東項和隐变釐回归摘'夹组成, ,其形式如式(47) 所示:£=mi nmax[arrenl£:f?l+lf£f+afi:f+G, ^D, DC)domain/* domainI )l ate nt l ate nt| )r ̄I(Aadv>〇adv\ AiL,i ̄TAklLkL」^其中A是遛参数用乘控制每一项的重要性. 虽然賓以通过这种方法来实现图像域的转换? 但: 是当_像之间的域有很大的塞别的时候.4亥方法实现的效果不是很好,_时由于训练数据量的限制;导致属性空间不能被完全?覆盖. 同时该模型的目标通数比较复杂, 不好训练; 当图像域之间的差别不是很太的时36 2 计導机攀报: _1苹候; 基于此方法来做圈像转换是一个不错的选择.(4) 多域图像之间的转换之前讨论的擦型^大多都是在: 两个域之间进行转换圈像. 如果想要在多个域之甸相瓦转换? 就必须在每两个域之间单独训练一个对抗网络, 然旅这样做的敏率很低, 而且每次训绛特别的耗时?为了解决这一问题, Star-GAN[ 4H使用一个.生成器来实现域之间的相3转換. 考标准每AN不同的jfe用图像和目标域的类标签作为输人, 将输人图像转换到*类标签指明的域词时允许该模霍在具有不相同域的多个数据集上进行训练, 为了预测生成圈"像所在的域? 类似于ACGAMffl、 DAAC[7 6], 该模塑的鉴别器增加了辅助分类摇, 用來顸测输入图像的域, 也就是说, 鉴别器不仅仅粟判断输人_像是生成图像还是;寫实图像. 而且还得输出域标签的概率分窜sD:HH* Dds(jt)1■? 焉了_樣產遞的菌偉不同于真实的图像, 该模型采用如式( 48) 所示的对撤损負袁CMy=E_t[l og13^(x) ][l og(l UsW(G(jrse)) ]働其中G〇r, 岭表示生成器基于输人图像¥和目标域标聲f 生成的图像.同时为了将输人图像转换后的围像分类到陳.标域c 中. 该模型在目标函数中增加了一个域分类损失项; 并且将读损失分'为了真賓图像的域分类损失 利生成图像的域分类损失这两个损失函数分别被定义为E,. / [l og^I ?)](49)C(k=E?. c [l ogDc l s C);I( 50)其中DPl,cyui表示鉴. 别器输出的域标签的概卓分布. 通过最小化£1,氅别器学着去糌真实菌像分类到相应的?始域Y!生成器去最小化£i, 使傳生成的图像被分类到貝标域、 c训_獻不是成对的图像, 因此模型使用糖环一致性损失 来保证生成題像和输入菌像:内容上的一致性.模型复杂度—E*.,. /[| | M—G(S(jr,c')i]:(: S1 )最终优化生成器和鉴别器的目标函数可以被写成如式(S2:)和(6B).*Cp=^1*C%(52)^0I ^g Is> ^啦I A獅(53)其中, At.l s 和‘梟'控制域分类.损失和■重'构损失重要性的超参数; 该模型在人脸属性转换中取得了很好的敏乗‘采用多域面像转换的模型, 可以解决用一对一图像转换模型训练低效和训'练效果有限的问题r甩来做多域图像转换的模型, 可以利用其他领. 域的数据来增强模型的泛化能力. 从雨可以生成威惫吏高的图像, 同: 时其扩麗性也比较好.6 生成图像质量和多样性的评估方法在目前的研究中. 对生成圈像的质量进行合理地评估主要是从定性评估和定量评估两个方面进行. 定性的评估一般在众包平台靠人完成; 而定霪的评估方St有In?ptie.nS*6: fe、 FrfehetInceptioii: DismnaivMo:deSe〇re_;|f漢. 定性翁评祜方:式翁在这―节首先被讨论.6. 1 定性评估该方法主要还是掌人的眼晴来进行判断.一般的做法是将.寘实■像和生成图像对上传到众包乎台上让人来判断图像的真假, 并且靖出甫者的相似鞋度, 最后根据打分的结果统计一个最终的措标*在实践中由于人的主观性是很强的,每个人的标准是不一致的, 导致定性评估不是一个通用的标准; 视觉检查在评估一个樓型对数据的拟合?度时,在低维度数据的情况下可以工作#很好^但是在高维度数磨的情况下, 这种直觉性可能会导致谋导? 如菌'13鮮班, 農标r隹CAN爾巔近BIfiOAN稿處擧构的变化, 以及生成圏像的结果乘着, 圈像生成模型质量和多样性浅深标准GAN▼全卷积神经网络金字塔式的神经网络结构转置卷积神经网络SAGANBIGGAN鉴别器采用自编码结构渐进式神经网络结构自注意力卷积神经网络生成器釆用正交正则化更深的网络, 更大Batch20142019低图13 生成图像质量和多样性, 以及模型复杂度的变化流图[ 77 ]陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 36 32 期的复杂度和计算量在不断地增加; 同时, 生成图像的逼真度越来越好, 多样性也越来越好.6. 2 定量评估(1)Incepti onscoreIncepti onscore[7 8](IS) 是一种用类概率分布来对生成图像进行评估的方法. 诙方法使用一个预先在ImageNet 数据集上训练的Incepti onV3 网络, 然后以生成的图像:r 作为输人, 并且输出 如果一幅生成图像的质量越好, 那条件概率分布Myk)的熵就越低, 也就意味着分类器以很高的置信度将图像分到某一类. 生成器生成的图像应诙具有多样性, 因此边缘分布>(>〇l ¥=G(2; ) ) d2; 应诙有很高的熵; 基于这样的条件,IS可以通过式(54) 来计算:IS二exp(£^?g⑴DKL(.p(. yI a:) p(. y) )( 54)式( 54) 中的E表示计算期望值, Dn表示计算两分布之间的KL散度; Luci c 等人?指出Incepti ons cor e对类标签的先验分布和距离的度量方式都是不敏感的; 由于生成模型只需在每一个类中生成一个质量很好的图像就可以得到高的IS值, 因此该方法也面临无法判别模式崩溃的问题. 并且IS可以展现出生成图像的质量和多样性之间的合理关联, 所以该评估指标在实践应用中被广泛采用.如表4所示, 基于ImageNET数据集和CIFAR10数据集, 用定量评估指标Incepti onScore 对多个模型生成的图像的质量和多样性进行了定量计算.可以发现BigGAN模型是当前性能最好的模型, 但是通过比较也发现, 该评估指标并不适合评估与ImageNET数据集差别较大的图像数据.表4 定量指标Inceptionscore下图像生成模型的实验结果数据集I mageNET128 X128CIFAR10模型ACGANProject ionDiscriminat orSAGANS3GANBigGANBigGANDEEPACGANBEGANAuto GANBigGANDCGANPGGANSGANI mprovedGANIncept ionScore( IS)总的来讲,Incepti onScore 是用来衡量生成模型个体特征和整体特征的方法. 个体特征指生成的图像要清晰, 质量要好. 整体特征指生成的图像要有多样性, 即使他们属于同一类别, 他们的输出的向量还是应该有差别.(2)FrechetIncepti onDi stanceFrfechetIncepti onDistance[ 8 ( ) ]( FID) 的基本思想是用Incepti on 网络的卷积特征层作为一个特征函数p并且用特征函数将真实数据分布尺和生成数据分布&建模为两个多元高斯随机变量. 这样就可以计算多元高斯分布的均值&,&和方差基于这些信息, 生成图像的质量可以通过式(55: ^由两个高斯分布之间的Fr6chet 距离来计算.FID(X, G)=^ ^ \+TrQ]+S2( 2S)1)(55)FID度量方式的思想和人类判^是一致的, 该评价指标值越小, 表示生成的图像越接近真实图像, 生成的图片质量越好. FID和生成图像的质量之间有很强的负相关性; 该度量方式的优势在于其对噪声不是很敏感, 而且可以检测出类内的模式崩溃的问题. 如表5 所示, 基于ImageNE了数据集和CIFAR10数据集, 对一些图像生成模型在FID下的性能进行了汇总. 通过分析和比较, 可以发现BigGANDEEP模型在生成图像的质量和多样性方面都是最好的.表5 定量指标FID下图像生成模型的实验结果数据集SIFIDCIFAR 10ImageNET128 X128WGANGPWGANGP + TTURRSGANGPSNGANSDISTGANAuto GANProjectionDiscriminat orSAGANS3GANBigGANBigGANDEEP( 3)ModeScoreModeScore[ 8 1 ]可以看成是Incepti onscore的一个改进版本, 其被定义为如下形式:MS( Pg)二eE文??[ KL(fiM(yy) ]gg(56)其中知(, U) dPr 是真实数据分布中样本的边缘标签分布; 与IS 不同的是, ModeScore 可以通过KL(^M(_y) bM(_y〇) 测量真实数据分布^和生成数据分布 之间的非相似性. 由于该模型是基于IS的一种评估指标, 因此其沿袭了IS的固有缺陷,一些简单的扰动就有可能导致彻底地欺骗该3 64 计 算机 学 报 2021年评估指标, 从到导致该评估该方法也无法判别模式崩溃的问题.(4) 1 最近邻双样本检验在双样本检验中,1 最近邻分类器被使用去评估两个分布是否完全相同; 给定两个样本集, 分别是真实数据样本集民?P:! 和生成数据样本集S,?,并且将样本集民全部标注为正样本, 而样本集S, 全部被标注为负样本. 基于正负样本集, 可以训练一个1 最近邻分类器, 并且可以计算1 最近邻分类器的留l( LOO) 准确率. 此准确率是一个统计量,当样本的数量足够大的时候, 并且两个数据集的分布是一致的时候, 该留1 准确率的值应该是〇.5; 当生成器学到的数据分布圮过拟合真实数据分布P. 时, 留1 准确率的值应该小于〇.5; 反之则该值大于0.5.该评估方法在理论上存在一个极端的情况, 如果生成器仅仅是简单地记住真实数据集民中的每一个样本, 并且可以精确地重新生成每一个样本的时候, 导致民中的每一个样本在、中都有一个距离为〇 的最近邻, 所以LOO准确率将变为0; 原则上分类器可以采用任意的二分类器, 但是该方法只考虑1 NN分类器, 因为该分类器不需要特殊的训练,并且只有很少需要调整的超参数.模式崩溃问题出现时, 真实图像和生成图像的主要最近邻都是生成的图像; 由于真实数据分布的模式通常都可以被生成器捕捉, 就会导致民中大多数真实样本的周围都是生成的样本, 这就会导致较低的LOO准确率. 而生成样本倾向于聚集到少量的模式中心, 而这些模式一般都是相同类别的生成样本包围, 因此会导致较高的LOO准确率. 所以1 最近邻双样本检验的评估方式在保证可以很好地鉴别真与假的同时, 还可以很好地鉴别模式崩溃的问题, 并且该方法有很高的计算效率.6. 3 评估方法小结(1) 尽管上述评估方法在不同的任务中展现了有效性, 但是在什么样的场景用什么样的评估方法或者是在什么样的场景下用那个评估方法容易导致误解目前是不清晰的;一种评估方式是否合适, 只有在实际应用的上下文中才能知晓.(2) 不同的评估方法适合于不同的模型, 所以根据自己的任务选择与任务相匹配的评估方式相当重要.(3) 目前的评估方式都是基于样本来度量的,大多数现有的方法都试图展现其与人类评估的相关性来证明自身的正确性. 但是人往往只注重图像的质量, 而会忽视对于无监督学习很重要的整体分布特征, 用人来做评估评估还容易受主观因素的影响,因此人的评估是有偏的. 所以不要以人的标准来看图像. 在本小节最后, 将通过表6 对上述四种评估方式做一个汇总和比较.表6 评估标准的比较评估方法 优点 缺点InceptionscoreMo deScore可以很好地展现质量和多样性之间的关联无法检测到过拟合和模式崩溃的问题; 对扰动比较敏感; 不能用于和I mageNET差别比较大的数据集FrechetIncept ionDist ance(FID)判别力、 鲁棒性、 效率方面表现良好无法捕捉细微的变化;无法断定髙的FIS值是由什么原因导致的;1最近邻双样本检验判别力好; 鲁棒性强; 对模式崩溃敏感; 计算效率高7 图像生成的应用基于生成对抗网络强大的隐式建模能力, 目前可以生成十分清晰的图像, 而且在实践过程中不需要知道真实样本数据的显式分布, 同时也不需要假设更多的数学条件. 这些优势使得基于对抗网络的图像生成可以被应用到很多学术和工程领域.( 1) 小样本问题在目前的工作中, 深度学习的良好表现很大程度上依赖于大的数据量和计算力的提高. 但是很多实际的项目难以有充足的数据来完成任务, 而要保证很好地完成任务, 就得必须寻找很多的数据或者是用无监督学习的其他方法来完成.目前比较常用的方法是在已有的数据上, 用几何变换类方法和颜色变换类方法来获取更多的数据, 但是这种方法没有实质性的增加数据. 而基于GAN的图像生成方法是解决这一问题的一个很好的思路. 通过图像生成的方式可以生成与真实数据分布一致的很多样本, 对小样本集进行一个扩充, 然后将混合样本集作为其他视觉任务的数据集, 从而达到增强模型学习效果的目的.( 2) 数据类别不平衡数据类别不平衡指的是数据集中各个类别的样本数量有很大的差别.目前针对这一问题比较常用的方法是随机采样, 该方法从数据角度出发来解决这一问题. 随机采样又分为上采样和下采样, 上采样方法指从少数类的样本中进行随机采样来增加新的陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 36 52 期样本, 而下采样方法是从多数类样本中随机选择少量样本, 再合并原有少数类样本作为新的训练数据集. 但是如果采用上采样的方法, 上采样后的数据集中会反复出现一些样本, 训练出来的模型会有一定的过拟合; 而下采样的缺点是最终的训练集丢失了数据, 模型只学到了总体模式的一部分. 而基于图像生成的方法来解决数据类别不平衡, 则可以避免上述缺点, 更好地扩充数量少的数据.(3) 超分辨率基于图像生成能够以低分辨率图像为输人, 然后输出带有清晰细节信息的超分辨率图像. SRGAN采用基于残差块构建的生成器和基于全卷积网络构建的鉴别器来做单幅图像的超分辨率. 该模型的损失函数除了对抗损失外, 还组合了像素级别的MSE损失、感知损失和正则化损失, 并且该模型可以生成质量很好的图像.(4) 目标检测和跟踪中的应用受益于图像生成在超分辨率领域中的应用, 在目标检测任务中, 对一幅图像中的小目标进行检测经常会遇到目标对象是低分辨率的情况.因此, Li等人[ 8 2 ]试着将低分辨率的小物体转换成高分辨率的大物体, 从而提高物体的可判别性; 在该模型中鉴别器被分成了两个部分: 对抗部分和感知部分. 对抗部分的作用是与生成网络进行对抗训练, 使得生成网络可以是生成高分辨率大尺度的目标; 而感知部分的作用是确保生成的大尺度目标对检测任务是有用的. Wang等人[ 8 3]提出通过对抗网络生成带有遮挡和变形的图片样本来训练检测网络, 从而提高检测网络的性能.由于基于生成对抗网络做图像生成可以保持图像的细节纹理特征. 因此, Orest 等人[84]提出Debl urGAN来实现对运动图像的去模糊化.图像模糊是视觉任务中经常遇到的一个问题, 比如: 图像数据采集过程中由于物体运动导致的模糊, 目标跟踪中相机的运动导致的模糊等. 而基于Debl urGAN的去模糊方法则为处理模糊问题提供了一个很好的途径.同时基于生成对抗网络强大的生成能力, VGAN被提出去生成视频, 而生成的视频可以为目标跟踪任务提供更多的运动信息.(5) 图像属性编辑图像属性编辑指通过对抗网络学习一个映射,该映射不仅具有生成图像的功能, 而且还具备根据属性信息向量修改图像属性的能力. IcGAN[ 8 5]提出通过学习两个独立的编码器I和E,, 其中艮的作用是将一幅图像映射成一个隐向量Z, 而E,的作用是学习一个属性信息向量,属性编辑操作是通过调整属性信息向量h并将其和隐向量Z链接后,一起送人生成器来实现的. 而AttGAN[8 6]实现了在保留原图像细节信息的同时, 编辑人脸图像的单个或多个属性, 生成带有新属性的人脸图像. 该模型基于编码器解码器架构, 通过解码以期望属性为条件的给定面部的潜在表示来实现面部属性的编辑. 而这些图像属性编辑的方法在图像编辑软件, 以及一些娱乐软件中将会有很好的应用前景.(6) 医学图像领域中的应用在医学领域, 由于过度辐射, 会对人体造成一定的伤害, 而降低辐射剂量已经被作为一种有效的解决方案. 但是, 剂量的减少会增加医学图像的噪声水平, 这就会导致一些信息的丢失.目前, 基于卷积网络的去噪声方法的主要问题是在优化中使用了均方误差, 导致预测的图像比较模糊, 无法提供常规剂量下图像的那种高质量的纹理.因此, 可以使用图像转换的方法建立噪声图像和去噪图像之间的映射来消除这个问题, 并且生成高质量的图像. 在获取一些医学图像的过程中, 由于运动而使得一些器官的关键信息丢失, 而基于图像生成的办法则可以在有信息丢失和完全采样的图像之间建立一个映射, 帮助更好地采集图像.8 总结和展望生成对抗网络作为一种概率生成模型, 其已经被应用于很多视觉任务中, 特别是在图像生成方向的优良表现. 本文首先从工作机理、 目标函数、 模型结构、 和训练GAN存在的问题以及应对策略等角度对GAN进行了一个详细地讨论. 其次, 本文按照直接法和集成法的分类方式对基于GAN做图像生成的方法进行了一个汇总; 然后根据输人向量形式的不同, 对图像生成进行了详细地探讨. 并且对图像生成的应用做了详细介绍. 最后, 本文对目前工作中对生成图像进行质量评估的方法做了详细地汇总和分析.通过以上论述, 总体来看, 基于生成对抗网络来做图像生成的方法相较于2014 年提出来的GAN,其做出的改进主要集中在以下几方面: 生成器和鉴别器的神经网络架构、损失函数的设计、 改善模型训练时候的稳定性, 以及改善模式崩溃.虽然这些改进后的模型在业界取得了一系列成果, 但是模式崩塌问题仍然是做图像生成过程中一个严重的问题. 在模型训练过程中, 生成网络有选择3 66 计 算机 学 报 2021年地学习了某些模式, 同时又放弃了某些模式. 针对这一问题, 目前的方法只是通过修改目标函数、改变训练方式等来改善这一问题, 而导致这一问题的原因目前还尚不清楚. 因此, 在理论上对这一问题的研究有待进一步的突破.基于生成对抗网络来做图像生成, 其良好性能很大程度上还是依赖于神经网络强大的拟合能力.所以生成图像质量和多样性的好坏, 与神经网络中的架构有着直接的关系. 但是, 现在还没有成功的理论可以根据环境来优化神经网络的结构, 或者评价修改神经网络结构对生成模型性能的影响. 而只有针对实际问题进行彻底的实验研究, 才能得到满意的效果. 因此, 针对设计的神经网络架构不一定是最优架构这一问题, 基于神经网络架构搜索找最优神经网络架构可能是一个很好的解决方案. 该方法通过定义一个合适的搜索空间, 设计一个合适的搜索策略, 在合适的性能指标下找到一个最佳模型.除了上述问题, 仍然有很多问题在制约图像生成的发展, 最为突出的是模型的可解释性. 要想将图像生成方法成功落地, 可解释性是必不可少的一个环节, 并且有关GAN收敛性的数学分析仍有待建立. 因此目前图像生成的研究主要是建立在深度学习积累的经验之上. 其次, 对GAN模型生成图像质量和多样性的评估, 目前还没有一个统一的、适用于所有模型的方式, 因此在实际操作中, 只能根据实际要解决的问题来选择一个合理的评估方式, 并且目前存在的对生成图像进行评估的方式, 都有一定的局限性. 最后就是目前的图像生成方法, 对计算力的要求都很高, 如果将模型进行部署的话, 对模型的大小定会提出新的要求.因此, 如何建立起有关分析基于GAN做图像生成的机制, 以及基于这些机制如何对模型进行优化和压缩, 如何拓展图像生成的应用范围, 这些问题都有待研究者们进一步地研究.随着人工智能技术的发展, 多模态融合是一个必然的发展趋势, 通过改进神经的架构和算法, 基于语音和文字生成语义一致的图像是一个很好的研究方向. 由于基于有监督方式生成图像的质量比较好,但是实际中大量带标签的数据是很难去获得的, 而少量带标签的数据很容易得到, 因此, 探索如何组合GAN和半监督学习去更好地做图像生成也是一个很有希望的研究方向.在神经网络安全领域, 图像生成将会有很大的用处. 目前深度神经网络虽然精确度越来越高, 但是也发现它们极其容易被攻击和影响. 如果对样本做轻微的扰动, 而神经网络就会以很高的置信度, 做出错误的分类或者是预测, 这一现象就是对抗攻击.同时, 深度神经网络对于对抗攻击鲁棒性差是一个非常普遍的现象.因此, 为了增强网络抗攻击的能力,可以通过图像生成来生成对抗样本, 基于对抗样本来训练网络, 不断地提高深度神经网络的鲁棒性, 使其性能有更大的提升. 所以将图像生成用于提高网络的鲁棒性是一个非常需要研究者们去研究的方向.参 考 文 献[1]DayanP. Helmholtzmachi nesandwakesleeplearning.Handbookof BrainTheoryandNeuralNetwork. Cambridge,USA: MITPress,2000[2]Kingma , DiederikP? MaxW. Aut o encodingvariationalbayes. arXivpreprintarXiv: 1312. 6114,20 13[3]Hint onGE. Deepbelief networks. Scholarpedia ,2009,4 ( 5):5947[4]Sal akhut dinovR?MnihA,Hint onG. Rest ri ct edBolt zmannmachinesforcollaborat iveIiltering//Proceedingsof the24thInternat ionalConf erenceonMachineLearning. NewYork,USA,2007 :791 798[5]Sal akhutdinovR, HintonG. DeepBol tzmannmachines//Proceedingsof t he12t hI nt ernat ionalConf erenceonArtif ici alIntelligenceandSt atist ics( AISTATS). Clearwat er, USA,200 9: 448 4 55[6]Oord,vandenA, KalchbrennerN, KavukcuogluK. Pixelrecurrentneuralnetworks. arXivpreprintarXi v: 1601. 0 6759,20 16[7]Goodf ellowI?Pouget AbadieJ? Mi rzaM, etal . Generat iveadversari alnets//ProceedingsoftheAdvancesinNeuralInformat ionProcessingSyst ems. Mont rel ?Canada ? 2014:2672 2680[8]Goodf ellow?Ian. NIPS20 16t utori al: Generativeadversari alnet works. arXivprepri ntarXiv: 1701.00160 ,2017[9]CreswellA, Whit eT, DumoulinV, etal. Generat iveadversari alnet works: Anoverview. IEEESignalProcessingMagazine ,2018 ,35(1) : 53 65[10]Kurach K,etal. TheGANlandscape: Losses? architectures?regularizat ion, andnormalization. arXivprepri ntarXiv:1807. 04720 ,2018[11]Li nYi Lun, DaiXing Yuan,LiLi ,etal. Thenewf ront ierofAlresearch: Generat iveadversarialnet works. Act aAutomat icaSinica, 2018,44(5); 7 75 7 92(inChinese)( 林懿伦, 戴星原, 李力等. 人工智能研究的新前线: 生成式对抗网络. 自动化学报,2018, 44(5) : 775 792)[12]ZamorskiM, ZdobylakA, Zi^baM, et al . Generat iveadversari alnet works: Recentdevelopments//ProceedingsoftheInt ernat ionalConferenceonArt ificialInt elligenceandSoft Comput ing. Cham,USA,2019; 248 258[13]Isol aP,ZhuJY,ZhouT,et al. Image toimagetranslationwit hcondit ionaladversarialnet wo rks//Proceedingsoft heIEEEConferenceonComput erVisionandPat ternRecognition.Hawaii , USA, 2017: 1125 1134陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 36 72 期[14]ZhuJY, ParkT, I solaP, etal. Unpairedimage t〇imaget ranslat ionusingcycle consistent adversarialnetworks//Proceedingsoft heIEEEInternationalConferenceonComput erVision. Venice,It aly,2017; 2223 2232[15]KimT, ChaM, KimI I , etal. Learningt odiscovercrossdomainrelationswithgenerativeadversarialnetworks//Proceedingsoft he34t hInt ernat ionalConferenceonMachineLearning. Sydney, Australia, 2017 : 1857 1865[16]NguyenT, LeT, VuI I , etal. Dualdiscriminatorgenerat iveadversarialnets//ProceedingsoftheAdvancesi nNeuralInformationProcessingSyst ems. LongBeach,USA,2017:2670 2680[17]OdenaA, OlahC, ShlensJ. Condit ionalimagesynthesiswit hauxi liarycl assifierGANs/ /Proceedingsofthe34t hInt ernat ionalConferenceonMachineLearning. Sydney,Aust ralia ,20 17: 2642 265 1[18]LedigC, Thei sL?I luszarF? etal. Photorealisticsingleimagesuper resolut ionusingagenerativeadversarialnetwork//Proceedingsoft heIEEEConf erenceonComput erVisi onandPat ternRecognit ion. Honolulu,USA,2017; 4681 4690[19]DonahueC, etal . Semant ical lydecomposingthelatentspacesofgenerat iveadversarialnet works. arXivpreprintarXiv:1705. 07904 ,20 17[20]YinWei Dong? etal. Semilat entGAN: Learningtogenerateandmodifyfacialimagesfromat tribut es. arXivpreprintarXiv: 1704 . 0 2166,2017[21]TranL, YinX, LiuX. Represent at ionlearningbyrot ati ngyourf aces. IEEETransact ionsonPatt ernAnalysisandMachineIntelligence,20 18, 41(12) : 3007 3021[22]Ant ipovG? BaccoucheM, DugelayJL. Faceagi ngwi t hcondit ionalgenerat iveadversarialnet works//Proceedingsoft he2017IEEEInternationalConf erenceonI mageProcessi ng( ICIP) . Beijing,Chi na, 2017;20892093[23]HeZ,ZuoW,KanM, etal. At tGAN: Faci alat t ributeedit ingbyonlychangingwhatyouwant . IEEETransactionsonImageProcessi ng,2019,28(11); 5464 5478[24]EhsaniK,Mot taghiR,FarhadiA. SeGAN: Segmentingandgenerat ingtheinvisible//ProceedingsoftheIEEEConferenceonComputerVisionandPatt ernRecogni tion. Salt LakeCity, USA,2018: 6144 6153[25]LiJ, LiangX,WeiY?etal. Percept ualgenerat iveadversarialnetworksf orsmallobjectdet ection/ /ProceedingsoftheIEEEConferenceonComputerVisionandPat t ernRecognit ion.Honolulu, USA,2017; 1222 1230[26]VondrickC?Pirsi avashI I, Torral baA. Generatingvideoswit hscenedynamics//Proceedingsof t heAdvancesinNeuralInformationProcessingSyst ems. Barcelona?Spain,2016:613 621[27]TulyakovS, LiuMY, YangX,etal. MocoGAN: Decomposingmot ionandcont entf orvideogenerat ion//Proceedingsoft heIEEEConferenceonComputerVisionandPat ternRecogni tion. SaltLakeCity, USA,2018: 1526 1535[28]LiY, LiuS, YangJ, etal. Generat ivefacecompleti on//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognition. Hawaii ,USA, 2017: 3911 3919[29]MaL, JiaX, SunQ,et al. Poseguidedpersonimagegeneration//Proceedingsof t heAdvancesinNeuralInformat ionProcessingSystems. LongBeach,USA,2017 : 406 4 16[30]MaoX, LiQ, XieI I , etal. Leastsquaresgenerat iveadversari alnet works//Proceedingsoft heIEEEInternationalConferenceon Computer Vision. Venice, Italy, 2017: 2794 2802[31]ArjovskyM?Soumit hC?LeonB. Wasserst einGAN. arXivprepri ntarXiv: 1701.07875,2017[32]Gul rajaniI , AhmedF?ArjovskyM?etal. Improvedt rainingof wassersteinGANs//ProceedingsoftheAdvancesinNeuralInformat ionProcessingSystems. LongBeach, USA,2017:57 67 5777[33]LiY, SwerskyK,ZemelR. Generat ivemomentmat chingnet works//Proceedingsoft heI nt ernationalConferenceonMachineLearni ng. Lil le, France,2015: 1718 1727[34]LiCL, ChangWC, ChengY, et al. MMDGAN: Towardsdeeperunderstandingof moment mat chingnet work//Proceedingsof theAdvancesinNeuralInformat ionProcessingSystems.LongBeach,USA, 20 17; 2203 2 213[35]NowozinS? CsekeB? TomiokaR. FGAN: Traininggenerat iveneuralsamplersusingvariat ionaldivergenceminimizat ion//Proceedingsof theAdvancesi nNeuralInformationProcessingSystems. Barcelona,Spain,20 16; 271 279[36]SriperumbudurBK,etal . Onint egralprobabilitymet rics?^divergencesandbinaryclassifi cation.arXivpreprintarXiv:090 1. 2 698 ,2009[37]XuQian Tong, etal. Anempiricalst udyonevaluationmet ricsofgenerat iveadversari alnet works. arXivpreprintarXiv: 1806. 07755,2018[38]RadfordA,LukeM, Soumit hC. Unsupervisedrepresentationlearningwithdeepconvolutionalgenerativeadversarialnetworks.arXivpreprint arXiv: 1511. 06434,20 15[39]ImDJ,etal. Generat ingimageswi threcurrentadversari alnet works. arXivpreprintarXiv: 1602. 05110 , 20 16[40]MakhzaniA,et al . Adversarialautoencoders. arXivpreprintarXiv:1511. 05 644 ,2015[41]LarsenABL? etal . Autoencodingbeyondpixel susingalearnedsimilaritymet ric. arXivpreprint arXiv: 15 12.0 9300 ,20 15[42]DonahueJ?PhilippK? TrevorD. Adversarialfeaturelearning.arXivpreprint arXiv: 1605 . 0 9782 ,2016[43]ZhaoJunBo ? Mi chaelM, YannLe Cun. Energybasedgenerat iveadversari alnetwork. arXivprepri ntarXiv:160 9. 03 12 6,2016[44]KodaliN,et al. Howtot rainyourDRAGAN. arXivpreprintarXiv: 1705 07215,2017[45]Li nZ, Khet anA, Fant iG,etal. PacGAN: Thepoweroftwosamplesi ngenerat iveadversari alnetworks//Proceedingsof theAdvancesinNeuralInformat ionProcessi ngSystems.Mont real,Canada , 2018: 1498 1507[46]ChoiY, ChoiM, KimM,etal. StarGAN: Unifiedgenerativeadversari alnetworksformult idomainimage t〇imaget ranslation//Proceedingsoft heIEEECo nferenceonComput erVisionandPat t ernRecognit ion. SaltLakeCi ty, USA,20 18: 8789 87 973 68 计 算机 学 报 2021年[47]MirzaM? SimonOsindero. Condi tionalgenerat iveadversarialnets. arXivpreprintarXiv: 1411. 17 84, 2014[48]XianW,SangkloyP, AgrawalV, etal. TextureGAN:Cont rollingdeepimagesynthesi swithtext urepat ches//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognit ion. Sal tLakeCity,USA,2018; 8456 8465[49]SongL, LuZ, l i eR, etal. Geomet ryguidedadversarialfacialexpressionsynthesis//Proceedingsoft he26t hACMInt ernat ionalConferenceonMult imedia. Seoul ? Korea?2018: 627 635[50]ZhuJY, ZhangR, Pat hakD? etal . Towardmult imodalimage t〇imagetranslat ion//ProceedingsoftheAdvancesinNeuralInf ormat ionProcessingSyst ems. LongBeach? USA,2017; 4 65 476[51]DekelT?et al . Smart ,sparsecont ourst orepresentandeditimages. arXivpreprintarXiv:17 12. 08232,2017[52]ParkT, LiuMY, WangTC, etal. Semant icimagesynt hesiswithspatiallyadaptivenormalization//ProceedingsoftheIEEEConference onComputerVisionandPatt ernRecognit ion. LongBeach, USA, 2019; 2337 234 6[53]YooD, KimN, ParkS,et al. Pixel leveldomaintransfer//Proceedingsof theEuropeanConferenceonComput erVision. Amst erdam, Net herlands:Springer , 20 16: 517 532[54]MetzL, etal. Unrolledgenerat iveadversari alnetworks.arXivprepri ntarXiv: 1 61 1.02163 , 2016[55]SalimansT, GoodfellowI , ZarembaW,etal. I mprovedt echniquesf ort rai ningGANs//ProceedingsoftheAdvancesinNeuralI nf ormationProcessingSystems. Barcelona ?Spain,2016: 2234 2242[56]ChenX?DuanY?I l outhoof tR?etal. InfoGAN: I nterpret ablerepresent ationlearningbyinformat ionmaximizinggenerativeadversarialnets//Proceedingsoft heAdvancesi nNeuralInformationProcessingSyst ems. Barcelona?Spain,2016:2172 2180[57]QiGuo Jun. Loss sensit ivegenerat iveadversarialnet worksonlipschi tzdensi ties. arXivpreprintarXiv: 1701. 06264 ,2017[58]TaigmanY, AdamP, LiorW. Unsupervisedcrossdomainimagegeneration. arXivpreprintarXiv: 1611. 02 200,2016[59]LiuMY, BreuelT?Kaut zJ. Unsupervisedimage t〇imaget ranslat ionnet works//Proceedingsof theAdvancesinNeuralInformationProcessingSyst ems. LongBeach?USA,2017:700 7 08[60]ZhangI l an,etal. Sel fatt entiongenerat iveadversarialnetworks. arXivpreprint arXiv: 1805. 08318 ,2018[61]ZhangI I , XuT, LiI I , et al. St ackGAN: Texttophotorealisti cimagesynthesiswithst ackedgenerat iveadversarialnetworks//ProceedingsoftheIEEEInternat ionalConferenceonComput erVision. Venice ,I t aly, 20 17: 5907 5 915[62]Dent onEL, ChintalaS? FergusR. Deepgenerat iveimagemodelsusingalaplacianpyramidofadversarialnetworks//Proceedingsof theAdvancesinNeuralInf ormat ionProcessingSystems. Mont real , Canada ,20 15; 1486 14 94[63]YiZ, ZhangI I, TanP,etal. DualGAN: Unsupervisedduallearningforimage t〇imaget ranslation//Proceedi ngsof t heIEEEInternationalConferenceonComputerVision. Venice,It aly,2 017: 2849 2857[64]GanZ, ChenL, WangW, etal. Trianglegenerat iveadversari alnet works//Proceedingsof theAdvancesinNeuralInformat ionProcessingSystems. LongBeach, USA, 2017:5247 5256[65]AnooshehA, AgustssonE?Timof t eR?et al . ComboGAN:Unrest rainedscalabili tyf orimagedomaintranslat ion//Proceedingsoft heIEEEConferenceonComput erVisionandPat ternRecogni tionWorkshops. Salt LakeCi ty, USA,20 18: 783 7 90[66]RoyerA,et al. XGAN: Unsupervisedimage toimagetranslat ionf ormanyt〇 manymappings. arXivpreprintarXiv: 1711. 05139 ,2017[67]WangX, GuptaA. Generat ivei magemodelingusi ngstyleandst ruct ureadversarialnet works//Proceedingsof theEuropeanConferenceonComput erVision. Cham, Netherlands:Springer?20 16: 318 3 35[68]YangJianWei, et al. LRGAN: Layeredrecursivegenerativeadversari alnet worksf orimagegenerat ion. arXivpreprintarXiv: 1703. 01560 ,2017[69]I l uangX, LiY, Poursaeed0, etal. St ackedgenerat iveadversari alnet works//Proceedingsoft heIEEEConf erenceonComputerVisionandPat t ernRecognit ion. Hawaii, USA,20 17: 5077 50 86[70]ReedS? etal. Generat iveadversarialt ext toimagesynthesis.arXivpreprint arXiv: 1605. 05396 ,20 16[71]PerarnauG? etal . Invert iblecondit ionalGANsf orimageedit ing. arXivpreprint arXiv: 1611. 06355,20 16[72]ShahamTR, DekelT, MichaeliT. Si nGAN: Learningagenerat ivemodelfromasinglenaturalimage//Proceedingsof theIEEEInt ernat ionalConferenceonComput erVision.Seoul,Korea,2019: 4570 4580[73]RonnebergerO,Fi scherP, BroxT. Unet: Convolutionalnet worksforbiomedicalimagesegment at ion//ProceedingsoftheI nt ernat ionalConf erenceonMedicalI mageComput ingandComput er Assist edInt ervent ion. Munich? Germany,20 15: 234 2 41[74]WangTing Chun, LiuMing Yu,ZhuJunYan, et al. I l ighresol uti onimagesynt hesisandsemant icmanipul at ionwit hcondit ionalGANs//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecogni tionWorkshops. SaltLakeCity, USA, 2018: 8798 8807[75]LeeI IY, TsengI IY, I luangJB, etal. Diverseimage toimagetranslationviadisentangledrepresentations//Proceedingsof theEuropeanConferenceonComput erVision( ECCV) .Munich,Germany,2018; 35 51[76]BousmalisK, Sil bermanN?DohanD? et al. Unsupervisedpi xel leveldomainadaptat ionwit hgenerat iveadversari alnet works//Proceedi ngso ftheIEEEConferenceonComput ervisionandPat t ernRecognition. Hawaii, USA,2017: 3722373 1陈佛计等: 生成对抗网络及其在图像生成中的应用研究综述 36 9 2 期[77]WangZheng-Wei,QiShe,TomasEW.Generativeadversarialnetworks: Asurveyandtaxonomy. arXivpreprintarXi v:190 6.0152 9,2019[78]BarrattS,Ri shiS. Anoteontheinceptionscore. arXivpreprintarXiv: 1801. 01973 ?2018[79]LucicM,KurachK,Mi chalskiM,etal. AreGANscreatedequal?Alarge-scalestudy//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.Montreal,Canada,2018 :700-709[80]I leuselM, RamsauerI I, UnterthinerT, etal. GANstrainedbyatwotime-scaleupdateruleconvergetoalocalNashequilibrium//ProceedingsoftheAdvancesinNeuralInformationProcessingSystems.LongBeach,USA,20 17:662 6-6637[81]CheTong,etal . Moderegularizedgenerativeadversarialnetworks. arXivpreprintarXiv: 1612.0 2136,2016[82]LiJ, LiangX, WeiY,etal.PerceptualgenerativeadversarialCHENFo-Ji,M.S.Hisresearch' interestsincl udeimagegeneration,machinel earning,patternrecognition,ZHUFeng,Ph.D.,professor,Ph.D.supervisor.Hisresearchinterestsincluderobotvision,visualmeasurement,visualdetection,infraredi magesimulation,and3-Dobjectrecognition.BackgroundDeeplearning-basedmethodshaveachievedexcellentperformanceinmanyvisiontasksinrecentyears.Butthegoodresul tsalwaysrelyonl argeamountsofdatawithl abel sandpowerfulcomputingpower.Asthelabeleddataishardtocoll ectorevenimpossibletocoll ect,whichcausesthatfewermodelsarelearnedbythemodelandthegeneralizationabi lityofthemodeli snotwel l .Therefore,theapplicationofmethodsbasedondeeplearningtopracticalproblemsisdi fficult.Toefficientlycompl etevisiontasks, itisnecessarytocollectmorelabeleddata.Fortheexcel lentperformanceinthefieldofi magegeneration,thegenerativeadversarialnetworkshavereceivedalotofattention.Thegenerativeadversarial networksmodelanunknowndistributioninindi rectlywayandavoidcomputati onaldi fficul ti es.Comparedwithothermethodsingenerativemodels,imagesgeneratedbygenerativeadversarial networksarehigh-quality.Therefore,itisagoodideatodoinfraredi magesaugmentationbasedonimagesgenerationwithgenerativeadversarialnetworks.Toprovideacomprehensiveandsystematicunderstandingnetworksforsmallobjectdetection//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.Hawaii,USA,2017 :1222-1230[83]WangX, ShrivastavaA,GuptaA. A-fast-RCNN: Hardposi tivegenerationviaadversaryforobjectdetection//ProceedingsoftheIEEEConferenceonComputerVi sionandPatternRecognition.Hawaii ,USA,2017 :2606-2615[84]KupynO,BudzanV,MykhailychM,etal.Deblur-GAN:Blindmotiondeblurringusingconditionaladversarialnetworks^/ProceedingsoftheIEEEConferenceonComputerVi sionandPatternRecognition. SaltLakeCity,USA,2018 :8183-8192[85]PerarnauG,etal . InvertibleconditionalGANsforimageediting. arXivpreprintarXiv: 1611. 06355 ,2016[8 6]l ieZ, ZuoW, KanM,etal . AttGAN:Facialattributeeditingbyonlychangingwhatyouwant. IEEETransactionsonImageProcessing,2019,28(11):5464-5478WUQing-Xiao,Ph.D.,professor.Hisresearchinterestsincl uderobotvisionandmachinevision.HAOYing-Mi ng, Ph.D. ,professor.Hermainresearchinterestsincludeimageprocessingandspatialvisionmeasure?ment.WANGEn-De,Ph.D.,professor ,M.S.supervisor.Hisresearchinterestsincludesmallaircraftcontrol ,i magedetection,recognitionandtrackingandweaksignal detectionandpreprocessing.CUIYun-Ge,M.S.Hisresearchinterestsincludei magegenerationandSLAM.ofi magegenerationbasedongenerativeadversarialnetworksforresearcherswhowanttoworkonthisfield,itisnecessarytocarryoutaninvestigationintothebasictheory,modelarchitecture,objectivefunction,andsomerelatedtricks.Inthispaper,howthegenerativeadversarialnetworksworkandhowtoconstructamodelareintroducedfirstly.Andthenmethodsaboutimagesgenerationarediscussedindetail s ;Atthesametime,thefundamentaltheoryandexistingproblemsofcurrentmethodsarediscussed.Asummaryandanalysisofmethodswhichareusedtodoevaluationofgenera?tedimagesgeneratedbygenerativeadversarialnetworksisdone.Final ly,intheory,theexistingprobl emsandchall engesarediscussed;Meanwhil e,sometricksthatareemployedtoimprovetheperformanceofgenerativeadversari alnetworksinpracticalapplicationsareintroducedandsummarized.Inpracti?calapplication,doingimagessetaugmentationwhichbasedongenerativeadversarialnetworksandguidedbypriorknowl edgeisapromisingresearchdirection.Meantime, itishopedthati magesgenerationwithgenerativeadversarialnetworkscanbeappli edtoawiderrangeofareas. |
[返回] |