基于自回归预测模型的深度注意力强化学习方法 - 博士论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

博士论文

当前位置：首页 > 博士论文

基于自回归预测模型的深度注意力强化学习方法

来源：一起赢论文网日期：2020-10-02 浏览数：1484 【字体：大中小】

软件学报ISSN 1000 - 9825, CODEN RUXUEW Journal of Software, [doi: 10.13328/j.cnki.jos.005 930 ] © 中国科学院软件研究所版权所有. 基于自回归预测模型的深度注意力强化学习方法梁星星, 冯旸赫, 黄金才, 王琦, 马扬, 刘忠 ( 国防科技大学系统工程学院, 湖南长沙 4 10072 ) 通讯作者: 冯旸赫, E- mail: fengyanghe@yeah.net 摘要: 近些年深度强化学习在各种决策、规划问题中展示了AlphaGo、OpenAI Five、 Alpha Star 等成功案例.然而用率严重限制了其在复杂现实任务中的应用. 传统基于模型的用样本信息, 有效提升数据利用率,加快模型训练速度,但如何快速建立准确的环境模型是基于模型的强化学习面临的难题.本文结合基于模型和无模型两类强化学习的优势学习方法.利用自编码模型压缩表示潜在状态空间,结合自回归模型建立环境预测模型型估计每个决策状态的值函数,通过端到端的方式统一训练各算法模块控制任务实验表明,该模型能够高效建立环境预测模型的高效利用.最后针对导弹突防智能规划问题进行了算法实证研究定场景取得优于传统突防规划的效果. 关键词: 注意力机制;深度强化学习; actor - critic; 变分自动编码中图法分类号: TP311 中文引用格式: 梁星星, 冯旸赫, 黄金才, 王琦, 马扬, 刘忠. http://www.jos.org.cn/1000- 9825/5930.htm 英文引用格式: Liang XX, Feng YH, Huang JC, Wang Q, Ma Y, Liu Zon Attention- based Value Function and Autoregressive Environment Model(in Chinese). http://www.jos.org.cn/1000- 9825/5930.htm Deep Reinforcement Learning Algorithm BAutoregressive Environment Model LIANG Xing- X ing , FENG Yang- H e , HUANG Jin- C( College of Systems Engineering, National University of Defense Technology, Changsha 410072, ChinaAbstract : Recently deep reinforcement learning (DRL) is believed to be promising in continuous decisionscheduling problems, and some examples such as AlphaGo, OpenAI Five and Acapability of the paradigm. However, the inefficient utility of collected experience dataset in DRL restricts the universal epractical scenarios and complicated tasks. As the auxiliary, the modelenvironment and bring the reduction in experience sampling. In this paper, we aggregate the modellearning algorithms to formulate an end - to -end fram ework, where the autoregressive environment model is constructed, and attention layer is incorporated to forecast state value function. Experiments on classical CartPoleframework in simulating environment and advancing utility of dataset. Finally, penetration mission as the practical instantiation is successfully completed with our framework. * 基金项目: 国家自然科学基金( 71701205); Foundation item: National Natural Science Foundation of China收稿时间: 2019 -05-31; 修改时间: 2019 -07-29; 采用时间: 2019 E - mail: jos@iscas.ac.cn http://www.jos.org.cn Tel: +86-10-62562563 基于自回归预测模型的深度注意力强化学习方法* 规划问题中展示了强大的智能性和良好的普适性, 出现了诸如然而,传统深度强化学习对计算资源的重度依赖及低效的数据利基于模型的强化学习算法通过学习环境的潜在动态性,可充分利但如何快速建立准确的环境模型是基于模型的强化学习面临结合基于模型和无模型两类强化学习的优势,提出了一种基于时序自回归预测模型的深度注意力强化结合自回归模型建立环境预测模型,基于注意力机制结合预测模通过端到端的方式统一训练各算法模块,实现高效的训练.通过CartPole-V0等经典环境预测模型,并有效结合基于模型和无模型两类强化学习方法, 实现样本最后针对导弹突防智能规划问题进行了算法实证研究, 应用结果表明采用本文提出的学习模型可在特变分自动编码;混合密度网络-循环神经网络基于自回归预测模型的深度注意力强化学习方法. 软件学报. YH, Huang JC, Wang Q, Ma Y, Liu Z. A Novel Deep Reinforcement Learning Algorithm based based Value Function and Autoregressive Environment Model. Ruan Jian Xue Bao/Journal of Software, 2020,31(4) B ased on Attention- B ased Value Function and C ai , WANG Qi, MY Yang , LIU Zhong versity of Defense Technology, Changsha 410072, China ) Recently deep reinforcement learning (DRL) is believed to be promising in continuous decision-making and intelligent scheduling problems, and some examples such as AlphaGo, OpenAI Five and Alpha Star have demonstrated the great generalization capability of the paradigm. However, the inefficient utility of collected experience dataset in DRL restricts the universal e xtension to more the model- based reinforcement learning can well capture the dynamics of environment and bring the reduction in experience sampling. In this paper, we aggregate the model-based and model- free reinforcement ework, where the autoregressive environment model is constructed, and attention layer is incorporated to forecast state value function. Experiments on classical CartPole-V0 and so on witness the effectiveness of proposed and advancing utility of dataset. Finally, penetration mission as the practical instantiation is Foundation item: National Natural Science Foundation of China ( 71701205); : 2019 -09- 20; jos 在线出版时间: 2020 - 01-10 网络出版时间：2020-01-14 10:49:02网络出版地址：http://kns.cnki.net/kcms/detail/11.2560.TP.20200114.1048.014.html 2 Journal of Software 软件学报 Key words : attention mechanism; deep reinforcement learning; actor -critic algorithm; variational auto - encoder(VAE); mixture density network- recurrent neural network(MDN- RNN) 深度强化学习（Deep Reinforcement Learning , DRL）在战略博弈[1 , 2] 、无人机控制[3]、自主驾驶[4]和机器人合作[5]等领域取得了不错的成绩, 是复杂调度与控制任务中颇具前景的一种学习范式, 为通用人工智能地实现铺平了道路. DRL应对环境和决策过程中不确定性的有效性, 激发了将其应用于更多领域的研究热潮[6]. Agent 与环境的持续交互能力是DRL取得成功的主要因素, 这些交互能力缓解了环境的不确定性, 揭示了环境中的动态性, 使得Agent 能够在延迟的奖励中学习驱动其获得良好表现的动作. 根据有无可用的环境模型, DRL被分为两类: 无模型DRL（model- free DRL ）和基于模型的 DRL（model- based DRL ）. 无模型的DRL仅仅利用环境奖赏, 忽略了固有的、能够提高学习效率的潜在环境信息.虽然无模型DRL在实践中得到了广泛的应用, 但其需要不断收集数以百万计的实例或经验来进行策略评估和改进, 低效的数据利用率限制了其在复杂现实生活问题中的应用. 相反, 基于模型的DRL不严格依赖于环境交互, 能够根据少量交互信息学习表征环境的潜在动力学, 揭示任务的规律. 利用获得的虚拟环境模型, Agent 不再通过与环境的直接交互来创造额外的经验, 能够直接根据模型推导出最优策略. 基于模型的算法在某些情况下往往保持更高的效率[7 - 9] , 但其修改能力弱, 对环境精确建模的依赖性强, 且在噪声环境中的适应性和灵活性较差. 在过去的几十年中, 一些研究已经尝试将这两类方法结合起来, 包括合成经验生成[10 , 11]和部分基于模型的反向传播[7 , 12, 13], 但在两个方法之间建立桥接的方式仍然有限. 直觉表明, 人类不需要太多的经验即可学习和适应复杂环境. 虽然人类利用感官感知的环境信息的能力有限, 但可以概括复杂环境的知识, 即人类能够从有限的感官信息中概念化事物, 进而概括决策. 神经网络模型的著作[14 , 15]认为人类倾向于建立认知有限的世界模型, 并依托该模型进行决策. 人类大脑频繁地在头脑中使用先前自构建的物理模型[16 , 17], 通过预测在某个状态下即时行动后的未来情景, 迅速作出反应与决策并避免潜在的危险[18 , 19]. D.Ha& 和J.Schmidhuber[15]将上述观点付诸实践, 建立了世界模型(World Models, WM) , 证明了WM 能够以有限的现实经验建立, 并显著改善策略学习的效率. 这一框架通过学习虚拟环境模型, 减少了在环境中收集转移以及相关消耗的繁重工作. 在现有的一些军事平台仿真实验中, 仿真往往需要耗费大量的时间进行模拟, 进而为系统学习提供数据. 此类系统的泛化能力与获取环境数据的人工和财务费用呈正相关. 幸运的是, 与虚拟环境的交互可以缓解这些消耗性的预测或控制. 本文对上述工作[15] 进行了扩展, 研究了无模型DRL算法和基于模型的控制相结合的方法, 该方法探索了丰富的环境转移信息, 指导了最优策略得搜索. 本文利用神经网络进行了环境状态嵌入表示、自回归预测, 并通过基于注意力机制的策略学习来改进WM. 本文的安排如下. 第一部分总结了一些相关的研究成果, 并表达了本文研究意向. 第二节将对WM 进行回顾, 详细介绍了本文提出的模型框架VMAV - C , 包括模型中的成分、训练过程和技术细节. 第三部分是利用所提算法对经典的控制问题以及导弹智能突防任务进行了研究与分析. 最后得出了结论, 并介绍了本文的未来工作. 1 相关工作 OpenAI Gym[20]提供了一系列虚拟环境开发和测试新的强化学习算法的任务与环境, 对算法性能进行比较和验证. 这些任务包括一些传统的控制问题, 其中端到端（end - to - end ）的任务更实际, 且更具挑战性. 端到端的任务要求A gent 直接接收场景图像等作为原始输入, 进而做出决策, 包括Cart Pole 、MountainCar等. 图像固有的高维性给学习过程带来了很大的困难, 激发了表征学习在强化学习中的应用[21] . 深度神经网络可以提取高维输入的紧凑表示特征, 将复杂的实例编码为低维向量, 能够训练一个处理复杂任务的强化学习模型. 此外, 深度学习具有良好的泛化能力, DQN[1]和AlphaGo Z ero[2] 都得益于卷积神经网络对状态的表示, 在RL的策略学习中实现了最优的效果. 梁星星等: 基于自回归预测模型的深度注意力强化学习方法 3 虽然强大的表示模型和日益增强的计算能力能够满足 DRL解决复杂控制问题的基本要求, 但从实际环境中访问数据仍然是DRL的瓶颈, 算法对数据有着巨大的需求. 与环境的交互对强化学习的成功应用起着决定性作用, 为了达到理想的效果, 需要消耗大量的人力、时间和金钱等资源来从环境中获得转移和奖赏. 特别地, 对于无模型强化学习算法, 情况更为明显, 数据利用效率较低, 忽略了环境中的结构信息. 这种困境受到了越来越多的关注, 并激发了一些有趣的想法来解决这一问题. 在本文的研究中, 学习环境模型是非常重要的, 主要有两种模式来捕捉环境的特性和消除建模中的偏差. 一种是学习以某种概率分布反映环境动态性的样本, 并探索策略. 早期同步学习环境模型和策略的工作并不稳定,期望最大化方法（E M ）[22] 将参数从控制模型中分离出来, 只需学习有限的控制参数就可以加快收敛速度. 作为学习环境模型的突破, WM[15] 可以自动揭示环境的动态性, 并提到了从认知科学中获得的动机. A.Piergiovanni 等人[23] 构建了深度神经网络, 将状态编码和预测未来场景作为环境模型的模拟, 并证明机器人可以通过与这种梦境的交互作用, 学会在现实世界中行动的合理策略. 考虑到在基于视觉的强化学习中处理图像观察的高度复杂性和成本[24] , A.V.Nair 等人提出了一种将变分自动编码器（VAE ）与非策略性目标条件强化学习相结合的图像目标强化学习算法, 训练了一个循环状态空间模型以解决不确定环境下的规划问题, 构造了一个称为深度规划网络的Agent 可以学习控制策略[25] . 此外, 原始图像很少用于环境建模, 如世界模型[15]和PA[26] , 大多采用自动编码器来获得低维状态, 进一步提高了训练效率, 减少了控制参数的规模. 另一个范例是元学习, 它寻求从不同环境中学习到的多个动态模型, 并整合这些模型的特征来描述环境中的不确定性[22 , 27, 28]. 2 VMAV-C 模型 VMAV - C 模型对应于变分自动编码器( V ariational Auto - Encoder, VAE ) 、混合密度网络- 递归神经网络( Mixture Density Network - Recurrent Neural Network, MDN- RNN) 、基于注意力的值函数( Attention - based Value Function , AVF ) 和控制器模型的组合. 与WM[15]中用于优化控制器模型的协变矩阵自适应进化策略不同, 本文在控制器中使用了基于PPO 的actor- critic( AC) 算法[31] 以解决离散动作空间的任务以及连续动作空间的任务.根据值函数的精确估计可以加速策略学习这一直觉, 本文在critic网络中考虑了注意力机制来估计状态值函数. 为方便阅读与理解，本节首先对VMAV - C 的结构进行介绍，并在附录中给出具体的训练步骤；之后对该框架中的W M 框架下的VM- C[15]中的一些基本组件（包括VAE 、MDN- RNN和Controller）进行了简要介绍;然后重点介绍了基于注意力的值函数, 并提出了与critic网络相结合的方法. 2.1 VMAV- C RL模型框架 VMAV - C 模型包含VAE 、MDN- RNN、Attention Value Function以及Controller模型, 其中VAE 模型参数较多, 且主要目的是对输入的观测进行压缩编码, 因而可脱离原VMAV - C 模型进行单独训练; MDN- RNN模型采用RNN结构, 网络训练缓慢, 需要的参数与样本较多, 同AV- C 模型结合训练, 将拖慢整体学习速度, 因而可采用部分样本对MDN- RNN进行预先训练; Attention Value Function依靠MDN- RNN的部分隐藏层信息, 因而可将其同MDN- RNN剥离开来, 构建参数较少的神经网络结构加速学习速度; Controller是单独的模型, 参数较少, 可单独进行训练. 示意图如图1 所示, 包含: 样本采集（步骤0 ）、VAE 训练（步骤1 ）、MAV训练（步骤2 ）、MAV- C训练（步骤3 ）和执行（步骤4 ）. 不同模块中组件之间的依赖性也在图1 的虚线框中进行了总结. 这些步骤是按照训练和测试模型的顺序进行的, 模块的详细训练说明在附录2 中进行了描述. 4 EnvironmentOriginal Episode1 1 1( , , , , )t t t t tx a x r d+ + +随机策略VAE Training Dataset状态抽取VAE片段抽取tx1 . VAE 训练4 . 执行3 . MAV训练0 . 片段收集Fig1 . VMAV - C Reinforcement Learning Training Framework. Arrows suggest informat图 1 VMAV 2.2 VM- C 模型框架 Fig2 . Framework of VM图 2 World Models图2 揭示了VAE 、MDN- RNN和控制器模型之间的关系图2 中的箭头线表示给定环境中的信息流和控制操作2.2.1 VAE 模型基于任一d 维分布都可以由一个d 维正态分布经过足够复杂的变换auto - encoder, VAE ）[32] 假定中间编码变量服从一个简单的高斯分布为了从模型中生成样本, VAE 从编码分布 modelp zmodel model( ; ( )) ( | ) p g z p z = x x 中采样x. 在训练期间, 编码器络. VAE 通过最大化与数据点x 相关联的变分下界 ( ) L~ ( | ) model model( ) log ( | ) ( ( | ) || ( ))z q z KLq p z D q z p z = - L Ex此外, 还包含MSEloss 损失函数( , ( ( ))) x g f x L , 用于Journal of Software 软件学报 MDN-RNN Training Dataset片段抽取AVF Model1 1 1( , , )t t t th z a h- - -=tztaEpisodes in Iteration1 1 1 1( , , , , , )t t t t t tz a z d r h+ + + -MAVC Training Dataset2 . MAV 训练MAV- C 训练MDN- RNNController Model C Reinforcement Learning Training Framework. Arrows suggest informat ion flow in modules. VMAV - C 强化学习训练架构 . Framework of VM - C used in World Models. World Models 中的VM-C 架构和控制器模型之间的关系, 并回答了VMC如何对环境作出动态反应的问题.表示给定环境中的信息流和控制操作. 维正态分布经过足够复杂的变换获得的思想, 变分自编码器（variational 假定中间编码变量服从一个简单的高斯分布, 例如 (0, )I N （I 为单位矩阵）. ( )modelp z 中采样z; 然后通过可微的生成网络 ( ) g z ; 最后从分布编码器( | ) q z x 用于获得z, 而model( | ) p z x 则被视为解码器网( ) q L 对网络进行训练. ~ ( | ) model model( ) log ( | ) ( ( | ) || ( ))z q z KLq p z D q z p z = - x x ( , ( ( ))) 用于惩罚( ( )) g f x 与x 的差异. 梁星星等: 基于自回归预测模型的深度注意力强化学习方法Fig3 . VAE in Observation of CartPole - V0. Encoder and Decoder are two neural networks, and mean vector and logarithm variance vector are latent representa tion for some state.图 3 VAE 实现如图3 所示, 本文中的VAE 输入是对环境的观测些低维向量作为状态的潜在表示；导弹智能突防实验中的输入则是红蓝双方的特征信息2.2.2 MDN- RNN模型将混合密度模型与传统神经网络结合, 可以近似任意条件概率分布应用中解决了反演问题. 同时, 递归神经网络（RNN）一定的效率. 一些研究集中在这两种技术的结合上, 并提出了生活中的问题[15 , 33], 最近一项有趣的研究是将MDN在经典控制任务中，VAE 模型压缩编码了实验过程中的每帧图片着原始图片信息内含的相关转移关系. MDN- RNN模型的主要目的是预测当前状态下环境在下一时刻可能发生的状态, 进而输出状态的压缩编码编码进行解码, 获取图片信息, 示意图如图3 所示. 在复杂的真实环境中用概率密度函数 ( ) p z 替代确定预测z 对未来进行估计Fig4 . MDN - RNN. Each Box of LSTM Networks contains three LSTM units.图 4 MDN在RL任务中, 环境模型中的RNN通常被用来获得示当前时刻下的动作、状态表示、隐藏状态,1 tz+ 表示对下一时刻状态表示的预测传统的seq2seq 任务不同, 有结束状态 1 td+ 的RL环境还需要预测状态的结束标志记, 因而面向带结束状态的RL环境的RNN通常需要被建模为基于自回归预测模型的深度注意力强化学习方法 5 V0. Encoder and Decoder are two neural networks, and mean vector and tion for some state. 实现CartPole- V0观测编码观测, 即CartPole- V 0 等任务的场景图像, 并将该观测压缩为一导弹智能突防实验中的输入则是红蓝双方的特征信息。可以近似任意条件概率分布, 特别是连续输入的概率分布, 并在实际）在捕获序列数据集的依赖关系和感知序列趋势方面具有并提出了RNN的一些变体, 称为MDN- RNN, 用于处理现实MDN- RNN应用于图纸中的草图生成[33] . 模型压缩编码了实验过程中的每帧图片, 这些压缩编码在时间序列中, 同样存在模型的主要目的是预测当前状态下, agent 采取相关动作后,输出状态的压缩编码. 在需要可视化的要求下, 可以利用VAE 的解码器对在复杂的真实环境中, 环境的转移往往是不确定, 因而, 需要使对未来进行估计. RNN. Each Box of LSTM Networks contains three LSTM units. MDN- RNN结构通常被用来获得 1 1( , | , , )t t t t tP z r a z h+ + 的状态转移函数, 其中,, ,t t ta z h 分别表表示对下一时刻状态表示的预测,1 tr+ 表示下一时刻的奖赏. 同环境还需要预测状态的结束标志, 即标记该状态是否为结束标通常需要被建模为 1 1 1( , , | , , )t t t t t tP z d r a z h+ + +,1 td+ 表示当前的状态 1 tz+ 6 是否表示结束状态,1 tr+ 表示获得的奖赏（有些任务中在离散动作空间的任务中, 本文对离散的动作进行编码后同环境编码进行结合加入到预测模型中1 1( , | ( ), , )t t t t tP z d f a z h+ +. MDN- RNN的损失函数由三部分组成失pL. , , , , , , , , , , ,1 11log( ( , | , , , , ))N Ms j i i i x j i y j i x j i y j i xy j ii jL x yNq m m s s r= ==- å å N( 1) ( 1)11( log (1 )log(1 ))Np t i i t i iiL d q d qNa+ +==- + - - å其中,1ˆexp( ), {1,..., }ˆexp( )kk Mjjk Mqqq== Îå. 为了控制高斯分布采样的随机性伸缩,t 的取值通常在0 和1 之间( 视具体任务而定, 可松弛至损失函数Loss 是 ,s pL L 的加权和: Loss L L = +其中,1 2{ , } b b 是损失项的权重. 图4 详细描述了RNN序列中的隐藏信息和结束状态之间的依赖关系束标记分布较小, 为了提高预测的准确性, 本文利用超参数调整结束位上的惩罚权重2.2.3 控制器模型控制器模型用来决策当前时刻以及状态下所采取的动作信息以及当前时刻的状态信息共同预测当前时刻应采取的动作信息tz 来自于真实环境的观测压缩编码; 在虚拟环境中Fig5 . Controller Model. h comes from hidden information in MDNcurrent state, and action is conditioned on both information. Fully connected(FC)图 5 控制器2.3 AVF模型近年来, 注意力机制越来越受到人们的关注, 尤其是在息赋予各种权重, 然后对其进行聚合, 形成预测时间步的上下文向量的关注, 并被赋予更多的权重, 即给定某个t 步序列的隐藏信息Journal of Software 软件学报有些任务中, 奖赏是的固定的, 下文将省略表示奖赏）. 对离散的动作进行编码后同环境编码进行结合加入到预测模型中, 即的损失函数由三部分组成: 下一状态的预测损失 sL 以及结束标记的预测损, , , , , , , , , , ,log( ( , | , , , , ))s j i i i x j i y j i x j i y j i xy j iL x y q m m s s r N ( 1) ( 1)( log (1 )log(1 ))p t i i t i iL d q d q+ +=- + - - 为了控制高斯分布采样的随机性, 使用温度参数t 对权重、方差进行可松弛至>1):2 2ˆˆ,kkqq s s tt® ® . 1 2 s pLoss L L b b = + 详细描述了MDN- RNN模型的结构, 指出了动作、状态的潜在表示、序列中的隐藏信息和结束状态之间的依赖关系. 在结束标记的预测损失 pL 中, 考虑到一个时间样本中结本文利用超参数调整结束位上的惩罚权重. 所采取的动作. 在决策中, 利用MDN- RNN的上一时刻隐藏状态信息以及当前时刻的状态信息共同预测当前时刻应采取的动作, 即 ~ ( | , )t t ta z h p a. 在真实环境中, 环境编码的在虚拟环境中, 编码信息tz 来自于预测的采样信息tz. comes from hidden information in MDN - RNN, z is latent representation of current state, and action is conditioned on both information. Fully connected(FC) network is used here. 控制器模型结构图尤其是在序列学习领域. 注意力机制是对历史序列中的隐藏信预测时间步的上下文向量. 与预测时间步相关的隐藏信息将受到更多步序列的隐藏信息 1[ ,..., ]tH h h = , 预测时间步的上下文向量梁星星等: 基于自回归预测模型的深度注意力强化学习方法1ti iiv h a== å作为历史序列的嵌入信息. 在强化学习算法的训练过程中, 本文将注意力机制引入状态值函数的估计中地估计当前状态值. Fig6 . Attention - based Value Function Representation. Four recent units containing hidden information from MDN- RNN contribute to state value estimation, and attention layer is to compute importance of these informa图 6 基于注意力的值函数在AC算法的critic网络中, 图6 所示的每一次隐藏信息都来自历史信息进行当前状态值估计. 为了确保初始状态也能满足注意力结构化为零（这里以图6 中的情况为例）. 因此, 有注意力的上下文向量可以计算为 c hia =i t i ta = + %其中 , W b 是注意力网络的参数,ia 反映了以i 为索引的历史信息在上下文向量为预测时间步的输入. 对于状态值函数估计, 需要将从态信息合并计算:( ) [ , ]t v t t vV s W z c b = + , 其中,tz 是时间步量,[.,.] 是向量的串联,{ , , , }v vW b W b 是基于注意力机制习过程, 这种结构也是本文实验中的具体设置. 3 实验和性能分析上述小节描述了VMAV - C 实现过程, 在这一节将在具体环境文选取了CartPole- V0、MountainCar- V0以及A crobot等环境进行测试, 分别考察了在真实环境和虚拟环境中算法的表现较为简单，但其拥有复杂任务应有高维度、端到端、基于自回归预测模型的深度注意力强化学习方法 7 将注意力机制引入状态值函数的估计中, 历史隐藏信息将有助于准确 based Value Function Representation. Four recent units containing hidden information from RNN contribute to state value estimation, and attention layer is to compute importance of these information. 基于注意力的值函数（AVF ）表示所示的每一次隐藏信息都来自MDN- RNN 的outr, 并利用前n 个时间步的为了确保初始状态也能满足注意力结构, 缺少的隐藏信息, 如 2 1 0[ , , ] h h h- - 被初始1nt i t iic h a-== å 1exp( )exp( )ii njjaaa==å%% [ , ]i t i tW h z b a-= + % 为索引的历史信息在上下文向量 ,t tc z 中的影响强度, tz 作需要将从隐藏信息 1 2{ , ,..., }t t t nh h h- - - 导出的上下文信息tc 和当前状是时间步t 中状态的潜在表示,tc 是具有注意力机制的上下文向力机制的值神经网络中要学习的参数集. 图6 揭示了状态值的学在这一节将在具体环境中对VMAV - C 的算法性能进行测试与评估. 本crobot - V1等OpenAI Gym 中的经典控制任务和导弹智能突防分别考察了在真实环境和虚拟环境中算法的表现. 采用C artPole 等实验的原因是由于该任务、连续性交互等特点，能够对算法进行快速验证. 针对当前 8 Journal of Software 软件学报强化学习方法在具体问题中难以落地的困境，我们结合自身项目需求，对DRL在军事问题中的应用进行了研究，利用本文的算法对我们自主开发的导弹智能突防环境中的任务进行了求解，验证DRL在实际系统中的可行性。 3.1 实验环境介绍 CartPole: 在这一任务下, 一辆推车与一根杆子连接在一起形成一个倒立摆, 控制决策包括对倒立摆实施向左或向右的力等两个离散的动作. 倒立摆初始化为直立式, 延长直立时间是该任务的目标. 当倒立摆从中心2.4单位的范围内移出, 或者摆与垂直方向的夹角超过15度时, 任务结束. 在杆保持直立的情况下, 每一步返回+1的奖赏信号. OpenAI GYM 中的CartPole 包含CartPole- V0和CartPole- V1等两个任务, CartPole- V0的最大步长为200 步, CartPole- V1为500 步. 本文所使用的任务为CartPole- V0. MountainCar- V0：在该任务中，汽车位于一条轨道上，位于两个“山脉”之间。目标是在右边开出; 然而，汽车的发动机强度不足以在一次通过中攀登山峰。因此，成功的唯一途径是来回驾驶以增强动力。动作包含三个离散动作：向左、不动和向右。原本实验中的奖赏为单步- 1 ，离开后奖赏为0 . 本文为了加快收敛，将奖赏函数设置为距离底部越远，奖赏值越高，即 ( 0.5)*0.1 r abs position = + ，离开后奖赏值为1 0 ，离开的标志为： _ 0, if position goal position done True - >= = 。学习的目标是使得小车用尽可能短的步数离开。 A crobot - V1：Acrobot是一个双连杆摆，该机器人系统包括两个接头和两个连杆，其中两个连杆之间的接头被致动，两个链接都可以自由摆动并且可以相互通过，即它们不会当它们具有相同的角度时会发生碰撞。最初，链接向下悬挂，目标是将下部链接的末端摆动到给定高度。动作是在两者之间的关节上施加+ 1,0 或- 1的扭矩。奖赏为固定奖赏- 1 , 。为了加快收敛，我们假定5 00步以内没有到达指定高度，则结束，给予- 10的惩罚值，反之则为+ 10.学习的目标是使得下部链接尽快到达指定高度。导弹智能突防: 导弹智能突防场景是一款面向军事应用的仿真环境, 该环境依靠概念级模型以及部分半实物仿真模型构建而成, 用于仿真当前红蓝双方的导弹对抗过程. 该环境采用模拟时钟实时推进系统演化, 可以通过控制仿真时钟速度加快仿真速度. 虽然该环境可以获得当前对抗的图片信息, 但考虑到真实对抗过程中, 决策的数据是经过多传感器综合处理后的目标特征. 红方的导弹特征包含经度、纬度、高度、速度、偏向角、燃料、所处阶段等, 蓝方的拦截导弹的特征包含经度、纬度、高度、速度等. 环境定义奖赏函数为燃料的消耗量以及预计落点相对目标的变化量:1 tr fuel dis a+=-D + D, 其中1 3 e a = -. 此外在仿真结束时刻, 如果击中目标则额外赋予+1 的奖赏值, 反之则为- 1. 仿真结束的包含三种情况: 红方导弹被拦截; 红方导弹突防成功并击中目标; 红方导弹突防成功未击中目标. 3.2 经典控制任务实验 CartPole- V0、MountainCar- V0以及A crobot - V1等OpenAI Gym 中的经典控制任务有着相似的任务特征，本文在附录4 中对实验的设置进行了描述，在本节中对实验的相关算法以及实验结果进行对比分析。在附录6 中，对MDN- RNN所学习的环境模型进行了展示。 3.2.1 对比算法为了更好地描述VMAV - C 模型的的性能, 本文提出了两个基线算法与VMAV - C 方法进行了对比. 1. 经过编码表示的输入的PPO 算法（Contractive PPO , CP）. 该方法将从真实环境中获得的图片, 放入VAE 模型中, 获得当前状态的编码表示, 并将此编码表示作为agent 的决策输入. 梁星星等: 基于自回归预测模型的深度注意力强化学习方法 9 2. 带MDN_RNN模型输入的PPO 算法（MDN- RNN PPO algorithm , MPR）. 该方法以Ha D等人[15]所述的方法作为基础, 但在controller模型中采用PPO 算法进行策略学习. 此外, 在这些实验中还包括了完全在虚拟环境中训练agent进行决策的场景. 本文将从实际环境中随机抽取一些初始状态进行编码作为虚拟环境的初始状态, 运行MDN- RNN, 自动生成给定动作的未来状态、反馈奖赏和改进策略. 此外，在实际环境中运用该学习策略, 对累计奖励进行无折扣测试. 此操作与步骤4 不同, 因为实际环境在策略改进中不提供连续的奖励信号, 而只是在每个固定的时间段测试从虚拟环境中学习的策略. 因此, 采用PPO 算法, 作为agent 的控制器通过与虚拟环境的交互直接学习策略. 3.2.2 结果与分析实验结果分析在经典控制问题中, 采用了CP模型、MRP模型和VMAV - C 模型, 三个模型均使用PPO 算法在真实的环境中进行了训练, 模型差异见表1 . 本文将分别分析上述三种模型无折扣累积奖赏和状态值网络的损失, 结合表1与图7 中分析其背后的潜在原因. 此外, 还考察了VMAV - C 在虚拟环境中的性能, 在图7 中, 用Vi r- VMAV - C 进行表示, 同上述三种模型一起进行了比较. 表 1 经典控制任务环境中的对比模型 Table 1 Comparison model in classic control environment 模型训练环境输入有无注意力机制 CP模型真实环境最近的四帧图片无 MRP模型真实环境 MDN- RNN的隐层状态与当前时刻的观测编码无 VMAV - C 模型真实环境 MDN- RNN的隐层状态与当前时刻的观测编码有 Vir- VMAV - C 模型虚拟环境 MDN- RNN的隐层状态与生成的当前时刻的观测编码有根据每个任务的特性，真实环境中训练的三个模型在训练中的迭代次数为5 0000次及以上, 每次迭代交互过程中最多有32 个步骤的转换序列, 剧烈波动的阴影曲线是结果中的真实累积值. 为了更好地显示结果, 使用TensorboardX [34] 将这些结果平滑为深色曲线. 图7 分别展示了三个任务下的实验效果。 10 Fig7 . Cumulative Rewards and Value Network Lossesrewards and value network losses are respectively set as 0.9 and 0.9图 7 经典控制任务下的CP模型好的特征表示是深度强化学习成功的关键因素. 在这一采用最近的四个观测作为决策所需的状态, 测试在这一条件下在经典控制任务的三个实验中可以看到, 同MRP的损失下降, agent 虽然也能够逐渐学习到较好的策略MDN- RNN模型不仅能够对过去的信息进行良好的总结相比单纯的图片信息，更能够反映当前的实际状态. MRP模型单纯的状态表示仅仅对当前的状态进行了较好的特征提取Journal of Software 软件学报 . Cumulative Rewards and Value Network Losses under Classic Control Environment . Smooth rates in test rewards and value network losses are respectively set as 0.9 and 0.99 5 in Tensorboard. 经典控制任务下的累计奖赏以及值函数损失表示在这一模型中, 本文仅利用VAE 模型对状态输入进行表示,测试在这一条件下a gent 的学习效果. MRP模型相比，仅仅利用单纯的图片编码信息, 随着值函数虽然也能够逐渐学习到较好的策略, 但所需要的样本更多, 学习速度慢. 可以得出结论，模型不仅能够对过去的信息进行良好的总结，而且还包含这堆未来信息的预测，获得的状态表示单纯的状态表示仅仅对当前的状态进行了较好的特征提取, 但没有包含环境变化的趋势预测信息. 梁星星等: 基于自回归预测模型的深度注意力强化学习方法 11 MDN- RNN模型从已有样本中对环境进行学习, 利用当前的动作, 过往的隐藏信息预测环境的未来状态, 该隐藏信息不仅包含对过往信息的总结, 同时也包含了对未来的预测. 本文利用当前的状态以及对环境预测的信息得到的决策向量, 作为agent 的决策依据. 实验结果表明, 结合编码信息和预测信息的agent 能够快速对环境进行适应. 相对于仅采用编码的训练方式, agent 所需训练样本更少, 能够较快的达到较高的累积奖赏, 而且值函数的损失相比CP 模型下降更快. 但同VMAV - C 模型相比，在Critic模型中没有包含注意力机制以及预训练，critic函数的损失收敛较慢，使得算法性能落后于VMAV - C 模型。该对比试验验证了critic函数对稳定actor函数具有重要影响。 VMAV- C 模型 RNN网络的隐藏信息虽然包含了对环境的预测信息, 但忽略了信息的时间尺度, 仅依赖上一时刻的预测信息作为输入, 没有对历史信息进行足够的区分. 带注意力机制的world models 根据人类的思考方式, 综合判断最近几次动作的行为, 获得对当前状态值更好地估计. 带注意力机制的world models 同原始的world models 相比, 具有更快的学习能力, 达到同样的效果所需要的样本量更少. 同时, 对比两者的值函数损失值, 结果表明在注意力机制的影响下, agent 对状态值收敛更快, 进而对策略具有更强的指导能力. Vir- VMAV- C 模型 Vir- VMAV - C 模型不同真实环境进行交互, 仅依靠MDN- RNN模型对环境进行向前推理. 在具体实验设置中, 本文从经典任务的初始状态中采样一帧图片, 对其进行编码后传入 MDN- RNN 模型中进行虚拟交互. 同VMAV - C 模型的实验过程相同, 每经过1000次的训练后将所得actor模型在真实环境中进行10次测试后取其均值. 从图7 可以看出, Vir- VMAV - C 模型的训练结果同 MRP模型类似, 但弱于在真实环境中进行训练的VMAV - C 模型. 考虑到经典任务环境相对简单, 本文没有迭代式地对MDN- RNN模型进行训练。由于虚拟环境的自身特性，因而在该训练环境下无法达到真实环境中的训练效果. 该实验验证了基于循环神经网络的MDN- RNN模型能够学习环境的动态性，且在该虚拟环境中进行一般性的强化学习训练能够达到同真实环境中训练相当的效果。训练虚拟环境所使用的交互样本少，而且达到同等效果所需的时间仅为真实环境所需时间的1/5（算法的软硬件环境描述见附录5 ）。注意力权重分析为了理解注意力机制在值函数估计中的作用，我们考察了三种任务下，在一次试验中四个潜在状态的注意力权重变化。如图 8 所示，在CartPole- V0任务中，我们发现，在实验的初期，第四个潜在状态对值估计具有较高影响，四个潜在状态按照距离当前时刻的远近，权重依次降低，而到了实验的后期，四个状态对值估计趋于同等权重；在MountainCar- V0任务中，在运行之初，更偏重于第四个潜在状态，而越到后期更偏重于第一和第四状态，但更偏重于第一状态，我们认为这主要是由于该任务相邻的状态间难以分析山地车的相关速度信息，而较大的时间间隔能够获得相对速度信息，有助于做出更为准确的状态值估计；在A crobot - V1任务中，在前期的摆动中，状态值估计更偏好于第四状态，在摆动的中期，则对四个状态给予同等的权重，到了后期，则更偏好于第一和第四状态，这样的分布变化是由该任务的特性所决定的。A crobot - V1的摆动过程也可以看做三个阶段进行，首先是起始的加速度，将链接摆动到中间位置，其次在中间位置时，需要调整下摆的位置，避免两杆的重合，在最后一个阶段，下摆要超过上杆并达到指定高度，因而需要对远近的状态进行比较。 12 Journal of Software 软件学报 Fig.8 Attention Weight Change under Classic Control Environment . Smooth rates are respectively set as 0. 97 in Tensorboard. 图 8 经典任务下的注意力权重变化 3.3 导弹智能突防实验 CartPole 实验验证了虚拟环境中对Agent 训练的可行性，而且基于注意力机制的critic模型对actor模型的稳定具有重要影响。在智能突防的实验中, 本文直接使用带注意力机制的PPO 算法（critic模型使用最近的4 个MDN- RNN模型隐层状态）在多种数据获得的虚拟环境和真实环境中, 分别对控制模型进行训练. 在本文中每经过100 次训练, 对控制器模型进行15次测试, 获得当前模型的突防成功概率. 对比算法的差异如表2 所示。表 2 导弹智能突防实验的对比模型 Table 2 Comparison model in penetration mission 模型训练环境 MDN- RNN数据来源 VMAV - C 真实环境基于规则的内置策略产生的环境转移 Two iteration 虚拟环境 Random policy训练结束后的预训练的Agent 产生的环境转移 Rule - based 虚拟环境基于规则的内置策略产生的环境转移 Random policy 虚拟环境基于随机策略产生的环境转移图9 对不同训练条件下的获胜概率进行了表示, 其中绿色的线表示利用内置的规则进行突防的获胜概率,灰色的线表示最大的获胜概率. VMAV - C 线表示的是利用VMAV - C 方法和内置策略获得的MDN- RNN模型, 在真实环境下进行训练的效果; Two it eration 线表示利用VMAV - C 方法和预训练策略获得的MDN- RNN模型, 在虚拟环境中进行训练的效果; Rule - base d 线表示利用VMAV - C 方法和内置策略获得的MDN- RNN模型, 在虚拟环境中进行训练的效果; Random policy 线利用VMAV - C 方法和随机策略获得的MDN- RNN模型, 在虚拟环境中进行训练的效果. 梁星星等: 基于自回归预测模型的深度注意力强化学习方法VMAV - CRandom policyRule - basedTwo iteration胜率Fig9 . Win probability in the Actual Environment and Virtual Enrespectively set as 0.95 in Tensorboard.图 9 智能突防场景胜率表示从图9 中可以看到, VMAV - C 线训练效果最好, 在经过iteration 线和Rule - baesd 线效果相近, 经过训练, 胜率可以达到始终在0.1 以下. 经过分析, 我们发现利用随机策略采样得到的样本中目标的实验片段, 而利用该学习之后的策略再次从环境中采样反映攻防对抗动态性的MDN- RNN模型, 其达到的效果可以媲美基于内置策略获得的尽管VMAV - C 线获得的效果优于Two iteration 线和随机因子的影响为了分析MDN- RNN 模型的随机性对虚拟环境的影响MDN- RNN模型的基础上, 考察了控制器模型在三个随机因子Fig10. Win probability in Various τ Values of GMMs. The smooth rates in Tensorboard is respectively set as 0.9 for tested rewards. 图 10不同随机因子对突防概率的影响基于自回归预测模型的深度注意力强化学习方法 13 Random policyiteration迭代次数 . Win probability in the Actual Environment and Virtual En vironment. Smooth rates in win probability is respectively set as 0.95 in Tensorboard. 智能突防场景胜率表示在经过10000 次的片段训练后, 胜率可以达到0.8; 其次Two 胜率可以达到0.7; 而Random policy 线训练效果最差, 获胜概率我们发现利用随机策略采样得到的样本中, 没有成功击中目标的片段, 因而无法准确仿真出击中而利用该学习之后的策略再次从环境中采样, 获得了一些成功的片段, 所获得样本能够训练出其达到的效果可以媲美基于内置策略获得的 MDN- RNN模型. 此外,线和Rule - baesd 线, 但其所花费的时间远大于后者. 对虚拟环境的影响, 本文在基于内置策略采样的数据得到的考察了控制器模型在三个随机因子 0.8,1.0, } ={ 1.2 t 下的影响. Values of GMMs. The smooth rates in Tensorboard is respectively set as 不同随机因子对突防概率的影响 14 Journal of Software 软件学报从图1 0 可以看出, 随着随机因子的提高, 导弹的突防概率有所下降. 当 8 =0. t 时, 突防概率最高, 突防概率可以达到75% 附近; 当=1.0 t 时, 突防概率可以达到70% 左右; 当 2 =1. t 时, 突防概率则在6 0%左右. 为了分析这一原因, 本文分别选取了各随机因子下的一段仿真片段进行解码还原. 经过分析发现, 随机因子越低, 对导弹的对轨迹还原越精确; 随机因子越高, 导致导弹的飞行轨迹偏离实际运动模型, 进而导致在虚拟环境中无法有效判别蓝方导弹是否有效拦截红方导弹, 使得在真实环境中测试时效果较差. 4 结论深度强化学习的进步为智能决策的发展提供了新的契机. 无模型的强化学习通过同环境的交互可以获得容量相当的模型, 然而其需要大量的样本, 数据利用率低; 基于模型的强化学习方法, 通过规划能够快速得到决策模型, 但其泛化能力较弱, 对环境模型要求高. 本文对世界模型的工作进行了修改, 改进了策略学习过程, 包括将注意力机制纳入状态值估计函数, 利用基于PPO 的AC 算法优化离散动作空间的任务的策略学习, 并利用高斯采样动作对导弹智能突防场景的突防策略进行了学习. 实验结果证明了这些改进的有效性, 加快了策略的学习速度, 并进一步证明了结合VAE 和MDN- RNN的有限经验可以建立对任务有益的虚拟环境模型, 在虚拟环境中的训练大幅提高了Agent 的数据效率. 在实际仿真系统中, VMAV - C 的性能优于以前的工作, 大幅提高数据的利用效率, 且在虚拟环境中训练的Agent 也能够学习有效的策略. 在未来, 我们将探索建立更多环境模型的方法, 在更加复杂的任务中应用该模型; 此外更多地关注多Agent系统, 以提高仿真性能和效率. References : [1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, and G. Ostrovski, “Human- level control through deep reinforcement learning,” Nature, vol. 518, no. 7540, pp. 529, 2015. [2] D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, and A. Bolton, “Mastering the game of Go without human knowledge,” Nature, vol. 550, no. 7676, pp. 354, 2017. [3] R. Conde, J. R. Llata, and C. Torre- Ferrero, “Time- varying formation controllers for unmanned aerial vehicles using deep reinforcement learning,” arXiv preprint arXiv:1706.01384, 2017. [4] S. Shalev-Shwartz, S. Shammah, and A. Shashua, “Safe, multi-agent, reinforcement learning for autonomous driving,” arXiv preprint arXiv:1610.03295, 2016. [5] P. -H. Su, M. Gasic, N. Mrksic, L. Rojas- Barahona, S. Ultes, D. Vandyke, T.-H. Wen, and S. Young, “On- line active reward learning for policy optimisation in spoken dialogue systems,” arXiv preprint arXiv:1605.07669, 2016. [6] Q. Wang, X. Zhao, J. Huang, Y. Feng, J. Su, and Z. Luo, “Addressing Complexities of Machine Learning in Big Data: Principles, Trends and Challenges from Systematical Perspectives,” 2017. [7] V. Pong, S. Gu, M. Dalal, and S. Levine, “Temporal difference models: Model - free deep rl for model-based control ,” arXiv preprint arXiv:1802.09081, 2018. [8] A. Nagabandi, G. Kahn, R. S. Fearing, and S. Levine, "Neural network dynamics for model- based deep reinforcement learning with model- free fine - tuning." pp. 7559-7566. [9] S. Kamthe, and M. P. Deisenroth, “Data-efficient reinforcement learning with probabilistic model predictive control,” arXiv preprint arXiv:1706.06491, 2017. [10] R. S. Sutton, "Integrated architectures for learning, planning, and reacting based on approximating dynamic programming," Machine Learning Proceedings 1990, pp. 216 -224: Elsevier, 1990. [11] A. Kumar, A. Biswas, and S. Sanyal, “eCommerceGAN: A Generative Adversarial Network for E- commerce,” arXiv preprint arXiv:1801.03244, 2018. [12] N. Heess, G. Wayne, D. Silver, T. Lillicrap, T. Erez, and Y. Tassa, "Learning continuous control policies by stochastic value gradients." pp. 2944- 2952. 梁星星等: 基于自回归预测模型的深度注意力强化学习方法 15 [13] Y. Chebotar, K. Hausman, M. Zhang, G. Sukhatme, S. Schaal, and S. Levine, “Combining model -based and model- free updates for trajectory -centric reinforcement learning,” arXiv preprint arXiv:1703.03078, 2017. [14] J. W. Forrester, “Counterintuitive behavior of social systems,” Technological Forecasting and Social Change, vol. 3, pp. 1 -22, 1971. [15] D. Ha, and J. Schmidhuber, “World Models,” 2018. [16] L. Chang, and D. Y. Tsao, “The code for faci al identity in the primate brain,” Cell, vol. 169, no. 6, pp. 1013-1028. e14, 2017. [17] N. Nortmann, S. Rekauzke, S. Onat, P. König, and D. Jancke, “Primary visual cortex represents the difference between past and present,” Cerebral Cortex, vol. 25, no. 6, pp. 1427- 1440, 2013. [18] M. Leinweber, D. R. Ward, J. M. Sobczak, A. Attinger, and G. B. Keller, “A sensorimotor circuit in mouse cortex for visual flow predictions,” Neuron, vol. 95, no. 6, pp. 1420 -1432. e5, 2017. [19] D. Mobbs, C. C. Hagan, T. Dalgleish, B. Silston, and C. Prévost, “The ecology of human fear: survival optimization and the nervous system,” Frontiers in neuroscience, vol. 9, pp. 55, 2015. [20] G. Brockman, V. Cheung, L. Pettersson, J. Schneider, J. Schulman, J. Tang, and W. Zaremba, “Openai gym,” arXiv preprint arXiv:1606.01540, 2016. [21] R. Sun, D. Silver, G. Tesauro, and G.- B. Huang, "Introduction to the special issue on deep reinforcement learning: An editorial," 2018. [22] T. Kurutach, I. Clavera, Y. Duan, A. Tamar, and P. Abbeel, “Model -Ensemble Trust-Regi on Policy Optimization,” arXiv preprint arXiv:1802.10592, 2018. [23] A. Piergiovanni, A. Wu, and M. S. Ryoo, “Learning Real- World Robot Policies by Dreaming,” arXiv preprint arXiv:1805.07813, 2018. [24] A. V. Nair, V. Pong, M. Dalal, S. Bahl, S. Lin, and S. Levine, "Visual reinforcement learning with imagined goals." pp. 9208-9219. [25] D. Hafner, T. Lillicrap, I. Fischer, R. Villegas, D. Ha, H. Lee, and J. Davidson, “Learning Latent Dynamics for Planning from Pixels,” arXiv preprint arXiv:1811.04551, 2018. [26] G. Cuccu, J. Togelius, and P. Cudre -Mauroux, “Playing Atari with Six Neurons,” arXiv preprint arXiv:1806.01363, 2018. [27] I. Clavera, J. Rothfuss, J. Schulman, Y. Fujita, T. Asfour, and P. Abbeel, “Model-based reinforcement learning via meta-policy optimization,” arXiv prep rint arXiv:1809.05214, 2018. [28] A. Rajeswaran, S. Ghotra, B. Ravindran, and S. Levine, “Epopt: Learning robust neural network policies using model ensembles,” arXiv preprint arXiv:1610.01283, 2016. [29] J. Schulman, S. Levine, P. Abbeel, M. Jordan, and P. Moritz, "Trust region policy optimization." pp. 1889 -1897. [30] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov, “Proximal policy optimization algorithms,” arXiv preprint arXiv:1707.06347, 2017. [31] V. R. Konda, and J. N. Tsitsiklis, "Actor -critic algorithms ." pp. 1008 -1014. [32] D. P. Kingma, and M. Welling, “Auto - encoding variational bayes,” arXiv preprint arXiv:1312.6114, 2013. [33] D. Ha, and D. Eck, “A neural representation of sketch drawings,” arXiv preprint arXiv:1704.03477, 2017. [34] M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving, and M. Isard, "Tensorflow: a system for large -scale machine learning." pp. 265 -283. 附录1 深度强化学习背景知识强化学习（Reinforcement Learning, RL）是机器学习的一个子领域, 学习如何将场景（环境状态）映射到动作, 以获取能够反映任务目标的最大的数值型奖赏信号, 即在某种环境状态下, 决策选择何种动作去改变环境, 使得获得的收益最大（策略, 状态到动作的映射）. 现有强化学习方法利用马尔可夫决策过程（Markov Decision Process, MDP）从理论方面对RL 问题进行基础建模. MDP由一个五元组 , , , , S A R T g 定义, 其中, S 表示由有限状态集合组成的环境; A 表示可采取的一组有限动作集; 状态转移函数 : ( ) T S A S ´ ®D 表示将某一状态- 动作对映射到可能的后继状态的概率分布, ( ) S D 表示状态全集的概率分布, 对于状态, ' s s S Î 以及a AÎ , 函 16 Journal of Software 软件学报数T 确定了采取动作a 后, 环境由状态s转移到状态' s 的概率; 奖赏函数( , , ') R s a s 定义了状态转移获得的立即奖赏;g 是折扣因子, 代表长期奖赏与立即奖赏之间的权衡. 同基本的强化学习方法相比, DRL将深度神经网络作为函数近似和策略梯度的回归函数. 虽然使用深度神经网络解决强化学习问题缺乏较好的理论保证, 但深度神经网络的强大表现力使得DRL的结果远超预期. 近端策略优化在非凸优化的情况下, 梯度可以用数值方法或抽样方法计算, 但很难确定适当的迭代学习率, 需要随时间变化以确保更好的性能. 早期的强化学习研究在使用基于梯度的优化技术时也遇到了这样的困境, 为了规避瓶颈, Schulman等人[29] 提出了一种处理随机策略的信任域策略优化（Trust Region Policy Optimization, TRPO）算法, 该算法在目标函数中考虑了旧策略和更新策略之间的Kullback - Leibler （KL）发散, 并能对每个状态点的KL 发散进行有界处理. 该方法跳出了对学习率的修正, 使策略改进过程更加稳定, 理论证明该方法单调地增加了累积奖赏. 考虑到TRPO 中二阶Hessian矩阵计算的复杂性, Schulman等人[ 30]进一步发展了一阶导数近端策略优化（proximal policy optimization, PPO ）算法. 近端策略优化方法同TRPO 方法一样, 定义了surrogate 目标: ( | )ˆ ˆmax ( ) max [ ( ) ], ( ) ( | )oldCPI t tt t t tt ta sL r A ra sqqpq q qp= = E 其中, p 代表策略,oldqp 代表上一时刻的策略,ˆtA 估计了动作ta 在状态下ts 的优势函数. 在PPO 中, 对上述代理目标进行了裁剪: ˆ ˆ ˆ( ) [min( ( ) ,clip( ( ),1 ,1 ) ]CLIPt t t t tL r A r A q q q e e = - + E , clip( , , ) , , MIN MAXMIN MAX MIN MINMAX MAXx if x x xx x x x if x xx if x x£ £ ìï= <íï<î 该目标 ( )CLIPL q 实现了一种与随机梯度下降兼容的信赖域修正方法, 并通过消除KL 损失来简化算法以及减小适应性修正的需求. 附录2 训练步骤预训练VMAV- C 模型 VAE 、MDN- RNN、AVF 和Controller模型的目的是同时学习环境中状态的表示和动态转移, 但是网络结构的庞大参数和复杂性使得VMAV - C 的训练变得困难和耗时, 因此同步预训练VMAV 是本文实验中的必要步骤. 为了实现这一目标, 首先需要与实际环境的一系列互动, 利用随机策略获得多个完整的训练片段, 如步骤0 中的集合 1 1 1{ {( , , , , )}}t t t t tepisode x a x r d+ + += . 环境的屏幕截图用作VAE 的训练数据集, 在相对简单的任务中初始采样包含了环境的动态信息, 尤其是状态表示和有关环境转移的信息. 在图6 的步骤1 中, 将作为VAE 输入的整个状态数据集随机分为两部分, 75% 用于训练过程, 其余部分用于测试重构性能. 在此过程中, 通过对测试数据集重构误差的监测, 有效地探索了图像的环境潜在空间. 一旦完成VAE 的训练过程, 用低维向量编码采集到的图像作为MDN- RNN模型的输入. 在将采样片段应用于MDN- RNN之前, 本文首先按照时间顺序将这些片段合并成一个长序列, 然后分割成梁星星等: 基于自回归预测模型的深度注意力强化学习方法 17 固定长度的小序列作为数据集学习MDN- RNN. 经过几次迭代后, AVF 将加入到预训练过程中. 步骤2 得到了一个隐藏在MDN- RNN中的虚拟环境. 算法1. 预训练 VMAV - C 模型输入: 利用随机参数初始化 VAE, MDN - RNN, AVF 输出: 训练好的 VAE, MDN- RNN以及预训练的AVF (1) 利用随机策略通过环境交互N 次, 存储所有的动作、观测、奖赏以及结束标记. 1 1 1{ {( , , ,? , )}}t t t t tepisode x a x r d+ + +=到内部存储D 中 (2) 收集所有的观测 { }tx 训练 VAE 模型 While VAE 未收敛 do: 采样观测的mini - batch ( ) ( )( ) ( ) ( )22 2 21 11 1[ ( ln )2j j jN kvae i i i j xi xi xiloss VAE x x kNm s s= == S - + S + - - 后向传播更新 VAE // 默认优化器是RMSProp (3) 收集 MDN- RNN的训练数据集 For episode in storageD: 将片段转换成固定长度为L 的序列 For each time step: 规范化采集样本为 ( ) ( )1 1 1 1( , , , , )t Enco t t t Enco t t tz VAE x a z VAE x r d+ + + += = 将这些 mini - sequence 存储至内存 M (4) 训练 MDN- RNN While MDN- RNN 未收敛 Do: 从

中采样batch 计算损失函数 1 2* *total s pL L L b b = + 后向传播更新 MDN- RNN // 默认优化器是Adam (5) 训练 AVF While AVF 未收敛 Do: 从MDN RNNM-中采样mini - batch 生成 , 并按照图5 所示规范化数据集使用 n - step 返回: ( )1010, ,? 00,? 1T tt T T TT tt Tr AVF z h if dVr if dll-=-=ì S + = ï=íS + = ïî% 损失函数( ) ( )2,AVFloss V AVF z h =- - E% 18 Journal of Software 软件学报后向传播更新 AVF // 默认优化器为Adam 训练MAV- C 模型步骤2 学习了一个基于MDN- RNN的虚拟环境模型, 从理论上揭示了状态和奖赏信号的转移. 在步骤3 中,通过与虚拟环境的交互训练AVF 和控制器, 并利用PPO 算法对控制器模型进行优化. 在步骤4 中, 使用步骤3中的VAE 、MDN- RNN和训练有素的控制器在实际环境中进行决策. 此外, 除了在策略学习中使用虚拟环境信息外, 步骤4 也是利用MDN- RNN在真实环境中训练控制器模型的过程. 算法2 给出了离散环境下的控制模型训练过程. 算法2. 基于 PPO 的MAV- C 模型训练输入: 训练好的 VAE, MDN - RNN,以及预训练好的AVF 模型（1 ）初始化环境, 采样获得初始状态（2 ）For i = 0 ,1 , . . , K : 驱动Agent 同虚拟环境MDN- RNN进行交互, 收集训练中的RNN的隐藏信息h , 本征向量z , 动作a 和奖赏r 利用PPO 算法优化控制器模型:( ) ( ) ( ) ( )[min , ( ,1 ,1 ]CLPt t t tL r A clip r A q q q e e = - + E % % AVF 损失: ( ) ( ) ( )211min , , , ,T tt t T TwE r AVF h z w AVF h z w l-=S + - End For 附录3 实验设置经典控制任务经典控制任务中的环境的图片大小初始为400x600 . 我们发现CartPole- V 0 环境中的大部分区域都是空白,因而, 我们将倒立摆的位置做为图片中心, 将原图裁剪为160x320 大小（如果倒立摆的位置靠近边缘, 则截取边缘的320 个像素点）, 之后进一步的将图片压缩为40x80 大小. 对于MountainCar- V0以及A crobot - V1，为了保持图片原本的比例信息，我们将其压缩为8 0x120 大小。三种任务的VAE 网络架构相似，在图11 中进行了展示。三种任务的采集数据设置如表所示，其中MountainCar- V0和Acrobot - V1的kernel_size 和stride 设计由下方粗体公式表示。表 3 经典控制任务下采集数据设置 Table 3 Data Collecting Setting in Classic Control Environment 环境名称数据量采集信息备注 CartPole- V0 2 000episode:1500个训练，5 00个测试 , , _ , ( ) state action next state done bool 每个episode记录了从开始到结束 MountainCar- V0 2 0000step ：1 6000步训练，4 000 步 , , _ , ( ), state action next state done bool dis 一个episode太长，因而使用step 统计，并额外统计当前距离终点的距离dis，可以推导出奖赏梁星星等: 基于自回归预测模型的深度注意力强化学习方法 19 A crobot - V1 30000step：25000 步训练，5000步 , , _ , ( ) state action next state done bool 一个episode太长，因而使用step 统计 kernel size=4x4stride=(2,2)kernel size=3x3stride=(2,3)kernel size=3x3stride=(2,2)kernel size=4x4stride=(2,2)ms(0,1) z N m s = +kernel size=4x6stride=(2,2)kernel size=3x3stride=(2,3)kernel size=3x3stride=(2,3)kernel size=4x4stride=(2,2)Zrelu conv 19x39x32relu conv 9x13x64relu conv 4x6x128relu conv 1x2x512input image 40x80x3fully connect 32 1024 ®1x1024relu deconv 4x6x128 relu deconv 9x13x64 relu deconv 19x39x32 output image 40 80 3 ´ ´kernel size = 4x4stride = (2,2)kernel size = 3x3stride = (2,3)kernel size = 4x4stride = (3,3)kernel size = 4x4stride = (2,3)kernel size = 6x6stride = (2,2)kernel size = 4x4stride = (3,3)kernel size = 3x4stride = (2,3)kernel size = 4x6stride = (2,2) Fig11 . The Network Structure of VAE in C lassic C ontrol Environment . In experiments, the latent variable z obeys 32 dimensional multivariate normal distribution. 图 11 经典控制任务中的VAE 结构在获得任务的本征空间基础上, 我们对上述获得的数据中的图片状态进行压缩, 获得对MDN- RNN模型进行训练. 在训练过程中, 我们将训练样本拼接在一起构成训练集, 并按照32- step 的长度对其逐位进行切割; 将剩余的测试样本作为测试集. 这样操作, 避免了done结束位仅出现在最后一个时间片中的问题, done可以出现在每个时间序列中的任一位置, 克服了MDN_RNN模型利用该缺陷获得不良预测模型. 然而, 这样的操作带来了起始状态的隐藏层信息不准确, 起始状态的隐藏层信息应来自于初始化的隐藏层信息而非上一结束时间片传递而来的隐藏状态信息. 本文利用LSTM cell, 对每一个batch中当前时间片的后续隐藏信息是否初始化进行判断.采用算法1 中的步骤4 对MDN- RNN进行预训练, 各个环境中的参数设置如表所示。表 4 经典控制任务中MDN- RNN参数设置 Table 4 MDN - RNN Parameter Setting in Classic Control Environment 环境名称 1b 1b a lr Batch_size o ptimer t l P PO中的e CartPole- V0 1 1 1 4.77e- 5 2 56 Adam 1 0 .95 0 .1 MountainCar- V0 1 1 - 1 e - 5 1 28 Adam 1 0 .99 0 .1 A crobot - V1 1 1 1 00 1 e - 5 1 28 Adam 1 0 .99 0 .1 20 Journal of Software 软件学报导弹智能突防实验在导弹智能突防任务中, 我们构建了红方的一枚导弹突破蓝方的两枚导弹, 并命中目标的智能突防场景. 在这一场景中, 我们利用VMAV - C 方法对红方导弹的突防策略进行学习, 即根据当前的红蓝双方的信息, 决策导弹的变轨矢量以及变轨时间; 蓝方的拦截策略由内置的规则进行控制. 为了获得初始的样本, 我们利用随机策略、内置策略以及预训练策略（根据第一次虚拟训练获得的策略）对红方的导弹进行控制，分别进行了1000次的仿真实验, 从导弹进入可规划段开始采集数据, 每隔2s 对导弹进行一次规划, 将当前的红蓝双方导弹特征作为一次观测, 存入训练数据集合 1 1 1{ {( , , , , )}}t t t t tepisode x a x r d+ + += 中,其中tx 包含红蓝双方的特征. 智能突防场景中的VAE 结构图如图1 2 所示, 将原始的红蓝双方的特征信息经过两层全连接层压缩为一个8 维向量编码, 经过采样后, 之后利用两层的全连接层将采样编码解码为同维度的特征. Fig1 2 . The Network Structure of VAE in task of intelligence penetration. In experiments, the latent variable z obeys 8 dimensional multivariate normal distribution. 图 12 智能突防场景中的VAE 结构同CartPole 的固定奖赏, 该任务下的奖赏是可变的, 因而需要利用MDN- RNN的隐藏状态预测下一时刻的奖赏和结束位表示. 智能突防场景中MDN- RNN的结束位预测包含三种情况: 仿真未结束; 击中目标; 未击中目标. 此外, 在VAE 获得的潜在状态空间基础上, 对训练样本中的数据进行压缩编码. 在训练过程中, 我们将前800个episode拼接在一起构成训练集, 并按照32- step 的长度对其逐位进行切割; 将剩余的200 个episode作为测试集. 采用算法1 中的步骤4 对MDN- RNN进行预训练, 其中参数设置为1 21, 2.5 b b = = , batch大小设置为128 , 优化器选择为Adam, 学习率设置为1 5 e - , 随机性控制参数 . 在神经网络设计中, 我们将动作的8 维嵌入信息和状态的编码表示作为输入, 经过3 层的LSTM , 获得隐藏层信息, 根据此隐藏信息, 分别输出五个高斯分布的mean和log - sigma 以及他们的权重, 同时输出对 1 td+ 的预测. 在基于注意力的值函数中, 我们采用了当前4 个隐藏信息=1 t 梁星星等: 基于自回归预测模型的深度注意力强化学习方法 21 来获得注意向量. 本文利用PPO 算法对控制器模型进行训练，利用高斯分布在连续动作空间内采样动作. 附录4 VMC决策过程 obs=env.reset() h=rnn.initial_state() //初始化RNN的隐藏状态 done=Flase cumulative_reward=0 // 初始化累计奖赏 While not done: z=vae.encode( obs) // 编码环境观测, 获得状态的潜在表示 a=controller(z,h) // 输入观测的潜在表示和RNN的隐藏状态 next_obs, reward, done, _=env.step(a) // 在环境中执行动作和获得响应 cumulative_reward +=reward h=rnn.forward(a, z, h) //计算下一时刻的RNN隐藏状态 obs=next_obs return cumulative_reward 附录5 软硬件环境软件：使用的神经网络框架为是pytorch= 0.4.1，torchvision=0.2.1，数据可视化软件为tensorflow=1.13.1 ，tensorboardX = 1.4，数据处理工具numpy=1.14.6,强化学习环境为openAI gym=0.10.5 ,mujoco=1.50.1.56 。硬件：本文所使用的微机环境为包含：1 块华硕1 080TI 显卡，一块8 核Inter I7 7820X CPU，主板为华硕X299，内存为1 6G，硬盘为2 56G 的固态硬盘。附录6 MDN-RNN虚拟环境场景展示本文从经典控制任务中采样初始状态作为MDN - RNN环境的第一帧状态，在此基础上，每两步进行一次还原，进行3 2 步仿真，获得的场景图如下。 Fig13. Virtual simulation in CartPole- v0 图 13 CartPole- v0环境中的虚拟仿真 22 Journal of Software 软件学报 Fig14. Virtual simulation in MountainCar- v0 图 14 MountainCar- v0环境中的虚拟仿真 F ig15. Virtual simulation in Acrobot - V1 图 15 A crobot - V1环境中的虚拟仿真

[返回]

上一篇：面向推荐系统的图卷积网络
下一篇：基于粒子群优化的路牌识别模型的黑盒物理攻击方法