基于双重注意力机制的异步优势行动者评论家算法 - 博士论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

博士论文

当前位置：首页 > 博士论文

基于双重注意力机制的异步优势行动者评论家算法

来源：一起赢论文网日期：2020-03-29 浏览数：1802 【字体：大中小】

计算机学报 2019 年 algorithm. As we know, traditional asynchronous deep reinforcement learning can use multi-threading techniques to reduce large amounts of training time. However, when it comes to high-dimensional large-state space tasks, some valuable and important image areas and features are often ignored, such as Atari 2600 games. The reason is that Agent's attention is focused on the entire input image and all features of the image, without any emphases on some important features. To handle this problem, we employ the attention mechanism to ameliorate the performance of traditional asynchronous deep reinforcement learning models. In recent years, inspired by human vision, the attention mechanism has been extensively used in machine translation, image recognition and speech recognition, becoming one of the most noteworthy and in-depth research techniques in the area of deep learning technologies. Based on this, we put forward an asynchronous advantage actor-critic with double attention mechanisms (DAM-A3C). In DAM-A3C, there are two main characteristics: visual attention mechanism(VAM) and feature attention mechanism (FAM). First, the application of visual attention mechanism can enable Agent to adaptively engage in the image region, especially in those more important areas which can enhance the cumulative reward at each moment, reducing the computational cost of the network’s training and finally accelerating the process of learning the approximate optimal strategy. Second, via the exertion of FAM, an asynchronous advantage actor-critic is expected to pay more attention to those features with more value. What we know is that different convolution kernels can generate different feature maps by operating convolution on the image in convolutional neural network. And feature maps completely describe the image from different features. The traditional training of convolutional neural network treats each extracted feature equally, which means all features have the same proporation, instead of different levels of focus according to their value. However, some image features have a crucial role in the description of images, such as color features, shape features and spatial relationship features, etc. In order to alleviate this problem, FAM can assist Agent to converge on feature maps with rich values, which will facilitate Agent to make correct decisions. To sum up, we introduce FAM in VAM-A3C model and propose DAM-A3C model. DAM-A3C utilizes visual attention mechanism and feature attention mechanism to enable Agent to concentrate on the important areas and important features of the image, which advances the network model to recognize important information and key features of the image in a short time. We select some classic Atari 2600 games as experimental objects to evaluate the performance of the new model. The experimental result shows that the new model has better performance than the traditional asynchronous advantage actor-critic algorithm in experimental tasks. Keywords attention mechanism; double attention mechanisms; actor-critic; asynchronous advantage actor-critic; asynchronous deep reinforcement learning 1 引言深度学习[1]（Deep Learning）是机器学习领域的一种监督学习方法，在智能语音[2,3]、计算机视觉[4-6]和自然语言处理[7,8]等领域已取得了显著的应用。深度学习方法以多层感知机为整体架构，以激活函数和梯度反向传播等为训练算法，不仅能够提供端到端（end-to-end）的解决方案，而且能够在无需人工参与的前提下提取出有效的状态特征。强化学习[9]（Reinforcement Learning）不同于传统的监督学习方法，其强调的是在环境中自主学习目标策略，主要应用在工业控制、仿真模拟和游戏博弈等领域[10-12]。深度强化学习（Deep Reinforcement Learning，DRL）利用人工神经网络的特征表示能力和强化学习的策略学习能力，在复杂的高维状态空间任务中能够有效提取数据特征并作出最优策略。 Mnih 等人[13,14]在传统 Q 学习[15]算法中引入卷积神经网络（Convolutional Neural Network，CNN）来拟合值函数，提出了深度 Q 网络（Deep Q-Network，DQN）。DQN模型用于处理基于视觉感知的控制任务，在Atari 2600 平台上的大部分游戏中均表现出超出人类玩家的水平，是 DRL 领域的开创性工作。DQN 模型在训练过程中，每次选取动作都会以状态动作 Q 值作为衡量指标，这会导致学习模型出现过度拟合的问题。基于上述问题，双重深度 Q 网络模型（Double Deep Q-Network，DDQN）[16]利用两种不同的网络参数完美解决了模型过拟合的问题，两套网络参数分别用作选择动作和评估策略。DDQN 使得动作和策略相互独立，使用计算机学报凌兴宏等：基于双重注意力机制的异步优势行动者评论家算法 3 两套不同的参数来表示它们，降低了过度乐观估计 Q 值的风险，在某些基于视觉感知的游戏任务中获得了更稳定有效的学习性能。虽然 DQN 和 DDQN 算法在 Atari 2600平台的大部分游戏上表现效果惊人，但是这两种 DRL 算法采用的都是等概率采样，无法充分发挥某些重要训练样本的价值。因此，Schaul 等人[17]提出基于优先级的经验回放机制，该机制为所有的训练样本设置不同的优先级，以此代替等概率采样方式，帮助模型充分利用有价值的样本数据。不同类型的深度神经网络为 RL 算法提供了高效的表征能力，同时传统的 DRL 算法均采用了基于优先级经验回放机制来满足所有训练样本的独立性。然而经验回放机制具有其固有的欠缺性：（1）经验回放机制导致训练模型的计算量非常大，对计算设备要求过高，需要如GPU 等专门加速计算的硬件。（2）经验回放机制需要将大量的训练样本存储在经验池中，因此需要较大的存储空间。（3）经验回放机制必须使用如 Q 学习等异策略学习算法，例如 Sarsa 算法的同策略强化学习算法无法利用该机制。针对经验回放机制的上述三种问题，利用了 DRL 算法和强化学习中异步思想的异步深度强化学习（ Asynchronous Deep Reinforcement Learning，ADRL）[18]，使得传统的 DRL 模型不需要存储大量的训练样本，也不需要重放一定批量的样本来计算损失并且更新模型参数，因此极大减少了存储和计算的开销。与传统的 DQN、DDQN 等算法相比，ADRL 可以利用多线程技术加速DRL 的训练，在较短的时间内获得更好的实验效果。近年来，注意力机制（ Attention Machanism，AM）被广泛应用于机器翻译、图像识别和语音识别等领域[19-21]，是深度学习技术中最值得关注与深入研究的技术之一。 AM 通常是基于编码器 - 解码器（Encoder-Decoder）框架应用于深度学习各个领域中，实现端到端的学习。Bahdanau等人[19]基于编码器-解码器框架，利用 AM在英-法双语的翻译任务取得令人满意的结果；Xu 等人[20]借鉴注意力机制在机器翻译中的应用，提出一种用于计算机视觉任务中的视觉注意力机制（ Visual Attention Mechanism，VAM），VAM 使得算法模型将关注点聚焦于具有重要价值的图像区域，有效描述图片主题；Chorowski 等人[21]首次利用 Attention 机制用于对输出序列的每个音素和输入语音序列中一些特定帧进行关联；Sorokin 等人[22]首次将注意力机制和DRL 算法结合，在深度循环 Q 网络中引入Attention 机制，通过高亮显示智能体（Agent）正在关注的游戏屏幕区域，实现在线监测训练过程。因此，本文在异步深度强化学习模型中加入了 VAM，提出一种基于视觉注意力机制的异步优势行动者评论家算法（Asynchronous Advantage Actor-Critic with Visual Attention Mechanism，VAM-A3C），VAM-A3C 算法帮助学习模型在后续训练中充分利用重要的图像区域信息，从而 Agent能够根据这些状态信息高效地学习策略。另一方面，传统的深度强化学习算法在编码阶段利用 CNN 来提取图像的特征信息。如图 1 所示，CNN 利用多个卷积核（filter）对图像进行卷积运算，不同的卷积核会提取出不一样的特征信息，即提取出多种不同的特征图（Feature Map）。本文基于 CNN 的特征图，提出一种特征注意力机制（Feature Attention Mechanism，FAM），该机制通过给所有的特征图初始化相应的权重并在训练过程中学习权重参数。FAM 能够帮助网络模型将注意力聚焦在有价值的特征图上，从而关注图像的某些重要特征。输入图像 Feature mapFilter图 1 CNN 卷积过程 ADRL 算法利用异步方法不仅消除了训练样本的关联性，还加速了学习算法的训练过程，但是传统的 ADRL 无法将注意力集中在更有价值的图像区域和图像特征，原因在于Agent 的注意力集中于整幅输入图像以及图像的所有特征。本文提出一种基于双重注意力机制的异步优势行动者评论家算法（Asynchronous Advantage Actor-Critic with Double Attention Mechanisms，DAM-A3C），该算法在传统的基于循环神经网络的 A3C算法的基础上做了以下改进：1、在传统异步深度强化学习模型中引入 VAM，Agent能够根据不同图像区域设置的权重参数来不同程度地利用其区域信息；2、引入 FAM到 A3C 模型中，使得 Agent 重点关注图像中有价值的特征，从而直观、有效地作出正计算机学报计算机学报 2019 年确的决策。实验表明，在 Atari 2600 游戏中，基于双重注意力机制的 A3C 算法能够提升传统 A3C 算法的性能。 2 背景知识 2.1 强化学习强化学习是一种处理序贯决策任务的学习方法，其通过获得最大累积奖赏以解决决策优化的问题。智能体根据观察到的环境状态来进行自主学习，因此满足马尔科夫决策过程[23,24]（Markov Decision Process，MDP）的学习条件， MDP 可以由元组(S, A,P,R,g)来描述，其中：（1） S 指状态集合，ts ÎS 表示 t 时刻的状态；（2） A 指动作集合，ta ÎA 表示 t 时刻执行的动作；（3） P 为当前任务的状态转移概率，1( | , )t t tP s s a+表示在状态ts 下采用动作ta转移到状态t1s+的概率值；（4） R 为当前任务的奖赏函数，tr 表示 Agent 在状态ts 下执行动作ta 获得的立即奖赏；（5）g为折扣因子，用来计算累计回报。在强化学习中，智能体根据已学习到的策略p 来执行动作ta ，从状态ts 开始所有时刻的累积奖赏值，称之为期望回报。Agent所获得期望回报为 Tt tt tt tR gr¢-¢¢== å 其中 g Î[0,1]用来表示未来时刻的奖赏值对累计回报的影响程度。强化学习的最终目标是最大化Agent 在每个情节的累计回报值，以此学习到最优策略。状态动作值Q(s,a)p表示智能体在当前状态ts 下根据已知的学习策略来优先采取动作ta ，最终得到的期望回报： ( , ) [ | , ]t t tQ s a E R s s a ap= = = 同时，最优的Q 值是指 Agent 在给定状态 s 和动作 a 时，策略p 能够获取的最大奖赏值： Q(s, a) max Q(s, a)pp*= 强化学习方法包括动作值拟合方法和基于动作概率的学习方法，动作值拟合的强化学习包括 Q 学习算法、Sarsa 算法等；基于动作概率的强化学习包括策略梯度方法[25-27]。行动者评论家算法[28,29]（Actor-Critic，AC）结合了值函数学习方法和策略梯度学习方法，以策略梯度方法作为行动者算法，用于动作选择；以值函数方法作为评论家算法，用于评论动作的好坏。 2.2 行动者评论家算法 AC 算法可以将策略的获取和值函数的计算进行分离，策略结构被看作行动者，值函数计算的部分被看作评论家。AC 算法结构如图 2 所示，行动者表示 Agent 在当前状态下根据策略p 采取一个动作，使环境迁移到下一个状态；评论家得到动作时，利用时间差分（Temporal Difference，TD）误差项来评论当前状态所采取动作的优劣性。TD误差的计算公式如下所示： 10( ) ( )ni nt t i t n tid gr gV s V s=+ +== å + - 其中t ir+表示 Agent 在状态t is+根据策略p采取t ia+所获得的立即奖赏， ( )tV s 表示在状态ts 的期望回报。TD 误差若大于 0，则学习算法在后续状态中应积极采用动作ta ；TD 误差若小于 0，则学习算法在后续状态中应降低采用动作ta 的概率。策略环境值函数动作立即奖赏状态 TD误差行动者评论家图 2 AC 算法结构图 AC 算法将行动者部分和评论家部分独立出来，能够对值函数和策略函数的训练同步进行，从而减少模型的训练时间；同时，AC 算法是一种策略梯度算法，当动作空间是连续的时候，动作选择时不需要为无穷的动作进行大量的计算。 2.3 优势行动者评论家算法计算机学报———————— 本课题得到国家自然科学基金(61772355，61303108，61373094)、江苏省高等学校自然科学研究重大项目(17KJA520004)、吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04)、苏州市应用基础研究计划工业部分(SYG201422)、苏州市民生科技项目(SS201736)资助. 凌兴宏，男，1968 年生，博士，副教授，主要研究方向为机器学习、强化学习研究. E-mail: lingxinghong@suda.edu.cn. 李杰，男， 1994 年生，硕士研究生，主要研究方向为深度学习、深度强化学习 . E-mail: 20165227030@stu.suda.edu.cn. 朱斐(通讯作者)，男，1978 年生，博士，副教授，CCF 专业会员，主要研究方向为机器学习、生物医学信息. E-mail: zhufei@suda.edu.cn. 刘全，男，1969 年生，博士，教授，博士生导师，CCF 高级会员，主要研究方向为机器学习、智能信息处理. E-mail: quanliu@suda.edu.cn. 伏玉琛，男，1968 年生，博士，教授，CCF 高级会员，主要研究方向为强化学习、人工智能. E-mail: yuchenfu@suda.edu.cn. 基于双重注意力机制的异步优势行动者评论家算法凌兴宏 1),2) 李杰 1),2) 朱斐 1),2),* 刘全 1),2),3),4) 伏玉琛 5) 1)(苏州大学计算机科学与技术学院江苏苏州 215006) 2)(苏州大学江苏省计算机信息处理技术重点实验室江苏苏州 215006) 3)(吉林大学符号计算与知识工程教育部重点实验室长春 130012) 4)(软件新技术与产业化协同创新中心南京 210000) 5)(常熟理工学院计算机科学与工程学院江苏常熟 215500) 摘要深度强化学习是目前机器学习领域发展最快的技术之一。传统的深度强化学习方法在处理高维度大状态的空间任务时，由于庞大的计算量导致其训练时间过长。虽然异步深度强化学习利用异步方法极大缩短了训练时间，但会忽略某些更具价值的图像区域和图像特征。针对上述问题，提出了一种基于双重注意力机制的异步优势行动者评论家算法。新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型。其中，特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重，使得智能体聚焦于重要的图像特征；同时，视觉注意力机制为图像不同区域设置权重参数，权重高的区域表示该区域信息对智能体后续的策略学习有重要价值，帮助智能体更高效地学习到最优策略。新算法引入双重注意力机制，从表层和深层两个角度对图像进行编码表征，帮助智能体将聚焦点集中在重要的图像区域和图像特征上。最后，通过 Atari 2600 部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性。关键词注意力机制；双重注意力机制；行动者评论家；异步优势行动者评论家；异步深度强化学习中图法分类号 TP18 Asynchronous Advantage Actor-Critic with Double Attention Mechanisms LING Xing-Hong1),2) LI Jie1),2) ZHU Fei1),2),* LIU Quan1),2),3),4) FU Yu-Chen5) 1)(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu, 215006) 2)(Provincial Key Laboratory for Computer Information Processing Technology, Soochow University, Suzhou, Jiangsu, 215006) 3)(Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, Changchun, 130012) 4)(Collaborative Innovation Center of Novel Software Technology and Industrialization, Nanjing, 210000) 5)(School of Computer Science and Engineering, Changshu Institute of Technology, Changshu, Jiangsu, 215500) Abstract In recent years, deep reinforcement learning (DRL), which combines deep learning and reinforcement learning together, is a new research hotspot in artificial intelligence. As DRL takes advantage of deep learning, it is able to take raw images as input, which extends applications of reinforcement learning. Mean while, DRL retains the advantages of reinforcement learning in application such as intelligent policy decision or robotic control. However, traditional DRL such as deep Q-network (DQN) or double deep Q-network (DDQN), could hardly deal with complex tasks with high-dimensional state in a short time. Researchers have proposed many methods to solve this problem, and asynchronous advantage actor-critic (A3C) is one of the most used 计算机学报凌兴宏等：基于双重注意力机制的异步优势行动者评论家算法 5 行动者评论家网络（ Actor-Critic Network，ACN）将深度学习算法引入到 A3C算法中，ACN 可以在高维度状态空间内有效学习，使得传统的 AC 算法不需要进行复杂的人工预处理。与 AC 算法相似，ACN包括两个部分：（1）值网络，即 ( ; )vV s q ，vq 表示值网络的参数。值网络用来评价 Agent 在当前状态ts 下所采取动作ta 的好坏；（2）策略网络，即 ( | ;t tpa s q），q 表示策略网络的参数。策略网络用来优化学习算法的策略。行动者评论家网络在进行策略网络更新时，平等对待每一个状态动作对，对每一个状态动作值的计算均采用相同的权重。然而在当前状态ts 下，采取的每一个动作所获得的奖赏是不同的，即有些状态动作对的回报值相对较高，有些动作获得的奖赏相对较低。针对此问题，ACN 引入优势函数( , ; , )t t vA s a q q ，用来评估执行动作的优劣性。这种算法称为优势行动者评论家（Advantage Actor-Critic，A2C），该算法中优势函数的计算公式如下所示： 10( , ; , ) ( ; ) ( ; )nit t v t iint n v t vA s a rV s V sq q gg q q-+=+= +-å 其中g Î[0,1] 表示折扣因子，是未来奖赏对累计奖赏的重要程度，t ir+表示立即奖赏。当 n =1时，优势函数表示 1 步回报优势函数；当 n =k 时，优势函数表示 n 步回报优势函数。A2C 算法中值网络参数和策略网络参数的梯度计算如下所示： 2( ( ; )) /v t v vdq = ¶R -V s q ¶q log ( | ; ) ( , ; , )t t t t vd a s A s aqq = Ñp q q q 其中 R 表示当前状态ts 下 Agent 根据已知策略p 选择动作ta 所获得的奖赏值。 2.4 视觉注意力机制在 Encoder-Decoder 模型结构中，Encoder 模块首先将原始输入状态信息进行编码，生成一个上下文向量，而后 Decoder模块再对该向量进行解码输出信息。传统Encoder-Decoder 模型的上下文向量对所有的输入信息平等对待，即所有输入的权重均赋值为 1，导致了模型无法充分利用重要的区域信息。因此，Bahdanau 等人[19]提出一种注意力机制，在神经机器翻译领域中引入AM，不再使用统一的语义特征，使 Decoder在输出语句时为输入序列赋值不同的权重，充分利用重要的语义信息；Xu 等人[20]首次将 AM 应用于图像处理，利用 AM 改进了Encoder-Decoder 结构，提出一种视觉注意力机制。下面具体分析 VAM 的计算过程：（1）计算 t 时刻图像各区域的视觉信息值： 1( , )tiatt ti te f a h-= 其中，ta 表示 t 时刻图像各区域的输入向量集，tia 表示图像第 i 个区域位置的输入向量；t1h-表示t -1时刻的隐层状态值；attf 表示视觉信息值的计算函数。（2）使用 Softmax 回归函数对图像各区域的视觉信息值归一化，得到t 时刻各区域的相对视觉重要性： 1exp( )exp( )titi Ntkkeea==å 其中 N 表示图像的区域总数。（3）根据图像的输入向量集和各区域的相对视觉重要性，计算t 时刻 Encoder 模块的上下文向量： 1Nt ti tikC aa== å 3 算法描述本节阐述了 DAM-A3C 算法的网络模型和算法的具体训练过程。其中 3.1 节介绍学习模型对原始数据的预处理操作，3.2 节介绍学习模型用来提取输入状态特征信息的 CNN 层，3.3 节到 3.5 节介绍 VAM-A3C和 DAM-A3C 网络模型， 3.6 节介绍DAM-A3C 模型的训练过程。 3.1 预处理网络模型在训练 Atari 2600 游戏时，首先需要利用图像预处理来去除图像的边缘区域，以降低模型训练时处理图像信息的复杂度。Atari 2600 游戏中每一帧图像的尺寸为 210´160 ，模型需要对原始图像进行预处理操作来减少计算代价，预处理操作包括灰度转换、降采样以及裁剪。通过这三种预处理操作，网络模型将原始的 RGB 三色图像转换成尺寸大小为84´84 的灰度图像。预处理操作使得网络模型将原始图像转换计算机学报计算机学报 2019 年为尺寸更小的图像，在不导致重要信息流失的前提下，可以最大限度地减少 Encoder 对输入数据的编码速度。 3.2 CNNs DAM-A3C 模型以四层卷积神经网络作为 Encoder，通过编码将输入数据变成一系列低维度的特征表示。四层 CNN 的具体信息如下：（1）第一层 CNN：输入游戏画面的尺寸为84´84´1，通过 64 个3´3 的卷积核以步幅为 2´2 对图像进行卷积运算，得到64 幅大小为 42´42 的特征图；（2）第二层 CNN：输入游戏画面的尺寸为 42´42´64，通过 64 个3´3 的卷积核以步幅为 2´2 对图像进行卷积运算，得到 64 幅大小为 21´21的特征图；（3）第三层 CNN：输入游戏画面的尺寸为 21´21´64，通过 128 个3´3 的卷积核以步幅为 2´2 对图像进行卷积运算，得到 128 幅大小为11´11的特征图；（4）第四层 CNN：输入游戏画面的尺寸为11´11´128，通过 128 个3´3 的卷积核以步幅为 2´2 对图像进行卷积运算，得到 128 幅大小为6´6 的特征图；经过四层 CNN 的编码后，模型在每一帧都会输出 128 幅尺寸为6´6 的特征图像。 3.3 VAM-A3C A3C 模型使用 CNN 网络来提取游戏画面的特征信息，每一次卷积运算都会得到一个特征图，将这些特征图映射为特征向量，特征向量的元素则代表了图像中不同区域位置的信息。传统的基于 CNN 的前馈 A3C模型（FF-A3C）直接将特征向量集合作为上下文向量进行解码，t 时刻该特征向量集合为 {}1 2, ,...,Nt t t ta =a a a 其中，N 表示在当前时刻特征图的个数，ita表示当前时刻第 i 个特征图的特征向量。在 Atari 2600 游戏中，优异的网络模型需要在短时间内获取游戏画面的特征信息，若是将注意力聚焦在整幅图像上，会使Agent 无法及时获得图像中的价值信息。因此，本文在传统的 A3C 模型中引入了视觉注意力机制，提出一种基于视觉注意力机制的异步优势行动者评论家算法（VAM-A3C）。VAM-A3C 算法在解码之前，以ta 作为输入，利用视觉注意力机制重新计算上下文向量tC ，帮助 Agent 聚焦于图像的重要区域，从而在较短时间内获得图像的有价值信息。Xu等人利用 VAM 模块处理图像描述的生成任务，通过长短时记忆网络（Long Short Term Memory Network）来对上下文向量进行解码，需要将上一时刻的隐藏状态考虑进视觉重要值得计算中。与传统 VAM 不同，VAM-A3C 引入 VAM 模块是为了加强模型对每一帧图像的编码表征能力，而不是一直对一幅图像进行编码。因此本文利用长短时记忆网络的每一个时间步来对每帧游戏画面进行编码，计算图像各区域点的视觉信息值，计算公式如下所示：其中，Linear 是一种线性函数，Tanh 是一种非线性变换。在计算视觉重要性值之后，再通过 Softmax 归一化和线性加权分别求出图像每个区域的相对视觉重要性以及上下文向量。 3.4 FAM 在图像处理中，学习模型会通过构造一组基来完整描述一张图像，这组基可以看作图像的多种描述角度。CNN 网络中的特征图可以理解为图像在同一层次上不同基的描述。Krizhevsky 等人[30]在 AlexNet 模型中通过 96 种 11´11´3 的卷积核对227´227´3的图像进行卷积运算，生成了96 张 55´55 的特征图，并对这 96 张特征图进行了可视化。如图 3 所示，这些特征图提取了与图像的频率、方向、颜色等特征的相关信息，从不同的角度全面描述了图像的细节。图 3 特征图的可视化不同卷积核通过对图像进行卷积运算生成的特征图，从不同角度完整描述了图像信息。然而，某些图像特征对图像的描述具有十分关键的作用。传统 CNN 的训练平等对待每一个提取出的特征，即每张特征图的权重赋值相同，没有重点关注某些具有重要)))((( ),(11--+=tittitanh Linearinear TWha Lhavam计算机学报凌兴宏等：基于双重注意力机制的异步优势行动者评论家算法 7 价值的特征。为了缓解此问题，本文提出一种特征注意力机制，该注意力机制可以帮助Agent 将注意力集中于具有丰富价值的特征图，这些特征图可以促进 Agent 进行正确决策。下面具体介绍 FAM 的计算流程：（1）计算 t 时刻各特征图的特征重要性值：其中{}1 2, ,...,Nt t t ts =s s s 表示所有特征图的输入向量集合，its 表示第 i 个特征图的输入向量，N 是t 时刻卷积层输出的特征图数量，t1h-表示t -1时刻的循环神经网络隐层输出值。（2）根据特征图的向量集合，计算t 时刻每张特征图的相对特征重要性，即特征图的权重：（3）对每一张特征图的输入向量和相应的权重进行线性加权，重新计算特征图的元素值： ti ti tis = ¶s 3.5 DAM-A3C 由上述 FAM 计算过程可知，FAM 模块使得图像的重要特征更加突出，权重的赋值更大，以此帮助 Agent 将注意力集中于更有价值的特征图。因此在 VAM-A3C 的基础上，本文引入了 FAM 模块，提出一种基于双重注意力机制的异步优势行动者评论家算法（DAM-A3C）。DAM-A3C 利用 VAM 和FAM，使 Agent 将注意力聚焦在图像的重要区域和重要特征这两个方面，促进了网络模型能够在短时间内感知图像的重要信息和特征。如图 4 所示，DAM-A3C 网络模型包括 FAM、VAM 和 A3C 三个模块。卷积层加权……加权求和线程1线程2线程n……策略网络值网络FAM VAM 多线程 AC卷积网络 DAM-A3C 图 4 DAM-A3C 网络模型 DAM-A3C 模型以卷积神经网络层输入的特征图向量集合ts 作为输入，通过 FAM模块重新计算所有特征图内的元素值，帮助Agent 将注意力集中于重要的特征；其次，再通过 VAM 模块计算视觉上下文向量tC ，帮助Agent 将注意力集中于重要的图像区域；最后，A3C 模块以最新的上下文向量tC 作为输入，通过多线程技术训练策略网络和值网络，所有的线程均有各自的网络模型和网络参数，且网络参数都是从共享网络中获取。A3C 中策略网络和值网络均使用了一个全连接层，其中策略网络的神经元个数是动作值的数量，用来选择最好的游戏动作；值网络的神经元个数只有一个，用来评估执行动作的好坏。DAM-A3C 模型的算法过程如下所示：算法 1. 基于双重注意力机制的异步优势行动者-评论家. )))((( ),(11--+=tittitTanh LinearWhs Linearhsfamå=--=¶Nktkttittihsfamhsfam111)),(exp()),(exp(计算机学报8 计算机学报 2019 年输入：Atari 2600 游戏的图像画面输出：共享网络参数初始化共享网络中策略函数和值函数的参数向量q 和vq 初始化共享网络时间步数 T =0 初始化各线程中策略函数和值函数的参数向量q ¢ 和vq¢ 初始化各线程时间步数 t ¬1 REPEAT 重置梯度 dq ¬0 和 0vdq ¬ 各线程从共享网络中获取参数 q¢ =q 和v vq =q¢ startt =t

[返回]

上一篇：基于通用串预测算法的AVS2屏幕混合内容帧间编码优化
下一篇：基于社会媒体内容和网络拓扑的特定话题推特摘要研究