连续空间中的一种动作加权行动者评论家算法 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

连续空间中的一种动作加权行动者评论家算法

来源：一起赢论文网日期：2017-01-28 浏览数：3114 【字体：大中小】

第39卷计算机学报 Vol.39 2016 论文在线出版号 No.182 CHINESE JOURNAL OF COMPUTERS Online Publishing No.182 ——————————————— 本课题得到国家自然科学基金项目(61272005, 61303108, 61373094, 61472262, 61502323, 61502329)、江苏省自然科学基金（BK2012616）、江苏省高校自然科学研究项目(13KJB520020)、吉林大学符号计算与知识工程教育部重点实验室基金项目（93K172014K04）、苏州市应用基础研究计划工业部分（SYG201422, SYG201308）资助．章鹏，男，1992年生，硕士研究生，主要研究方向为连续空间强化学习.E-mail：20144227041@stu.suda.edu.cn. 刘全（通信作者），男，1969 年生，博士，教授，博士生导师，中国计算机协会(CCF)高级会员，主要研究领域为智能信息助理、自动推理和机器学习.E-mail:quanliu@suda.edu.cn. 钟珊，女，1983年生，博士研究生，主要研究方向为机器学习和深度学习.E-mail:sunshine-620@163.com. 钱炜晟，男，1992年生，硕士研究生，主要研究方向为部分可观察马尔可夫模型.E-mail：20144227037@stu.suda.edu.cn. 翟建伟，男，1992年生，硕士研究生，主要研究方向为深度强化学习和深度学习.E-mail：20144227023@stu.suda.edu.cn. 连续空间中的一种动作加权行动者评论家算法章鹏1) 刘全1),2),3) 钟珊1) 钱炜晟1) 翟建伟1) 1)(苏州大学计算机科学与技术学院江苏苏州 215006) 2)(软件新技术与产业化协同创新中心南京 210000) 3)(吉林大学符号计算与知识工程教育部重点实验室长春 130012) 摘要经典的强化学习算法主要应用于离散状态动作空间中。在复杂的学习环境下离散空间的强化学习方法不能很好地满足实际需求，而通常的连续空间的方法最优策略的震荡幅度较大。针对连续空间下具有区间约束的连续动作空间的最优控制问题，提出了一种动作加权的行动者评论家算法(Action Weight Policy Search Actor-Critic，AW-PS-AC)。AW-PS-AC算法以行动者评论家为基本框架，对最优状态值函数和最优策略使用线性函数逼近器进行近似，通过梯度下降方法对一组值函数参数和两组策略参数进行更新。对两组策略参数进行加权获得最优策略，并对获得的最优动作通过区间进行约束，以防止动作越界。为了进一步提高算法的收敛速度，设计了一种改进的时间差分算法，即采用值函数的时间差分误差来更新最优策略，并引入了策略资格迹调整策略参数。为了证明算法的收敛性，在指定的假设条件下对AW-PS-AC算法的收敛性进行了分析。为了验证AW-PS-AC算法的有效性，在平衡杆和水洼世界实例中对AW-PS-AC算法进行仿真。实验结果表明AW-PS-AC算法在两个实验中均有能有效求解连续空间中近似最优策略问题，并且与经典的连续动作空间算法相比，该算法具有收敛速度快和稳定性高的优点。关键词强化学习；连续空间；函数逼近；行动者评论家；梯度下降中图法分类号 TP18 论文引用格式章鹏，刘全，钟珊，钱炜晟，翟建伟，连续空间中的一种动作加权行动者评论家算法，2016，Vol.39：在线出版号 No.182 ZHANG Peng，LIU Quan，ZHONG Shan，QIAN Wei-Sheng，ZHAI Jian-Wei，An Improved Actor-Critic Algorithm in Continuous Spaces with Action Weighting，Chinese Journal of Computers,2016, Vol.39: Online Publishing No.182 An Improved Actor-Critic Algorithm in Continuous Spaces with Action Weighting ZHANG Peng1) LIU Quan1),2),3) ZHONG Shan1) QIAN Wei-Sheng1) ZHAI Jian-Wei1) 1)(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu, 215006) 2)(Collaborative Innovation Center of Novel Software Technology and Industrialization,Nanjing, 210000) 3)(Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, Changchun, 130012) 网络出版时间：2016-12-07 17:03:14网络出版地址：http://www.cnki.net/kcms/detail/11.1826.TP.20161207.1703.002.html 计算机学报 2016年 2 Abstract Classic reinforcement learning algorithms mainly aim at the discrete state and action spaces. For the complex environment or the more applicable continuous spaces, the methods for the discrete spaces cannot satisfy the requirement. One feasible method is to discretize the state and action spaces, then the methods applied in discrete spaces can solve these problems with continuous state and action spaces. However, the reasonable discretization for the state and action spaces is not an easy problem. The methods applicable in continuous spaces do not have to discretize the state or action spaces, but most of them did not consider the constraint of the action range, additionally, the fluctuations of the optimal action were heavily. To be more applicable in continuous action spaces, we propose an actor-critic algorithm for continuous action space based on weighting of the actions by considering the constraint of the action range and decreasing the fluctuation, called AW-PS-AC. AW-PS-AC is designed in the framework of the actor-critic which is a classic method for the continuous space. The action exploration policy takes the Gaussian distribute by using the optimal action as the mean value, so that the selective action is the action with a small exploration factor. The optimal state value function and the optimal policy are approximated by linear function approximation, where the gradient descent method is utilized to update one set of the value function parameter and two sets of the policy parameters. The two sets of the policy parameters are weighted to obtain the optimal policy to constraint the optimal action, so that the optimal action will not surpass the action range and the optimal policy will not fluctuate significantly. The weighting for the actions can satisfy the constraint of the action range. Moreover, the samples can be utilized more comprehensively, resulting in a better performance under only a small amount of the data. To speed the convergence rate, an improved temporal difference algorithm is designed, where the temporal difference error (TD-error) of the value function are employed to update the optimal policy and the policy eligibility trace is introduced to improve the convergence rate for the algorithm. To prove the convergence of this proposed method, under the three given assumptions, AW-PS-AC is analyzed theoretically and its convergence is proved. On two classic benchmarks of the classic reinforcement learning benchmarks which have the nonlinear system dynamics, pole-balancing problem and puddle world problem, AW-PS-AC is compared with the representative methods which are representative in continuous spaces, namely, continuous actor-critic learning automaton (CALAC), continuous-action on Q-learning (CAQ) and incremental natural actor-critic with scaling gradient (INAC-S), and they are implemented on them. The results show that the AW-PS-AC algorithm performs well in the two experiments. The good performances in the two experiments demonstrate that the AW-PS-AC algorithm can solve the approximated-optimal problems effectively in continuous space. Compared with the state-of-the-art algorithms, AW-PS-AC outperforms them not only in convergence but also in stability. From the experiments, it is clearly that AW-PS-AC algorithm can converge only after only a few episodes, moreover, it can be stable all the time after it is converged. Key words reinforcement learning; continuous spaces; function approximation; actor-critic; gradient descent 1 引言强化学习(Reinforcement Learning，RL)，又称激励学习、增强学习，是指从状态到动作映射的一种学习，其目标是通过最大化累计奖赏来寻找最优策略[1]。近年来，强化学习在大规模空间上获得极大进展，在实际生产和生活中的运用也日益广泛，在人工智能、自动控制、运筹学、心理学、统计学和遗传算法等多个研究领域中均引起了广泛的关注。在强化学习中常用表格式存储方式保存策略，这种存储方式具有简单有效的优点，但在状态动作空间规模较大或状态动作空间连续时，会出现“维数灾难”的问题。为了解决该问题，可以将传统的强化学习算法与函数逼近方法相结合，通过函数逼论文在线出版号 No.182 章鹏等：连续空间中一种动作加权行动者评论家算法 3 近方法来近似表示值函数和策略，使学习到的经验能够泛化到整个状态和动作空间[1-4]。近年来，连续动作空间的强化学习研究逐渐增多，成为强化学习领域中的热点之一。Sutton等人首次将策略梯度和强化学习动作表示结合，提出了强化学习策略梯度函数逼近方法[5]。Peter等人将自然梯度运用在函数逼近中，并与强化学习中时间差分最小二乘算法相结合，提出了基于自然梯度的行动者评论家算法(Natural Actor-Critic，NAC)[6,7]。Millan等人将离散动作空间中获取的Q值函数直接运用在动作选择中，并利用资格迹获得最优动作，提出连续动作空间Q学习算法(Continuous-Action on Q-learning，CAQ)[8]。Hasselt等人提出了针对连续空间的行动者评论家自动学习机算法(Continuous Actor-Critic Learning Automaton，CACLA)[9]。该算法通过时间差分误差的符号决定更新是否执行，尽可能避免策略向更差的方向更新，从而提高算法效率。HJA Martin等人提出了使用K最近邻分类的时间差分算法[10]。该方法使用K最近邻分类将状态空间进行离散化，使用状态对应类别的分类器进行加权求和获得最优动作。然而，以上连续动作空间强化学习算法依然存在以下问题： ① 常见的连续空间算法多用常规的线性方法来选择动作，其具有每轮迭代的计算量和存储量少和运行速度快的优点，然而依然存在总体逼近效果较差和逼近所需情节数较多的问题。 ② 通常情况下动作空间具有上下界约束，而常用的动作逼近方法不考虑动作空间的区间约束。 ③ 大多数连续动作空间算法并不考虑优化策略选择方式，而好的策略选择方式可以大幅减少与环境交互所需要的情节数，从而提高收敛速度。为了解决以上问题，本文提出了一种动作加权行动者评论家算法。该算法使用动作加权法选取当前最优动作，解决了选择的动作不在动作空间的问题。通过策略参数直接获取最优策略，无需求解状态动作值函数并可以直接获取当前状态下应选择的动作，减少了存储量和计算量。使用改进的梯度下降算法来更新策略参数向量，将时间差分误差作为策略参数更新的重要依据，并用动作资格迹对策略进行优化以加速其更新。最后选择了两个经典的强化学习基准实验，平衡杆和水洼世界对该算法进行验证。并将AW-PS-AC算法和三种经典的连续动作空间强化学习算法CACLA，INAC-S，CAQ进行比较，实验结果表明AW-PS-AC算法具有收敛速度快和实验效果稳定的优点。 2 背景知识 2.1 马尔可夫决策过程满足马尔可夫性质的强化学习任务称为马尔可夫决策过程(Markov Decision Processes ，MDP)[1,11]。马尔可夫决策过程问题可以用四元组, , , M X U f r =< >表示。 (1)X表示状态集合，tx表示agent在第t时间步时所处的状态。 (2)U表示动作集合，tu表示agent在第t时间步时采取的动作。 (3): X U X r ´ ´ ®¡表示奖赏函数。( )1,, t t tr x u x+表示agent在状态tx执行动作tu后转移到1 tx+得到的立即奖赏。 (4): [0,1] f X U X ´ ´ ®表示状态转移函数，( )1,, t t tf x u x+表示agent 在状态tx执行动作tu时转移到状态1 tx+的概率。 Agent通过策略h来选择第t时间步的动作tu，( )tt u h x =。给定奖赏函数r，状态转移函数f，第t时间步的状态tx，动作tu，就可确定下一时间步的状态1 tx+和立即奖赏1 tr+，这被称为马尔可夫性质。强化学习的目标是寻找最优策略*h，即最大化以任一状态为初始状态的累计奖赏。折扣累计奖赏的计算公式如公式(1)所示。 ( ) ( ) ( ) 0100,h k kk k kkk R x r x h x g g r¥¥+== ==åå (1) 其中g为折扣因子，(0,1) gÎ。折扣因子可以表示agent对未来奖赏的考虑程度。 V值函数，又称状态值函数，指的是从状态x开始根据策略h获得的累计奖赏。连续空间下V函数的计算方法如公式(2)所示， ( )'( , ) ( , , ')[ ( ')] 'hhu U x XV x h x u f x u x r V x dx du gÎÎ=+òò (2) 其中( ) , , ' r x u x r =。对于任意状态x和策略h，存在某策略*h，使得( ) ( )*hh V x V x ³恒成立，则称此时的*h为最优策略，此时的V值函数为最优V值函数，记为*V值函计算机学报 2016年 4 数。最优V值函数如公式(3)所示。 ( ) ( )*maxhhx Vx V = (3) 2.2 行动者评论家方法根据agent 选择动作方法的不同，可以把强化学习方法分为三大类：行动者方法(Actor-only)，评论家方法(Critic-only)，行动者评论家方法(Actor-Critic)。行动者评论家方法是由行动者和评论家两个部分构成。行动者用于选择动作，评论家评论选择动作的好坏。行动者选择的动作不是依据当前的值函数计算得出，而是直接从存储的策略中获得。评论家一般采用时间差分误差的形式进行评论。这个信号是评论家的唯一输出，并且驱动了行动者和评论家之间的所有学习[12,13]。行动者评论家算法结构如图1所示。环境值函数策略时间差分误差奖赏评论家行动者动作状态图1 行动者评论家方法结构图传统的行动者评论家方法多用于离散状态空间和离散动作空间中。行动者根据查询表选择当前状态下应执行的动作。查询表中存储每个状态动作对所对应偏好度( ) , p x u。根据偏好度可以计算出当前状态下每个动作选择的概率。常用的动作选择方法为Gibbs软最大化方法。Gibbs软最大化方法如公式(4)所示。 ( )( )( , ),'',p x up x uuUeh x ueÎ=å (4) 评论家通常用时间差分误差来评论动作选择的好坏。评论家得到动作时，根据值函数计算出时间差分误差。时间差分误差的计算公式如式(5)所示。 11( ) ( )t t t tr V x V x dg++ = + - (5) 一种常见的调整偏好度方法如公式(6)所示。 ( , ) ( , )t t t t t p x u p x u bd ¬+ (6) 其中b表示调整步长参数。使用行动者评论家方法，可以将值函数的计算和策略的获取进行剥离，并可以同时对值函数和策略进行学习。和普通值函数方法相比，行动者评论家方法动作选择的计算量少，策略变化较为平滑，时间复杂度低，不会因为某一次值函数的更新使得策略有较大幅度的改变。 3 连续空间中的一种动作加权行动者评论家算法 AW-PS-AC算法以行动者评论家方法为基本结构。在大规模空间中，使用线性函数逼近器逼近最优值函数，使用动作加权法逼近最优策略，将资格迹运用在值函数和策略的更新中。利用梯度下降方法最小化状态均方误差函数和动作均方误差函数，并利用时间差分误差优化更新公式，最终得到最优参数向量组。该算法在连续动作空间下，能够又快又准的得到最优策略。 3.1 状态值函数表示线性方法是常用的近似状态值函数的方法。用线性函数逼近值函数的方法如公式(7)所示。 ( ) ( ) ( )1niiiV x x x qfT== = × å θf (7) 其中θ表示值函数参数向量，( ) x f表示状态x的特征向量。线性函数逼近方法能够保证所有收敛或接近局部最优的θ一定是收敛或者接近全局最优，并且当算法满足在策略(On-Policy)时，使用线性方法求得的解将与使用TD(0)算法得到的解相同[1]。因此，大多数函数逼近强化学习系统均使用线性函数逼近方法。最小化值均方误差(Mean Squared Value Error，MSVE)可以评价当前值函数参数向量的好坏。MSVE越小，说明通过值函数参数向量求得的值函数与真实值函数的差距越小，即说明当前策略参数越好。当值函数在线性表示下对值均方误差使用梯度下降得到的值函数参数向量更新公式如公式(8)论文在线出版号 No.182 章鹏等：连续空间中一种动作加权行动者评论家算法 5 所示。 ( )1 tt x ad+=+ θ θ f (8) 其中a表示步长参数，d表示时间差分误差。使用资格迹可以加快时间差分算法的收敛速度。资格迹可以当作一步时间差分算法和蒙特卡罗算法之间的桥梁。时间差分算法经过资格迹的扩展，使原本对一步更新的时间差分误差的计算优化为对平均n步更新值函数增量的计算，使得agent能够向前看到未来所有的奖赏并把未来奖赏更好地进行结合。资格迹主要分为累加迹和替代迹两种。公式(9)为累加迹(Accumulating Trace)的定义。 ( )1+t t tx gl j+= ee (9) 其中g是折扣系数，λ是迹-衰减(Trace-Decay)参数，满足条件01l £<。( ) ( )/ x V x jq= ¶ ¶。资格迹一般用来提高强化学习算法的运算效率。使用资格迹方法在使用较少的存储量和计算量的情况下大幅减少总迭代次数，加快收敛速度。 3.2 策略表示探索是强化学习问题中的重要元素。如何平衡探索和利用的问题是强化学习中的需要重点研究的课题之一。如果仅利用当前得到的最优策略去指导agent 行动，当学习不够充分时，算法容易陷入局部最优。而探索可以使得agent 在寻找最优策略时，考虑除了最优动作以外的其它动作，使得算法不易陷入局部最优。Agent通过探索可能会发现比当前策略更好的策略。由于在连续动作空间下，难以估计所有状态动作对的偏好度，因此难以将公式(4)所示的Gibbs软最大化方法作为探索策略。连续空间中常用的探索策略方法是高斯策略探索方法，即在近似最优动作的周围进行高斯探索。假设( )tt Ax为在第t次迭代下状态tx处的近似最优动作，则此时状态tx下每个动作选择的概率如公式(10)所示。 ( )( )22 ( ) / 2 1,2tt uAtt h x u esps--=x (10) 其中s表示探索的标准差。在公式(10)所示的动作选择概率中，第t次迭代时实际的选择动作tu满足( )2( , )t t tu N A x s :。其中( )2( , )tt N A x s为均值为( )tt Ax，标准差为s的正态分布。从公式(10)中可得出当动作在( )tt Ax周围时选择概率较大，而远离最优动作的动作依然会以较小的概率被探索到，探索程度受标准差参数s影响。通过高斯分布获取的策略，可以直接得到当前状态应选择的动作。与常用的动作离散化相比，无需计算和存储大量的状态动作值函数，减少了存储量，加快了收敛速度。在行动者评论家方法中时间差分误差影响策略的更新。假设agent 当前到达的状态为x，执行两个不同的动作1u和2u，得到的立即奖赏分别为1r和2r，对应的时间差分误差为( )1, xu d和( )2, xu d。如果时间差分误差满足( ) ( )12 ,, x u x u dd>。根据时间差分误差定义可得公式(11)。 ( ) ( ) ( ) ( ) 1 1 2 2 r V x V x r V x V x gg + - > + - (11) 公式(11)式变形后可以得到公式(12)。 ( ) ( )1 1 2 2r V x r V x gg + > + (12) 其中1x,2x分别表示在状态x处执行动作1u和2u得到的下一个状态。由公式(12)和值函数定义可得到此时执行动作1u优于执行动作2u。若1u表示实际选择的动作，2u表示在状态x处根据当前策略得到的最优动作，那么当( ) ( )12 ,, x u x u dd>时，则希望当前策略向动作1u方向调整。当( ) ( )12 ,, x u x u dd<时，则希望当前策略向远离动作1u的方向调整。 3.3 最优动作表示在连续动作空间中，常用的近似策略方法是先使用线性函数逼近器获取当前近似最优动作，再通过平衡探索和利用来获取当前近似策略。类似于公式(7)，通常的近似最优动作的选择方法可由公式(13)表示。 ( ) ( ) ( )T1niiix xx A yf== × = × å ψ f (13) 其中( ) x f表示状态x的特征向量。ψ表示策略参数向量。使用线性逼近器直接近似最优策略是常规的获取最优动作的方法，如公式(13)所示。这类方法具有计算量小，存储量少的优点。当策略向量的维数为m时，其在求解策略参数时计算和存储开销仅为( ) Om。然而，这些方法需要较多的情节数才能计算机学报 2016年 6 实现收敛，从而限制了其在实际中的进一步应用。因此，如何改善最优动作逼近方法从而提高算法收敛速度，是强化学习中亟待解决的一个关键问题。通常情况下，值函数范围是未知的，而动作空间的范围大多是已知的，因此，可以利用动作空间的知识来求解最优策略。为了充分地利用已知的动作空间，本文提出了动作加权法，利用两个策略向量求解当前最优动作，使得值函数的逼近方法和最优动作的逼近方法产生区别，大幅减少收敛所需情节数，提高算法的收敛速度。由于动作加权法仅需要额外存储和计算一个m维的策略参数向量，因此，在策略参数求解过程中的计算和存储开销仍为( ) Om。从以上内容可知，动作加权法能在计算和存储开销不变的情况下，充分利用已知的动作空间以提高算法的收敛速度。从而满足实际需求。假设动作空间为min max[ , ] uu，通过策略权值方法可以保证选择的动作在动作空间中。定义状态x的策略权值分别为( )1wx和( )2wx，此时状态x的最优动作表示如公式(14)所示。 ( ) ( ) ( )( ) ( ) ( ) ( )1 min 2 max1 2 1 2. . 0 , 1, 1A x w x u w x us t w x w x w x w x= × + ×£ £ + = (14) 通过对策略权值( )1wx和( )2wx的范围控制，可以保证状态x的最优动作( ) Ax在动作空间min max[ , ] uu中。使用线性方法可以对策略权值w进行计算。如公式(15)所示。 T11T22( ) ( )( ) ( )w x xw x xì =×í=× îψψff (15) 公式(15)与公式(13)类似，将原本直接对最优动作的计算改为对策略权值的计算。最终需要用归一化方法保证12( ) ( ) 1 w x w x +=，确保求得的动作在动作空间中。策略权值的更新如公式(16)所示。 ( )( ) ( )T11 TT 1221()( ) ( )1xwxxxw x w xì ×=ï× + ×íï=-îψψ ψfff (16) 在实际的动作选择中需要一定的探索来保证当前策略不会陷入局部最优。可以将公式(10)的探索机制加入到公式(15)当中，然后再进行归一化操作。这样可以确保根据策略选择的动作与最优动作有一定的差值。使用动作加权法选择的最优动作只会以较少的频率出现( ) 0iwx<或( ) 1iwx>的情况，此时可将策略权值定义为边界值，即当根据公式(14)计算的最优动作( ) Ax小于minu或大于maxu时，令其等于minu或maxu。由此，AW-PS-AC算法中选择的动作不在动作空间中的频率远小于使用一般线性方法选择动作出现该问题的频率，从而更有效地利用实验数据，和其它算法相比，当情节数较少时有更好的收敛效果。 3.4 函数逼近方法本文以最小化动作均方误差为目标，采用梯度下降方法来解决函数逼近的问题。通常采用公式(17)来表示动作均方误差(Mean Square Action Error，MSAE)。 ( ) ( ) ( ) ( ) ( )2MSAE |hx X u Ud x p u x A x u dudxÎÎ=-òò ψ (17) 其中，( )hdx表示在策略h下状态x的概率分布。( ) | p u x表示在状态x下动作u被选择的概率。( ) A x u -表示在状态x下的当前最优动作( ) Ax与实际选择动作u的差值。由于在强化学习中动作选择必须要存在探索，所以MSAE 0 >。当执行选择的动作后，均方误差越小表示最优动作和实际选择动作尽可能接近，该情况表明当前策略越好。因此，函数逼近的目标之一是使得动作均方误差最小化。然而，绝大多数强化学习问题中状态概率分布( )hdx难以获得，而且直接使用公式(17)会产生巨大的计算量和复杂的积分计算，在实际情况中很难实现。然而当样本足够多，每个状态访问的次数足够多时，根据大数定律可得此时每个状态出现的频率会与( )hdx相一致。并且当每个状态的动作选择满足当前策略时，最终得到的某一状态下动作选择的频率也会和( ) | p u x相近。因此，当样本足够多时则无需考虑( )hdx和( ) | p u x，可直接将所有样本得到的动作差值进行平方求和作为评价策略参数的标准。这不仅降低了对环境信息的依赖性，而且大幅减少计算量，同时依然可以保证计算的准确性。使用梯度下降法可以有效的减少动作均方误差。通过对策略参数向量组分别进行梯度下降可求解策略参数向量的最优值。使用梯度下降后策略参数的更新如公式(18)所示。 1 1 12 2 2( ) ( )( ) ( )uuw x xw x xbdbd= + × ìí= + ×îψ ψψ ψff (18) 论文在线出版号 No.182 章鹏等：连续空间中一种动作加权行动者评论家算法 7 其中b表示1ψ和2ψ更新的步长参数。ud表示选择动作u和最优动作( ) Ax的差值。为了提高收敛速度，可以在动作空间中使用资格迹来调整梯度下降的方向。使用资格迹可使得当前动作的选择受到之前选择过的动作的影响。动作空间中资格迹的更新如公式(19)所示。 _1 _1 1_ 2 _ 2 2( ) ( )( ) ( )uuuuw x xw x xglgl= + × ìí= + ×îeeeeff (19) 当使用高斯分布来选择动作时，ud越大表示探索程度越大，此时选择的动作有很大概率是较差动作。当ud较大时使用该动作更新策略参数向量，会使得参数向量沿着梯度方向移动较长的距离。如果当前动作为较差动作，最终导致学习到的策略参数向量会比原来的差。在3.2节中提到时间差分误差d的大小可以表示当前选择动作的好坏，因此可以将d运用在动作选择上。可以使用时间差分误差d表示沿着值函数梯度下降的长度，代替原本的动作差值ud。最终优化后的ψ的更新如公式(20)所示。 1 1 _12 2 _ 2uubdbd=+ ìí=+ îψ ψ eψ ψ e (20) 在公式(20)中，若0 d>，则ψ向梯度下降方向移动，则动作被选取概率增加。若0 d<，说明选择的动作较差，则ψ向梯度下降方向相反方向移动，则动作被选取概率降低。在公式(18)中梯度下降的长度仅仅与动作差值有关，而公式(20)中ψ受到可以评价动作好坏的d影响，从而评论家的评论可以优化行动者动作的选择，符合行动者评论家方法的要求。 3.5 算法描述和相关比较 AW-PS-AC算法是从行动者评论家算法发展而来的，行动者使用当前策略权值通过动作加权法获取最优动作，再利用高斯概率分布得到当前策略和实际执行动作。评论家通过计算时间差分误差来评价当前选择动作的好坏，并且将动作的好坏表现在策略参数的更新上。AW-PS-AC算法与其它经典的连续动作行动者评论家算法有以下两点不同： ① 最优动作表达形式不同。动作空间作为容易获得的先验知识，如果能够充分利用，则可以减少算法运行前期选择的动作不在动作空间的情况，加快算法收敛。动作加权法充分利用了动作空间的知识，并由此改进了当前由线性逼近器直接近似动作的方法，得到了新的最优动作获得方法和策略获取方法。 ② 策略参数的更新形式不同。AW-PS-AC算法以最小化动作均方误差为目标，将时间差分误差直接运用于策略权值的更新公式中，并与资格迹相结合，获得了新的策略参数更新形式。在策略参数的更新中，充分利用了每一次行动的数据，而不会像CACLA算法[9]中只使用了时间差分误差大于0的数据进行更新。使得数据的利用率更高，从而加快收敛速度。完整的AW-PS-AC算法如算法1所示。算法1. 一种动作加权的行动者评论家算法. 输入：折扣因子g、状态迹-衰减参数xl、动作迹-衰减参数ul、动作选取标准差s、动作上界maxu、动作下界minu、值函数参数更新步长a、策略参数更新步长b；输出：策略参数向量1ψ、2ψ；初始化：值函数参数向量θ，策略参数向量1ψ、2ψ，资格迹向量组xe、_1 ue、_2 ue； 1.REPEAT (对于每个情节)： 2. 0xx¬,0x为初始状态； 3. xe,_1 ue,_2 ue清零； 4. REPEAT (对于每个时间步): 5. 获得策略权值1w： ( ) ( )T2 11( ) , w x N x s × ψ : f； 6. 获得策略权值2w： ( ) ( )T2 22( ) , w x N x s × ψ : f； 7. 计算最优动作u： min 1 max 212( ) ( )( ) ( )u w x u w xuw x w x× + ×=+； 8. IF maxuu> THEN maxuu=； 9. IF minuu< THEN minuu=； 10. 在状态x执行动作u后得到奖赏r和状态' x； 11. 更新值函数资格迹xe： ( )x x xx gl =+ eef； 12. 计算时间差分误差d： ( ) ( )TT' r x x dg= + - θ θ ff； 13. 更新值函数参数向量θ： xad =+ θ θ e； 14. 更新动作资格迹分量_1 ue： ( )1_1 _112()( ) ( )u u uwxxw x w xgl = + ×+eef；计算机学报 2016年 8 15. 更新动作资格迹分量_2 ue： ( )2_ 2 _ 212()( ) ( )u u uwxxw x w xgl = + ×+eef； 16. 更新策略参数向量分量1ψ： 1 1 _1 ubd =+ ψ ψ e； 17. 更新策略参数向量分量2ψ： 2 2 _ 2 ubd =+ ψ ψ e； 18. ' xx=； 19. UNTIL x为终止状态. 20.UNTIL 到达最大情节数. 为了保证算法收敛，评论家中的步长参数ta和行动者中的步长参数tb应满足条件tt ttab= = ¥ åå，2tta <¥ å，2ttb <¥ å，lim 0tttba®¥=[12]。然而在实际使用中若使用该条件得到的步长参数进行实验，实验的收敛速度会很慢，必须经过大量的参数调整才能获得较好的收敛速度，并且在不稳定的环境下使用渐变的步长参数会使得实验效果不理想[1]。因此在实际运用中为了保持较快的收敛速度，通常会将步长参数a，b设定为较小的正常数，并且满足条件b远小于a。 3.6 收敛性分析文献[14]详细分析了在3个假设成立的情况下，使用线性函数逼近器和时间差分算法的在策略学习算法的收敛性证明。本文正是采用线性函数逼近器的在策略学习方法，同时采用时间差分算法来实现值函数学习，因此，文中算法如果满足以下3个假设，则能以概率1收敛。假设1. 马尔可夫链是不可约的且是非周期的。立即奖赏和值函数有界。假设2. 基函数向量组满秩，基函数有界。假设3. 步长参数ta是正的，非增的，已决定的（在算法执行之前就已经被选择的），并且满足公式0tta¥==¥ å和20tta¥=<¥ å。以下3个引理即为证明本算法满足文献中的假设。引理1. AW-PS-AC算法依赖的马尔可夫链具有不可约性和非周期性，且立即奖赏值和值函数有界。证明. 如果一个马尔可夫过程中任意两个状态可以相互转移，则该过程具有不可约性。本算法为解决马尔可夫决策问题的强化学习问题，对于任意状态x，' x，必定存在一个转移函数f，使得( ) , ' 0 f x x >。因此状态x可以转移为状态' x。不可约性得证。对于不可约的马尔可夫链，若某一个状态具有非周期性，则整个马尔可夫链具有非周期性。若某状态具有自回归性，则可证明该状态具有非周期性。因此，对马尔可夫链非周期性证明，即为对某状态自回归性的证明。在本算法中，对于状态x，必定存在1个f满足( , ) 0 f x x >，即证明该状态x具有自回归性，由此可得该算法具有非周期性。本算法中立即奖赏有界，即存在正实数C，使得对于任意状态x，' x和动作u，均使得( ) , , ' x u x C r <成立。根据值函数定义可得0()iiiV x E gr¥=ìü =×íý îþå，01g <<。根据以上公式可得( )00 max1iiiiiCV x C g r gg¥¥==æö £ × £ =ç÷ - èøåå。根据该不等式可得值函数( ) Vx存在上界。同理可以求得( )00 min1iiiiiCV x C g r gg¥¥==æö ³ × ³ - = -ç÷ - èøåå，根据该不等式可得值函数( ) Vx有下界。因此，值函数有界性得证。证毕。引理2. AW-PS-AC算法中基函数有界，且由agent访问的状态构建的基函数向量组线性无关。证明. 本算法中值函数的计算为线性算法，基函数使用的是归一化的高斯径向基函数。该基函数运算是以自然对数为底的指数运算，因此基函数向量所有分量均大于0。基函数进行了归一化操作，因此所有分量均小于等于1。于是基函数有界得证。假设使用高斯径向基函数的部分状态的特征向量线性相关，且满足公式1 1 2 2...nnk k k = + + + α β β β。对于状态空间中的所有点，总存在某个点，使得当该点作为中心点时使得该式不成立。将该点加入中心点集合中，即可以使得原本线性相关的向量变为线性无关。因此，按照该方法增加若干中心点后，此时就能保证访问状态构建的基函数向量组线性无关。在实际任务中，若当前基函数向量组线性相关，则说明基函数组成的矩阵不可逆。可以通过岭回归方法在原矩阵的对角线上加一个较小的常数。此时构成的新的基函数向量组可逆，而且还可以确保基函数向量组的稳定性。因此该引理得证。证毕。论文在线出版号 No.182 章鹏等：连续空间中一种动作加权行动者评论家算法 9 引理3. AW-PS-AC算法的步长参数ta为非增正数，且满足公式0tta¥==¥ å和20tta¥=<¥ å。证明. 步长参数常用的设定方法为1 / ( 1)tt a =+，其中t为时间步。很显然步长参数为正数且非增的。牛顿幂级数展开0tta¥=å可以得到公式(21)。 01 1 2 ... 1 ... lim ln( 1)tntn n r a¥®¥== + + + + = + + å (21) 其中r为欧拉常数，函数lnn为无上界的单调递增函数。因此，0tta¥==¥ å。 2 2 2 20lim(1 (1 / 2) ... (1 / ) ) 2tttt a¥®¥== + + + < å (22) 当n®¥时，满足20nnta=<¥ å。因此，该命题得证。证毕。由以上引理可以得出该算法满足引理[14]的3个假设，因此AW-PS-AC算法收敛。证毕。 4 实验结果分析 4.1 实验描述为了验证AW-PS-AC算法的可行性，对两个经典的连续动作强化学习问题，平衡杆问题[15]和水洼世界问题[16]进行实验。并且与连续动作强化学习算法：CACLA算法[9]，CAQ算法[8]和INAC-S[17]算法进行对比。 4.1.1 平衡杆图2 平衡杆示意图平衡杆问题示意图如图2所示。在水平轨道上放置一辆质量为cM=1kg的小车。在小车上固定一根质量为pm=0.1kg的杆子，杆子长度l=1m。杆子和竖直方向成一定角度，目的是使得杆子和竖直方向的角度在[ / 4, / 4] pp -范围内。为了保持杆子平衡，每t D=0.1s都需要对小车施加水平方向作用力F，作用力F的范围为50N, []50N -（右方向为正方向）。施加力F的同时，水平方向还会受到随机噪声的扰动，扰动大小范围为[ 10N,10N] -（右方向为正方向）。该问题的状态由w和w&表示。w表示杆子与竖直方向的夹角。w&表示杆子的角加速度。杆子的角加速度w&&计算如公式(23)所示。 22sinsin coscos 43pcppcF mlgmMmlmMww wwwwæö--+ ç÷+èø =æö- ç÷+èø&&& (23) 其中g为重力加速度，取为9.8112m/s。杆子角速度计算公式为t w w w = + D & & &&，角度计算公式为t w w w = + D &。奖赏值设置为当下一个状态的角度大于/4 p时，奖赏值为-1；当角度小于等于/4 p时，奖赏值为1。开始状态定义为w=0，w&=0。当该状态执行动作后状态的角度大于/4 p或者执行步数到达3000步时，该情节结束。实验的目的是保持杆子能在3000步中不会倒下并且与竖直方向夹角小于/4 p。 4.1.2 水洼世界终点区域0011 图3 水洼世界示意图图3为连续空间的水洼世界问题的示意图。图中状态空间为边长为1的正方形。图中两条线段表示为水洼所在的位置。两条线段的顶点位置分别为(0.1,0.75)，(0.45,0.75)和(0.45,0.4)，(0.45,0.8)。如果执行动作后到达的状态离水洼的最短距离d小于0.1，则奖赏值r为1 400 * (0.1 ) d - - -，其余情况下奖赏值r均为-1。在每个状态下agent都可以向任意方向进行移动，每次移动的距离固定为0.05。每次移动的过程中在x轴和y轴方向都会受到噪声的影响，噪声的大小满足均值为0，标准差为0.01的正态分布。如果某次移动后的状态超过边界，则该状态停留在边界上。水洼世界实验的目的是找到起点到终点的最短路径且行走的路径能够有效的绕过水洼。本实验中起点定义为(0, 0)，终点( , ) xy满足计算机学报 2016年 10 公式1.9 xy+>。 4.2 实验结果 4.2.1 平衡杆本实验中四种算法均使用高斯径向基函数来进行线性函数逼近。在状态空间的w分量上的中心点的取值为-0.6，-0.4，-0.2，0，0.2，0.4，0.6，该分量上宽度为0.2。在w&&分量上中心点取值为-2，0，2，该分量上宽度为2。值函数更新中步长参数0.5 a=。策略更新中步长参数0.2 b=。折扣因子0.9 g =，值函数参数向量θ初始定义为每个分量均为0。一个情节最大步数定义为3000，总情节数为3000。 0 500 1000 1500 2000 2500 3000050010001500200025003000情节数步数 CACLACAQINAC-SAW-PS-AC 图4 平衡杆实验中不同算法步数比较在平衡杆实验中，每个情节的累计奖赏和步数成正比关系，所以可以通过比较每个情节的步数来说明不同算法在平衡杆实验中收敛效果的好坏。图4为AW-PS-AC算法，CACLA算法[9]，CAQ[8]算法和INAC-S[17]算法的算法性能对比图。所有算法均实现30 次，纵坐标为每个情节的步数平均值。AW-PS-AC算法中0.9xl =，0.1ul =。动作选取过程中方差取值为0.4。在CACLA算法中动作选取过程中方差取值为3。INAC-S 算法中动作资格迹中0.2 l=，动作选取过程中方差取值为3。在CAQ算法中，基础总动作数为5个，将分别为-50N, -25N, 0N, 25N, 50N。资格迹中0.4 l=，探索因子0.01 e=。平衡杆实验的动作空间为连续闭区间，与本算法要求的动作空间一致。图4 中可以看出使用AW-PS-AC算法得到的实验结果收敛速度最快，尤其是在情节数小于200时，该算法中步数随着情节数增长的速度远高于其它算法，而且收敛后能保持长期稳定，在4个算法中收敛效果最好。与本算法类似的CACLA算法大约在500情节数时步数才能到达最高值，并且情节数过多后性能会缓慢的降低，无法持续维持较好的效果。INAC-S 算法总体收敛效果也很好，大约300情节数就能保证步数达到最高值，但是收敛速度依然略慢于AW-PS-AC算法，收敛后效果比较稳定。CAQ算法中虽然也有个别情节能够到达步数为3000 步，但总体成功率较低，同时收敛效果较差，远远达不到实验要求。四种算法的收敛效果比较如表1所示。表中首次成功表示第一次情节步数到达3000步时的情节数。成功率表示步数到达3000步的情节数与总情节数的比值。表中所有数据均为30 次实验的平均数据。通过表1可以很明显的看出AW-PS-AC算法的收敛效果上均远远好于其它算法。综合图4和表1可看出，以平衡杆为例，AW-PS-AC算法在动作空间是连续闭区间的情况下收敛速度和收敛后的稳定性好于同类型的连续动作空间的强化学习算法。表1 平衡杆实验四种算法的收敛效果比较算法名称首次成功成功率平均步数 AW-PS-AC 66 97.17% 2927.2 CACLA 416 45.09% 1683.1 CAQ 1355 0.33% 305.0 INAC-S 175 93.98% 2825.7 AW-PS-AC算法利用了动作空间的知识优化了当前的最优动作选择，同时增加了部分计算量和存储量。对于存储量，AW-PS-AC算法将通常的单个策略参数向量的存储改为两个策略参数向量组的存储，更新时对两个策略参数向量组进行更新，因此，其计算和存储复杂度仍然为() Om，其中m为策略参数向量维数。为了比较不同算法在时间性能上差距，将四种算法进行30 次实验，得到的平均每次实验所需总时间和总步数，并计算出每十万步所需时间。由于平衡杆实验的特殊性，不适合将每次实验的总时间作为时间性能衡量标准。于是，本实验中以每十万步所需时间为度量标准，评价不同算法中每一轮迭代所需时间的长短。以此为度量方法，对不同算法的时间性能进行比较。平衡杆实验的时间性能比较如表2所示。论文在线出版号 No.182 章鹏等：连续空间中一种动作加权行动者评论家算法 11 表2 平衡杆实验四种算法时间性能比较算法名称总时间总步数每十万步所需时间 AW-PS-AC 85.692s 8787391 0.9752s CACLA 45.641s 3958355 1.1530s CAQ 6.716s 968100 0.6937s INAC-S 49.911s 7207523 0.6925s 通过表2可以看出，AW-PS-AC算法虽然增加了计算量，然而每一轮迭代时间依然在可接受的范围内。CAQ算法虽然每一轮迭代时间较短，但收敛速度较慢，到达收敛时需要的情节数也较多，同时该算法在选取不同的离散动作数下，存储量和迭代次数的差距也十分大，在复杂的实验环境下效果并不好。CACLA算法在主动放弃一些不好的实验数据的情况下，每一轮迭代时间依然是四种算法中最长的。INAC-S 算法在四种算法中，每一轮迭代时间最短，并且收敛速度也较快，但总体收敛时间依然比AW-PS-AC算法长。 AW-PS-AC算法在平衡杆实验中使用不同的动作累加迹的实验结果如图5所示。图5中状态资格迹的迹-衰减参数0.9xl =。 0 50 100 150 200050010001500200025003000情节数步数 λu=0.1λu=0.5λu=0.9图5 平衡杆问题不同动作资格迹下步数比较从图5可看出，该实验中随着动作资格迹的迹-衰减参数减小，每个情节达到3000步的速度会加快，并且迹-衰减参数的值对实验的收敛速度有着一定的影响。因此，在算法中选用合适的迹-衰减参数能够大幅提高实验的收敛速度。在该实验中动作迹-衰减参数越大效果越差的原因可能是因为在平衡杆实验中相邻两步选择的动作关联性不强，新的动作无需采用最近选择的动作做参考。 4.2.2 水洼世界对于水洼世界实验，四种算法均使用高斯径向基线性函数进行线性逼近。将状态的两个维度各平分10 份，每一个顶点均为基函数的中心点。中心点宽度取值为0.05，折扣率0.95 g =，状态更新步长0.1 a=。情节最大步数定义为1000。在水洼 Word实验中通常使用每个情节的累计奖赏来衡量策略的好坏。回报值越大，说明该策略越好。不同算法实验效果对比结果如图6和表3所示。图6和表3中的回报值均为每个实验执行20次后得到的平均回报值。 0 20 40 60 80 100-2000-1500-1000-5000情节数回报 AW-PS-ACCAQINAC-SCACLA 图6 水洼世界问题不同算法下回报值比较 AW-PS-AC算法中0.9xu ll==。策略更新中步长参数0.01 b=。动作选取过程中方差取值为0.05。在CACLA算法中策略更新中步长参数0.02 b=，动作选取过程中方差取值为0.5。INAC-S算法中动作资格迹中0.9 l=，动作方差取值为0.5。在CAQ算法中，基础总动作数为5个，将动作空间平均划分，资格迹0.4 l=，探索因子0.01 e=。表3 水洼世界实验不同情节数下回报值比较算法名称前20步前40步前60步 AW-PS-AC -129.1 -89.47 -74.82 CACLA -213.9 -138.8 -109.6 CAQ -1215 -988.3 -786.1 INAC-S -400.6 -238.6 -180.7 水洼世界的动作空间是整个实数空间，并且动作值每相差2p代表的实际动作相同，而AW-PS-AC算法针对的是连续闭区间，两个对应动作空间有一定差别。可以经过简单的变换使得该水洼世界动作空间满足AW-PS-AC算法的要求：AW-PS-AC算法策略权值的参数设置为最大动作maxu p =，最小动作minu p =-。若动作值大于p或小于p -，将转化为等价的在[ , ] pp -空间中的动作。根据图6 和表3 可得，在水洼世界实验中AW-PS-AC算法的效果依然远优于其它同类算法。尤其在情节数小于10时，AW-PS-AC算法收敛速度很快。CACLA算法INAC-S算法在收敛速度和稳定性方面均略微差一些，但依然能够保证在较少情节以后实现收敛。CAQ算法在四种算法中效果最差，大约需要300个情节才能使回报值基本稳定。计算机学报 2016年 12 可见，即使在非连续闭区间情况下，AW-PS-AC算法依然会有较好的实验效果。表4呈现的是在水洼世界实验中不同算法的时间性能的比较。根据每十万步所需时间来评价四种算法每次迭代直至收敛所需时间。由于水洼世界算法的实验环境简单，模拟环境所需要的时间较少，所以水洼世界实验中每十万步所需要的时间均远少于平衡杆实验中所需要的时间。表4 水洼世界实验时间性能比较算法名称总时间总步数每十万步所需时间 AW-PS-AC 2.094s 152798 0.1370s CACLA 2.090s 170034 0.1229s CAQ 1.633s 784355 0.0208s INAC-S 1.788s 182262 0.0981s 通过表4可以看出虽然AW-PS-AC算法在水洼世界实验中每十万步所需时间最长，但是与类似的在动作空间中使用函数逼近方法算法相比，例如CACLA算法，INAC-S算法，时间性能差距并不大，而且结合图6和表4中的收敛效果可以看出总体收敛时间依然是AW-PS-AC算法最短。CAQ算法在简单环境下每次迭代所需要的时间远远少于其它算法。虽然CAQ算法收敛速度依然较慢，但也能在较短时间内学习到较优的路径。CACLA算法忽略部分较差数据的特性在水洼世界实验中产生了优势，收敛所需时间和收敛所需情节数均比平衡杆实验中的表现好，但总体性能依然弱于AW-PS-AC。INAC-S 算法虽然每十万步所需时间依然较短，但是优势已经没有在平衡杆实验中那么明显，并且收敛效果也比CACLA算法差，但总体来说，也能保持在较短时间和较少情节数下达到收敛效果。 0 20 40 60 80 100-600-500-400-300-200-1000情节数回报 λu=0.0λu=0.5λu=0.9 图7 水洼世界不同动作资格迹下回报值比较图7中表示了在AW-PS-AC算法中动作资格迹对实验效果的影响。从图7中可以看出，在该实验中迹-衰减参数越大，收敛速度越快。该实验中动作资格迹对该算法的影响和平衡杆中的影响恰好相反。可见动作资格迹的具体取值是受到实验环境影响的。该实验中动作资格迹对实验有正向影响的原因可能是该实验中每一步动作的选择和前几步动作选择有所关联，使得AW-PS-AC算法中学到的路径和其它算法中学到的路径相比具有更强的动作连续性。 5 相关工作在本文中AW-PS-AC算法的主要对比算法为CAQ算法，CACLA算法和INAC-S算法。 CAQ算法是一个经典的连续动作空间离散化的算法。该算法把动作空间分为若干个离散动作，根据离散化的动作求出所有的状态动作值函数并对其进行加权，最终求出当前最优动作，并按照权值更新当前资格迹，从而更新当前所有的状态动作值函数。该算法中离散的动作数依赖于个人经验，空间存储量很大，而且在某些环境下效果会很差。但是CAQ算法具有计算量少和计算简单的优点，适用于一些简单的环境。 CACLA算法，INAC-S算法和AW-PS-AC算法算法思路相似，都属于行动者评论家算法，在动作空间中均使用函数逼近方法近似最优动作，使用线性方法计算最优动作。然而三个算法也都有各自的特点。 AW-PS-AC算法和CACLA算法相似，都通过梯度下降法来更新策略参数。不同的是，CACLA算法利用动作差值进行更新，同时放弃了所有时间差分误差小于0的数据。这样会使得策略参数不会向更差的方向更新，但同时会浪费大量的实验数据。而AW-PS-AC算法直接利用时间差分误差更新策略参数，使得所有数据都能得到充分利用。 AW-PS-AC算法和INAC-S算法均使用资格迹优化策略参数向量的更新，从而提高收敛速度。不同的是，AW-PS-AC算法是利用常规的梯度下降方法更新策略参数，而INAC-S算法则是求出自然梯度，将自然梯度运用在梯度下降中更新策略参数。 AW-PS-AC算法与通常的连续空间强化学习算法最大的区别是，通常的连续空间算法不考虑动作计算的优化，使用常规的线性方法计算当前最优动作。而AW-PS-AC算法利用了动作空间的知识，改进了当前的最优动作的计算方法，并且通过实验可以看出该逼近方法有效且收敛效果好。论文在线出版号 No.182 章鹏等：连续空间中一种动作加权行动者评论家算法 13 6 结论为了解决传统的强化学习方法在连续动作空间学习最优策略时效率低的问题，以行动者评论家方法为基础，使用动作加权方法计算最优动作，使用高斯分布直接获取策略，以最小化策略函数均方误差为目的，使用梯度下降方法得到策略权值的更新公式，使用资格迹和时间差分误差优化权值更新公式，提出了动作加权行动者评论家算法。并将动作加权行动者评论家算法与CACLA算法，CAQ算法，INAC-S 算法三种经典连续动作空间算法进行比较。从实验结果可以看出AW-PS-AC算法的收敛速度快，收敛后稳定性好，适用于解决各种不同类型问题。该算法使用了较少的存储量，最终获得的动作有较好的连续性，满足实际需求。以后的工作主要分为两个方面。① 本文中使用梯度下降法更新策略权值。梯度下降法计算量小，但同时需要的样本数量依然较多，样本利用率不高。如何在样本数有限的情况下较快地实现收敛效果，这是以后可以研究的问题。② 动作加权的权值可以从2个增加到多个。如何在策略权值个数发生变化后依然保证又快又好的收敛效果，也将作为下一步研究的方向。参考文献 [1] Sutton R S, Barto A G. Reinforcement learning: An introduction. Cambridge Massachusetts，UK: MIT press, 1998 [2] Busoniu L, Babuska R, De Schutter B, et al. Reinforcement learning and dynamic programming using function approximators. Boca Raton, Florida,USA: CRC press 2010 [3] Lee D, Seo H, Jung M W. Neural basis of reinforcement learning and decision making. Annual Review of Neuroscience, 2012, 35(5):287-308 [4] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search. Nature, 2016, 529(7587):484-489 [5] Sutton R S, Mcallester D, Singh S, et al. Policy Gradient Methods for Reinforcement Learning with Function Approximation. Advances in Neural Information Processing Systems, 2000, 12:1057-1063 [6] Peters J, Schaal S. Natural Actor-Critic. Neurocomputing, 2008, 71(7–9):1180-1190 [7] Peters J, Vijayakumar S, Schaal S. Reinforcement learning for humanoid robotics. Autonomous Robot, 2003, 12(1):1-20 [8] Millán J D R, Posenato D, Dedieu E. Continuous-Action Q-Learning. Machine Learning, 2002, 49(2-3):247-265 [9] Van Hasselt H, Wiering M A. Reinforcement learning in continuous action spaces//Proceedings of the Approximate Dynamic Programming and Reinforcement Learning. Honolulu, USA, 2007: 272-279 [10] Martin H J A, De Lope J. Ex<α>: An effective algorithm for continuous actions Reinforcement Learning problems//Proceedings of the The 35th IEEE Annual Conf on Industrial Electronics Society. Oporto, Portugal, 2009:2063-2068 [11] Wiering M, Van Otterlo M. Reinforcement Learning: State-of-the-Art. Berlin Heidelberg: Springer. 2014 [12] Bhatnagar S, Sutton R S, Ghavamzadeh M, et al. Incremental Natural Actor-Critic Algorithms.//Proceedings of the Conference on Neural Information Processing Systems, Vancouver, British Columbia, Canada, 2007:. 2471-2482 [13] Vijay R. Konda, John N. Tsitsiklis. Actor-Critic Algorithms. Siam Journal on Control & Optimization, 2001, 42(4):1008-1014 [14] Tsitsiklis J N, Van Roy B. An analysis of temporal-difference learning with function approximation. IEEE Transactions on Automatic Control, 1997, 42(5): 674-690 [15] Berenji H R, Khedkar P. Learning and tuning fuzzy logic controllers through reinforcements. IEEE Transactions on Neural Networks, 1992, 3(5): 724-740 [16] Sutton R S. Generalization in Reinforcement Learning: Successful Examples Using Sparse Coarse Coding.//Proceedings of the Neural Information Processing Systems, Denver, USA, 1995:1038--1044 [17] Degris T, Pilarski P M, Sutton R S. Model-Free Reinforcement Learning with Continuous Action in Practice. Amran Onrol Onfrn, 2012, 50(6):2177-2182 [18] Hasselt H, Wiering M A. Using continuous action spaces to solve discrete problems.//Proceedings of the International Joint Conference on Neural Networks. Atlanta, USA, 2009:1149-1156 [19] Sugiyama M. Statistical Reinforcement Learning: Modern Machine Learning Approaches[M]. Boca Raton, Florida: CRC Press, 2015 [20] Busoniu L, Babuska R, De Schutter B, et al. Reinforcement learning and dynamic programming using function approximator]. Boca Raton, Florida,USA: CRC press, 2010 [21] Liu Q, Yan Q, Fu Y, et al. A Hierarchical Reinforcement Learning Method Based on Heuristic Reward Function. Journal of Computer Research & Development, 2011, 48(12):2352-2358 (in Chinese) (刘全, 闫其粹, 伏玉琛,等. 一种基于启发式奖赏函数的分层强化学习方法. 计算机研究与发展, 2011, 48(12):2352-2358) [22] Melo F S, Lopes M. Fitted Natural Actor-Critic: A New Algorithm for Continuous State-Action MDPs//Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases. Antwerp, Belgium, 2008:66-81 计算机学报 2016年 14 [23] Xu X, Zuo L, Huang Z. Reinforcement learning algorithms with function approximation: Recent advances and applications. Information Sciences, 2014, 261(5):1-31 [24] Fu Q M, Liu Q, Wang H, et al. A novel off policy Q(λ) algorithm based on linear function approximation. Chinese Journal of Computers, 2014, 37(3):677-686 (in Chinese) (傅启明, 刘全, 王辉,等. 一种基于线性函数逼近的离策略Q(λ)算法. 计算机学报, 2014, 37(3):677-686) [25] Silver D, Sutton R S, Müller M. Temporal-difference search in computer Go. Machine Learning, 2012, 87(2):183-219 [26] Grondman I, Busoniu L, Lopes G A D, et al. A Survey of Actor-Critic Reinforcement Learning: Standard and Natural Policy Gradients. IEEE Transactions on Systems Man & Cybernetics Part C, 2012, 42(6):1291-1307 ZHANG Peng, born in 1992, M. S. candidate. His main research interest is continuous space reinforcement learning. IU Quan, born in 1969,PH.D., professor and Ph.D. supervisor. His main research interests include intelligence information processing, automated reasoning and machine learning. ZHONG Shan, born in 1983. Lecturer,PhD candidate. Her research interests include machine learning and deep learning. QIAN Wei-Sheng, born in 1992, M. S. Candidate. His main research interests include Partially Observable Markov Decisions Processes. ZHAI Jian-Wei, born in 1992, M. S. Candidate. His main research interests include reinforcement learning, deep learning and deep reinforcement learning. BackgroundReinforcement learning is a class of learning methods that try to obtain the mappings from states to actions, via maximizing the cumulative numerical rewards. In allusion to the problem of poor convergence in the traditional reinforcement learning methods, this paper proposed a new algorithm, namely, Action Weight Policy Search Actor-Critic algorithm (AW-PS-AC). AW-PS-AC uses Actor-Critic as the framework and approximates the optimal value function, and then utilizes the knowledge of the action space to improve the gradient descent in conventional algorithms. AW-PS-AC solves the problem with continuous state and action spaces. Simulation evaluation illustrates that AW-PS-AC behaves effectively, with rapid converge rate and satisfactory stability. This paper is supported by National Natural Science Foundation of China(61272005, 61303108, 61373094, 61472262, 61502323, 61502329), Natural Science Foundation of Jiangsu(BK2012616), High School Natural Foundation of Jiangsu(13KJB520020), Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University(93K172014K04), Suzhou Industrial application of basic research program part (SYG201422, SYG201308).

[返回]

上一篇：融合形状先验的水平集眼底图像血管分割
下一篇：CSSCI期刊收录的主要期刊影响因子