欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
材料论文
当前位置:首页 > 材料论文
基于统计线性化的随机非线性微分对策逼近最优策略
来源:一起赢论文网     日期:2013-06-30     浏览数:3444     【 字体:

摘 要 针对二人零和随机非线性微分对策问题, 利用统计线性化技术并提出一种新的逼近策略控制方法. 通过求解具有统计线性化参数的Riccati微分方程得到逼近控制策略, 该Riccati微分方程与一般线性系统的Riccati微分方程具有明显的区别; 同时对控制量受约束情形的控制策略也进行了求解; 最后通过仿真验证了所得结论的正确性.
关键词 微分对策, 统计线性化, 随机非线性系统, 逼近最优策略
Near Optimal Strategy for Nonlinear Stochastic Di®erential Games Based onthe Technique of Statistical Linearization
Abstract A novel solution for a class of nonlinear zero-sum stochastic di®erential games is given based on the techniqueof statistical linearization. The near optimal feedback strategies are derived by solving the statistical state dependentRiccati equation, which is signi¯cantly di®erent from the Riccati equation of linear systems. The case of strategy withbound limitation is also investigated. An example is given to illustrate the application of the theory.
Key words Di®erential games, statistical linearization, nonlinear stochastic system, near optimal strategyCitation
  二人零和微分对策起源于上世纪60年代, 以美国的R. Isaacs和前苏联L. S. Pontryagin及其团队的研究最为重要[1]. 具有线性二次型指标函数的线性微分对策问题可以通过求解Riccati微分方程进行求解[2], 但现实中的大多数系统均为非线性系统, 与线性微分对策相比, 非线性微分对策问题极其具有挑战性, 通常要求解非线性Hamilton-Jacobi-Isaacs (HJI)微分方程, 而该非线性偏微分方程一般很难求解.
  自上世纪80 年代以来, 一些理论和方法逐步被提出并用于非线性微分对策的数值解法. 其中两个最具有重要突破, 它们分别为由Crandall和Lions[3]提出的黏性解理论和由Subbotin[4]提出的极大极小理论; 在解决维数较高的非线性微分对策问题时, Sinar 等[5]引入强迫奇异摄动方法求解降阶问题的协态变量, 然后对其进行边界层校正, 逐步迭代求出所有协态变量, 最后得到零阶复合反馈最优控制策略. 在上世纪90年代, 集值分析和生存理论[6]均被用于解微分对策问题, 引入生存核的数值逼近算法可以对具有低半连续价值函数的控制系统进行数值求解; 而后伴随神经网络技术[7], 将微分对策的两点边值求解问题转化为两个神经网络的学习问题, 训练后的两个神经网络分别作为对策双方的最优控制器在线使用. 上述理论和技术均为非线性微分对策的求解提供了可行的方法, 也使得逼近算法研究取得了长足的发展[8¡9].
  实际中线性化是处理非线性系统的一种最强有力的工具[10]. 针对随机系统统计线性化把非线性函数按概率统计的方法进行线性化, 将随机线性系统的研究成果拓展到随机非线性系统中, 目前已经取得了一系列研究成果[11¡13]. 本文将统计线性化方法引入到随机非线性微分对策中, 针对控制量无约束和受约束两种情形, 研究了一类随机非线性系统的微分对策控制问题.4期 张平等: 基于统计线性化的随机非线性微分对策逼近最优策略 391
  1 问题描述
  考虑如下连续时间二人零和随机非线性微分对策:_ x(t) =f(xx; t) +B1(t)u+B2(t)v+g»» (1)其中, 假设双方均具有完全状态信息, 控制量u为其中一方的控制量,v为另一方的控制量,f(xx; t)为非线性映射函数, B1(t), B2(t) 和g分别为具有适当维数的时变矩阵, 初始状态x(t0) =x0, 且服从高斯分布N (m0; R0). » 为高斯白噪声向量, 其均值为0,方差为Q, 且与初始状态x0 无关.考虑二次型性能指标函数J(uu; vv) = E©xT(tf)QTx(tf) +Ztft0¡xTLxx+uTRuu¡vTSvv¢d¿¾(2)实际中我们往往采用条件数学期望去实现无条件数学期望, 即E [¢ jX], 其中X为信息集X=fx(¿)j0·¿ ·tg; 同时QT 和L为正定对称矩阵;R, S为半正定对称矩阵; t0 和tf 分别为起始时间和结束时间.
  对于随机非线性微分对策问题(1), 如果存在反馈控制策略u¤=K1x+C1; v v¤=K2x+C2(3)使得性能指标(2) 关于u取极小值, 而关于v取极大值, 满足如下不等式:J(u¤; v v)·J(u¤; v v¤)·J(uu; vv¤) (4)则称(u¤; v v¤)为鞍点, u¤和v¤分别为双方的最优策略, J(u¤; v v)为对策值. 值得注意的是本章采用统计线性化方法, 由于高斯概率逼近总是存在一定的误差, 因而基于线性化方法求得的最优控制策略为逼近最优策略.
  2 统计线性化与非线性微分对策
  2.1 统计线性化原理
  设函数f:x2Rp!f(x)2Rq, 在均值^f 附近线性化f, 得到如下形式:f=^f +Nrr+e (5)式中r =x¡m, N为使得线性化误差e最小的系数,^f 和N应满足的关系式为^f = E [f(xx; t)] =Z1¡1f(xx; t)p(x)dx (6)N=d^fdm(7)关于详细的推导过程详见文献[14¡15].
  2.2 非线性微分对策的统计线性化应用
  统计线性化方法得到f(xx; t) =^f +Nrr (8)将式(8) 代入原系统(1), 得到:_ x_ x_ x(t) =Nxx(t) +B1(t)u+B2(t)v+g»»+³^f¡Nmm´=Nxx(t) +B1(t)u+B2(t)v+g»»+f0(9)式中, f0 =^f ¡Nmm, 因为^f 和N均不含有随机变量, 所以方程(9) 是线性微分方程.设状态反馈控制量u=K1x+C1; v v=K2x+C2其中, K1, K2, C1 和C2 分别为待定系数. 将方程(3)代入方程(9), 根据随机线性系统的方差分析, 得到向量均值m(t)和方差矩阵P(t)分别为_ m(t) = E [Nxx(t) +B1(t)u+B2(t)v+g»»+³^f ¡Nmm´i=^f + (B1K1+B2K2)m+B1C1+B2C2(10)_P= (N+B1K1+B2K2)TP+P(N+B1K1+B2K2) +gQgT(11)由于^f 和N通常含有均值m(t) 和方差P(t)[16],所以方差(10)和(11)是非线性的.
  3 随机非线性微分对策的逼近策略
  3.1 控制量无约束情形定理1. 对于给定性能指标函数(2), 使得性能指标值满足式(4) 的非线性系统(1) 的双方逼近最优策略和相应的对策逼近值分别为u=¡R¡1BT1(¡x+ ¡¡1)v=S¡1BT2(¡x+ ¡¡1)(12)J(uu; vv) =mT¡ (0)m+ trf¡ (0)Rg+2¡ ¡T1(0)m+ ¡0(0)(13)392 自 动 化 学 报 39卷正定对称矩阵¡,满足Riccati微分方程8><>:_¡ + ¡N+NT¡¡¡B1R¡1BT1¡+¡B2S¡1BT2¡ +L= 0¡ (tf) =QT(14)向量¡1 和标量¡0 满足微分方程8><>:_¡1+ ¡¡T1N+ ¡f0¡¡B1R¡1BT1¡1+¡B2S¡1BT2¡1= 0¡1(tf) = 0(15)8><>:_¡0+ 2¡¡T1f0¡¡1B1R¡1BT1¡1+¡1B2S¡1BT2¡1+ tr©¡gQ(t)gTª= 0¡0(tf) = 0(16)式中, N和f0 满足统计线性化方程8><>:_ x(t) =Nxx(t) +B1K1x+B2K2x+g»»+f0+B1C1+B2C2x(t0) =x0(17)8><>:_ m_ m_ m(t) =^f + (B1K1+B2K2)m+B1C1+B2C2m(t0) =m0(18)8><>:_P= (N+B1K1+B2K2)TP+P(N+B1K1+B2K2) +gQgTP(t0) =R0(19)其中参数K1, K2, C1 和C2 分别为(K1 =¡R¡1BT1¡; C C1 =¡R¡1BT1¡1K2 =S¡1BT2¡; C C2 =S¡1BT2¡1(20)证明. 利用随机动态规划法分两步进行证明1)构造Hamilton-Jacobi-Isaacs泛函方程. 设t 时刻的风险函数Ft 为Ft(uu; vv) =xT(tf)QTx(tf) +Ztft¡xTLxx+uTRuu¡vTSvv¢d¿(21)在假设条件下此泛函具有马尔科夫性, 即仅依赖于时刻t 及之后的控制向量u(¿) 和v(¿),(t·¿ < tf),而与t 时刻之前的控制向量无关.定义函数M对u, v分别取极小、大值M(uu; vv) = minumaxvE [Ft(uu; vv)jX] (22)式中, X为全状态信息集X=fx(¿)j0·¿ ·tg由It^ o微分规则, 得到随机Hamilton-Jacobi-Isaacs方程形式Mt+12tr£MxxgQ(t)gT¤+minumaxv©xTLxx+uTRuu¡vTSvv+Mx Mx MxT(f+B1u+B2v)ª= 0(23)其中, Mt、Mx和Mxx分别为函数M关于时间、状态的一阶偏导数和关于状态的二阶偏导数.终止条件M(tf) =xT(tf)QTx(tf) (24)2)求解Hamilton-Jacobi-Isaacs泛函方程为了求解方程(23), 必须先对此方程右边进行极小、极大化运算, 求出控制量u(t)和v(t),即@@uu©uTRuu+Mx Mx MxTB1u(t)ª= 0@@vv©¡vTSvv+Mx Mx MxTB2v(t)ª= 0(25)求得u=¡12R¡1B1TMx Mx Mxv=12S¡1B2TMx Mx Mx(26)由非线性函数f 统计线性化的结果, 代入式(23)得到:Mt+12tr©MxxgQ(t)gTª+½xTLxx+14Mx Mx MxTB1R¡1BT1Mx Mx Mx ¡14Mx Mx MxTB2S¡1BT2Mx Mx Mx+Mx Mx MxT³f0+Nxx¡12B1R¡1BT1Mx Mx Mx+12B2S¡1BT2Mx Mx Mx´¾= 0(27)化简得到:Mt+12tr©MxxgQ(t)gTª+½xTLxx¡14Mx Mx MxTB1R¡1BT1Mx Mx Mx +14Mx Mx MxTB2S¡1BT2Mx Mx Mx+Mx Mx MxTf0+Mx Mx MxTNxx= 0(28)终止条件M(tf) =xT(tf)QTx(tf) (29)4期 张平等: 基于统计线性化的随机非线性微分对策逼近最优策略 393由线性偏微分方程的特点, 假设方程的解为M=xT¡x+ 2¡¡1x+ ¡0(30)则函数M关于时间、状态的偏微分方程和关于状态的二阶偏微分方程分别为Mt =xT_¡x+ 2_¡1x+_¡0Mx Mx Mx= 2¡x+ 2¡¡1Mxx= 2¡(31)将式(31)代入式(28),得到:xT_¡x+ 2_¡1x+_¡0+ tr£¡gQ(t)gT¤+nxTLxx¡(¡x+ ¡¡1)TB1R¡1BT1(¡x+ ¡¡1) +2 (¡x+ ¡¡1)TNxx+ (¡x+ ¡¡1)TB2S¡1BT2£(¡x+ ¡¡1) + 2 (¡x+ ¡¡1)Tf0o= 0(32)进行整理, 得到:xT(_¡ +L¡¡B1R¡1BT1¡+¡B2S¡1BT2¡ + ¡N+NT¡)x+2(_¡1¡¡B1R¡1BT1¡1+ ¡B2S¡1BT2¡1 +¡1TN+ ¡f0)x+_¡0+ ¡¡1B2S¡1BT2¡1¡¡1B1R¡1BT1¡1+ ¡¡1f0+fT0¡1+tr©¡gQ(t)gTª= 0(33)对上式求无条件数学期望, 并考虑m的任意性, 若使式(33)成立, 则需满足:_¡ + ¡N+NT¡¡¡B1R¡1BT1¡+¡B2S¡1BT2¡ +L= 0_¡1+ ¡¡1TN+ ¡f0¡¡B1R¡1BT1¡1+¡B2S¡1BT2¡1= 0_¡0+ ¡¡1f0+fT0¡1¡¡1B1R¡1BT1¡1+¡1B2S¡1BT2¡1+ tr©¡gQ(t)gTª= 0(34)边界条件¡ (tf) =QT; ¡1(tf) = 0; ¡0(tf) = 0 (35)将Mx Mx Mx = 2¡x+ 2¡¡1 代入式(26), 得到双方最优策略为u=¡R¡1BT1(¡x+ ¡¡1)v=S¡1BT2(¡x+ ¡¡1)(36)根据前面控制量的假设形式参数K1, K2, C1 和C2分别为(K1 =¡R¡1BT1¡; C C1 =¡R¡1BT1¡1K2 =S¡1BT2¡; C C2 =S¡1BT2¡1(37)而指标函数值为J(u; v) =M(x(0);0) =mT¡ (0)m+ trf¡ (0)Rg+2¡ ¡1(0)m+ ¡0(0)(38)¤注1.当此处f(xx; t) =Axx, 即为随机线性系统时, 得:^f =Am mm; N=A; ff0=^f ¡Am m= 0 (39)则统计线性化方程为_ x(t) =Nxx(t) +B1(t)u+B2(t)v+g»»+f0 =Axx(t) +B1(t)u+B2(t)v+g»»(40)由于f0= 0并考虑伴随变量Mx Mx Mx 和状态变量x的线性关系, 则Mx Mx Mx= 2¡xx; ¡1= 0 (41)代入定理1,可得到:(_¡0+ tr©¡gQ(t)gTª= 0¡0(tf) = 0(42)通过积分¡0(0) =Ztf0tr©¡gQgTªd¿最后性能指标值为J(u; v) =mT¡ (0)m+ trf¡ (0)Rg+Ztf0tr©¡gQgTªd¿(43)上述结果与随机线性系统的结果是完全一致的, 验证定理1是正确的.
  3.2 控制量受约束情形
  当控制量受约束时, 对饱和函数同样需要进行统计线性化. 定义两个紧集(Compact set)U和V,双方的控制量u和v分别属于此集合, 即Sat (ujU0) =(uu; uu2U0jU0jsgn(u); u uu =2U0(44)394 自 动 化 学 报 39卷Sat (vjV0) =(vv; vv2V0jV0jsgn(v); v vv = 2V0(45)其物理含义为: 当控制量u(或v) 在集合U(或V)内, 则控制为其本身; 当控制量u(或v) 超越集合U(或V), 则取相应的边界值. 利用统计线性化原理对饱和函数Sat进行统计线性化, 得到:^fu=U0½©µU0+mu¾u¶¡©µU0¡mu¾u¶¾+mu½©µU0+mu¾u¶+ ©µU0¡mu¾u¶¡1¾+¾up2¼(expá(U0+mu)22¾2u!¡expá(U0¡mv)22¾2u!)(46)Nu= ©µU0+mu¾u¶+ ©µU0¡mu¾u¶¡1 (47)Nv = ©µV0+mv¾v¶+ ©µV0¡mv¾v¶¡1 (48)^fv =V0½©µV0+mv¾v¶¡©µV0¡mv¾v¶¾+mv½©µV0+mv¾v¶+ ©µV0¡mv¾v¶¡1¾+¾vp2¼(expá(V0+mv)22¾2v!¡expá(V0¡mv)22¾2v!)(49)式中, © (¢) 为正态分布函数. 对局双方非线性饱和控制量通过统计线性化之后变为us =^fu+Nu(u¡mu) =fu0+Nuuvs =^fv +Nv(v¡mv) =fv0+Nvv(50)于是经过推导可以得到定理2.定理2. 假设性能指标函数为(2), 且双方的控制量满足约束条件(44),则非线性系统(45)的双方逼近最优策略和相应的对策逼近值分别为u=¡sgn©R¡1BT1(¡x+ ¡¡1)ªv= sgn©S¡1BT2(¡x+ ¡¡1)ª (51)J(u; v) =mT¡ (0)m+ trf¡ (0)Rg+2¡ ¡1(0)m+ ¡0(0)(52)式中, 正定对称矩阵¡ ,满足Riccati微分方程8><>:_¡ +NT¡ + ¡N+L+¡BT1NTuR¡1(Nu¡2I)B1¡+¡BT2NTvS¡1(2I¡Nv)B2¡ = 0¡ (tf) =QT(53)向量¡1 和标量¡0 满足微分方程8><>:_¡1+ ¡¡1N+ ¡f0+¡1B1NTuR¡1(Nu¡2I)BT1¡+¡1B2NTvS¡1(2I¡Nv)BT2¡ + (fu0)TB1£(I¡Nu)¡ + (fv0)TB2(I¡Nv)¡ = 0¡1(tf) = 0(54)8><>:_¡0+ (fu0)TRffu0¡(fv0)TSffv0+2¡ ¡1f0+ tr©¡gQ(t)gTª+ ¡¡1BT1NuT£R¡1(Nu¡2I)B1¡1+ ¡¡1BT2NvTS¡1£(2I¡Nv)B2¡1+ 2 (fu0)TBT1(I¡Nu)£¡1+ 2 (fv0)TBT2(I¡Nv)¡ ¡1= 0¡0(tf) = 0(55)式中, N和f0 满足统计线性化方程_ x(t) =Nxx(t) +B1K1x+B2K2x+g»»+³^f¡Nmm´+B1C1+B2C2(56)8><>:_ m(t) =^f+ (B1K1+B2K2)m+B1C1+B2C2m(t0) =m0(57)8><>:_P= (N+B1K1+B2K2)TP+P(N+B1K1+B2K2) +gQgTP(t0) =R0(58)式中,K1 =¡NuR¡1BT1¡C1 =fu0¡NuR¡1BT1¡1K2 =NvS¡1BT2¡C2 =fv0+NvS¡1BT2¡1(59)4期 张平等: 基于统计线性化的随机非线性微分对策逼近最优策略 395受约束控制量的统计线性化系数^fu,^fv, Nu 和Nv满足式(46)»(50),而mu, mv, ¾u 和¾v 分别为(mu=¡R¡1BT1(¡m+ ¡¡1)¾u=R¡1B1¡P¡BT1R¡T(60)(mv =S¡1B2T(¡m+ ¡¡1)¾v =S¡1B2¡P¡B2TS¡T(61)证明. 同样利用随机动态规划法分两步进行证明1)构造Hamilton-Jacobi-Isaacs泛函方程(此步骤与定理1证明相同)2)求解Hamilton-Jacobi-Isaacs泛函方程先对此方程右边进行极小、极大化运算, 分情况进行讨论分析:当极大值在区域U内达到, 则有:@@uu©uTRuu+Mx Mx MxTB1u(t)ª= 0 (62)从而, 得:u=U0sgnµ¡12R¡1B1TMx Mx Mx¶当极大值在区域U边界上达到, 则有:u=U0sgnµ¡12R¡1B1TMx Mx Mx¶综上两种情形, 可得:u=¡Sat½12R¡1BT1Mx Mx Mx¾(63)同理, 可得:v= Sat½12S¡1B2TMx Mx Mx¾(64)根据饱和函数的统计线性化, 得到:u=fu0+Nuµ¡12R¡1B1TMx Mx Mx¶v=fv0+Nvµ12S¡1B2TMx Mx Mx¶ (65)由非线性函数f 统计线性化的结果f=^f¡Nmm+Nxx=f0+Nxx (66)将式(65)和(66)代入方程(23),得:Mt+12tr©MxxgQ(t)gTª+xTLxx+·fu0+Nuµ¡12R¡1BT1Mx Mx Mx¶¸TR·fu0+Nuµ¡12R¡1BT1Mx Mx Mx¶¸¡·fv0+Nvµ12S¡1BT2Mx Mx Mx¶¸TS·fv0+Nvµ12S¡1BT2Mx Mx Mx¶¸+Mx Mx MxT(f0+Nxx+B1£·fu0+Nuµ¡12R¡1BT1Mx Mx Mx¶¸+B2·fv0+Nvµ12S¡1BT2Mx Mx Mx¶¸)= 0(67)M(tf) =xT(tf)QTx(tf) (68)由线性偏微分方程的特点, 假设方程的解为M=xT¡x+ 2¡¡1x+ ¡0(69)则有Mt =xT_¡x+ 2_¡1x+_¡0Mx Mx Mx= 2¡x+ 2¡¡1Mxx= 2¡(70)将式(70)代入式(67),得:xT(_¡ +L+ ¡N+NT¡+¡BT1NTuR¡1(Nu¡2I)B1¡+¡BT2NTvS¡1(2I¡Nv)B2¡)x+2xn_¡1+ ¡¡1N+ ¡¡1BT1NTuR¡1£(Nu¡2I)B1¡ + ¡¡1BT2NTvS¡1£(2I¡Nv)B2¡ + (fu0)TBT1£(I¡Nu)¡ + (fv0)TBT2(I¡Nv)¡+2¡f0g+_¡0+ tr©¡gQ(t)gTª+(fu0)TRffu0¡(fv0)TSffv0+ 2¡¡1f0+¡1BT1NTuR¡1(Nu¡2I)B1¡1+¡1BT2NTvS¡1(2I¡Nv)B2¡1+2 (fu0)TBT1(I¡Nu)¡ ¡1+2 (fv0)TBT2(I¡Nv)¡ ¡1= 0(71)396 自 动 化 学 报 39卷对上式求无条件数学期望, 并考虑m的任意性, 得:_¡ +L+ ¡N+NT¡+¡BT1NTuR¡1(Nu¡2I)B1¡+¡BT2NTvS¡1(2I¡Nv)B2¡ = 0(72)_¡1+ ¡¡1N+ ¡¡1BT1NTuR¡1(Nu¡2I)B1¡+¡1BT2NTvS¡1(2I¡Nv)B2¡ + 2¡f0+(fu0)TB1T(I¡Nu)¡+(fv0)TB2T(I¡Nv)¡ = 0(73)_¡0+ tr©¡gQ(t)gTª+ (fu0)TRffu0¡(fv0)TSffv0+ 2¡¡1f0+¡1BT1NTuR¡1(Nu¡2I)B1¡1+¡1BT2NTvS¡1(2I¡Nv)B2¡1+2(fu0)TB1T(I¡Nu)¡ ¡1+2(fv0)TB2T(I¡Nv)¡ ¡1= 0(74)边界条件¡ (tf) =QT;¡1¡1 ¡1(tf) = 0;¡0(tf) = 0 (75)得到双方最优策略为u=¡Sat©R¡1BT1(¡x+ ¡¡1)ªv= Sat©S¡1BT2(¡x+ ¡¡1)ª (76)对式(75)进行统计线性化, 得:u=fu0+Nu¡¡R¡1BT1(¡x+ ¡¡1)¢v=fv0+Nv¡S¡1BT2(¡x+ ¡¡1)¢ (77)根据前面控制量的假设形式, 得到系数:K1 =¡NuR¡1BT1¡C1 =fu0¡NuR¡1BT1¡1K2 =NvS¡1BT2¡C2 =fv0+NvS¡1BT2¡1(78)而指标函数值为J(u; v) =mT¡ (0)m+ trf¡ (0)Rg+2¡ ¡1(0)m+ ¡0(0)(79)¤注2.当控制量无约束时, 根据式(76)可得:fu0=fv0= 0; Nu=Nv =I (80)将式(76)代入定理2,则得到定理2等同于定理1.
  4 数值仿真
  考虑如下非线性对策系统:_ x=x2+u+v+»其中, 初始状态x0 »N (2;1),系统高斯白噪声»»N (0;0:01) ,考虑性能指标J(uu; vv) = E(4x2(tf) +Z30¡2x2+ 0:1u2¡0:3v2¢d¿)根据控制量是否受约束, 分两种情况进行仿真研究.仿真1. 控制量无约束情形将系统非线性函数进行统计线性化, 得到:^f=m2+P将仿真步长设为0.01秒, 具有统计线性化参数的Riccati微分方程的数值解¡如图1所示, ¡ ¡1 的解如图2所示.图1 ¡的数值解曲线Fig. 1 The numerical value of ¡图2 ¡ ¡1 的数值解曲线Fig. 2 The numerical value of ¡¡14期 张平等: 基于统计线性化的随机非线性微分对策逼近最优策略 397从图1中可以看出, 非线性系统Riccati微分方程的解与线性系统Riccati微分方程的解有本质的区别, 其曲线变化趋势不表现为某一常值状态的稳态解, 而与非线性函数的具体形式有关. 对局双方的控制量u和v如图3所示.图3 双方控制策略曲线Fig. 3 The strategy curves of both players系统状态曲线如图4所示, 统计线性化中状态均值和方差如图5所示.图4 系统状态变化曲线图Fig. 4 The system0s state图5 统计线性化均值和方差曲线Fig. 5 The mean and covariance of statisticallinearization仿真2.控制量受约束情形参照控制量无约束情形时双方控制量的大小,这里假设双方控制量约束U0= 15; V0= 5由定理2所述的两点边值问题得到Riccati方程的数值解如图6和图7所示.图6 ¡的数值解曲线Fig. 6 The numerical value of ¡图7 ¡ ¡1 的数值解曲线Fig. 7 The numerical value of ¡¡1系统双方的控制量u和v如图8所示, 饱和控制系数Nu 和Nv 的变化情况如图9所示.图8 双方控制策略曲线Fig. 8 The strategy curves of both players398 自 动 化 学 报 39卷图9 控制系数Nu和Nv 变化曲线Fig. 9 The curves of parametersNuandNv从图8中可以看出, 双方的控制量均限制在己方的允许范围内, 在初始时刻双方均达到饱和控制,此时饱和控制系数Nu 和Nv 的大小如图9所示,其表现为实际控制量与理想需要控制量幅值的比值,Nu 和Nv 均小于1.
  5 结论
  本文将统计线性化方法应用到随机非线性微分对策中, 利用随机动态规划法推导了随机非线性微分对策逼近最优策略的控制算法, 该算法中包含统计线性化变量在内的Riccati微分方程, 此微分方程的解与线性系统Riccati微分方程的解有本质的区别, 解的曲线变化趋势不表现为某一常值状态的稳态解, 而与非线性函数的具体形式有关; 通过对饱和函数进行统计线性化, 可获得控制量受约束情形的随机非线性微分对策逼近最优策略的解析表达式,此表达式中含有饱和控制系数Nu 和Nv, 其大小表现为实际控制量与理想需要控制量幅值的比值
  .References1 Bardi M, Raghavan T E S, Parthasarathy T.Stochastic andDi®erential Games: Theory and Numerical Methods. Berlin:BirkhÄauser, 1999. 69¡1772 Lewis F L, Syrmos V L.Optimal Control(Second edition).New Jersey: Wiley, 1995. 30¡523 Crandall M G, Lions P L. Viscosity solutions of Hamilton-Jacobi equations.Transactions on Mathematical Software,1983,277(1): 1¡424 Subbotin A I. Existence and uniqueness results forHamilton-Jacobi equations.Nonlinear Analysis: Theory,Methods and Applications, 1991, 16(7¡8): 683¡6895 Sinar J, Farber N. Nonlinear zero-sum di®erential gameanalysis by singular perturbation methods, Technical Mem-orandum 84271, NASA, USA, 1982. 1¡146 Bardi M, Falcone M, Soravia P. Fully discrete schemes forthe value function of pursuit-evasion games. Annals of Dy-namic Games. Boston: BirkhÄ auser, 1993. 66¡747 Plumer E S. Optimal control of terminal processes usingneural networks.IEEE Transactions on Neural Networks,1996,7(2): 408¡4188 Zhou X Y. Deterministic near optimal control, part 1: nec-essary and su±cient conditions for near-optimality. Jour-nal of Optimization Theory and Applications, 1995, 85(2):473¡4889 Huang J H, Li X, Wang G C. Near-optimal control prob-lems for linear forward-backward stochastic systems. Auto-matica, 2010, 46(2): 397¡40410 Cheng D Z, Hu X M, Shen T L.Analysis and Design ofNonlinear Control Systems. Beijing: Science Press, 2010.1¡2011 Huber M F. Adaptive Gaussian mixture ¯lter based onstatistical linearization. In: Proceedings of the 14th In-ternational Conference on Information Fusion (FUSION).Chicago, IL: IEEE, 2011. 1¡812 Geist M, Pietquin O. Statistically linearized least-squarestemporal di®erences. In: Proceedings of the 2010 IEEE In-ternational Conference on Ultra Modern Telecommunica-tions and Control Systems (ICUMT 2010). Moscow, Russia:IEEE, 2010. 450¡45713 Geist M, Pietquin O. Statistically linearized recursive leastsquares. In: Proceedings of the 2010 IEEE InternationalWorkshop on Machine Learning for Signal Processing. Kit-tila, Finland: IEEE, 2010. 272¡27614 Fang Yang-Wang.Optimal Control for Stochastic Systems.Beijing: Tsinghua University and Springer, 2005. 27¡33(方洋旺. 随机系统最优控制. 北京: 清华大学出版社, 2005.27¡33)15 Chemyshov K R. Statistical linearization based on the max-imal correlation. In: Siberian Conference on Control andCommunications (SIBCON). Moscow, Russia: IEEE, 2007.29¡364期 张平等: 基于统计线性化的随机非线性微分对策逼近最优策略 39916 Wang X S, Xie H. Simulation of covariance analysis describ-ing equation technique (CADET) in missile hit probabilitycalculation. In: Proceedings of the 2010 6th InternationalConference on Natural Computation (ICNC 2010). Yantai,China: IEEE, 2010. 4282¡4285

[返回]
上一篇:基于多时相遥感数据的东亚飞蝗生境分类研究
下一篇:石油录井中红外CO2 气体传感器的选择方法