弹性高超声速飞行器智能控制系统设计 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

弹性高超声速飞行器智能控制系统设计

来源：一起赢论文网日期：2022-05-08 浏览数：913 【字体：大中小】

系统工程与电子技术Systems Engineering and ElectronicsISSN 1001-506X,CN 11-2422/TN《系统工程与电子技术》网络首发论文题目：弹性高超声速飞行器智能控制系统设计作者：王冠，茹海忠，马广程，夏红伟收稿日期： 2021-08-23网络首发日期： 2022-01-04引用格式：王冠，茹海忠，马广程，夏红伟．弹性高超声速飞行器智能控制系统设计[J/OL]．系统工程与电子技术.https://kns.cnki.net/kcms/detail/11.2422.TN.20220101.1718.006.html网络首发：在编辑部工作流程中，稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶段。录用定稿指内容已经确定，且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期刊特定版式（包括网络呈现版式）排版后的稿件，可暂不确定出版年、卷、期和页码。整期汇编定稿指出版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出版管理条例》和《期刊出版管理规定》的有关规定；学术研究成果具有创新性、科学性和先进性，符合编辑部对刊文的录用要求，不存在学术不端行为及其他侵权行为；稿件内容应基本符合国家有关书刊编辑、出版的技术标准，正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。为确保录用定稿网络首发的严肃性，录用定稿一经发布，不得修改论文题目、作者、机构名称和学术内容，只可基于编辑规范进行少量文字的修改。出版确认：纸质期刊编辑部通过与《中国学术期刊（光盘版）》电子杂志社有限公司签约，在《中国学术期刊（网络版）》出版传播平台上创办与纸质期刊内容一致的网络版，以单篇或整期出版形式，在印刷出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊（网络版）》是国家新闻出版广电总局批准的网络连续型出版物（ISSN 2096-4188，CN 11-6037/Z），所以签约期刊的网络版上网络首发论文视为正式出版。系统工程与电子技术Systems Engineering and Electronics收稿日期：2021-08-23；修回日期：2021-11-07基金项目：国家自然科学基金（61304108）资助课题*通讯作者.弹性高超声速飞行器智能控制系统设计王冠1，茹海忠2，马广程1，夏红伟1，*（1. 哈尔滨工业大学航天学院，黑龙江哈尔滨 150001；2. 上海卫星工程研究所，上海 201109）摘要：针对气动舵受限下的弹性高超声速飞行器控制问题，提出一种基于神经自适应的智能控制方案。在速度子系统的设计过程中，为了降低对模型参数的依赖程度，应用强化学习算法在线调整PID 参数，给出智能PID 控制策略。对于高度子系统，考虑气动舵的动态特性，利用神经自适应方法对模型未知函数及不确定项进行逼近。为了处理气动舵的约束问题，以非线性模型预测控制为优化分配模板生成大量样本数据集，经离线训练得到深度神经网络代替求解复杂优化问题和控制分配的过程。此外，通过引入自适应超螺旋微分器处理外部扰动，增强了系统的鲁棒性。利用Lyapunov 方法证明了所设计控制器的稳定性，并通过仿真验证所设计控制方案能够快速计算控制指令，实现了高精度跟踪控制。关键词：高超声速飞行器；神经自适应；智能控制；深度强化学习；深度神经网络中图分类号： V 448.2 文献标志码：ADesign of intelligent control system for flexible hypersonic vehicleWANG Guan1，RU Haizhong2，MA Guangcheng1，XIA Hongwei1，*(1. School of Astronautics, Harbin Institute of Technology, Harbin 150001, China;2. Shanghai Institute of Satellite Engineering, Shanghai 201109, China)Abstract: Aiming at the control problem of the air-breathing hypersonic vehicle withconstrained aerodynamic surfaces, an intelligent control scheme based on neural adaptation isproposed. In the design process of the velocity subsystem, the deep reinforcement learningalgorithm is used to adjust the PID parameters online, and the intelligent PID control strategy isgiven to reduce the dependence on the model parameters. For the altitude subsystem, the neuraladaptive method is used to approximate the unknown functions and uncertain terms of the modelconsidering the dynamic characteristics of the aerodynamic surfaces. To deal with the constraintproblem of aerodynamic surfaces, a large number of sample data sets are generated using nonlinearmodel predictive control (NMPC) as an optimal allocation template, and a deep neural network(DNN) obtained through offline training is employed to replace the process of solving complexoptimization problems and control allocation. In addition, by introducing an adaptive super-twistdifferentiator to handle external disturbances, the robustness of the system is enhanced. Thestability of the controller is proved by using the Lyapunov method, the simulated results show thatthe proposed method can quickly calculate the control commands and realize high-precisiontracking control.Keywords: hypersonic vehicle; neural adaptive control; intelligent control; deepreinforcement learning; deep neural network网络首发时间：2022-01-04 09:02:29网络首发地址：https://kns.cnki.net/kcms/detail/11.2422.TN.20220101.1718.006.html系统工程与电子技术Systems Engineering and Electronics0 引言高超声速飞行器因其飞行速度快、机动能力强及效费比高等优点，在航空航天及军事领域具有重要的研究意义。近年来已有不少高超声速飞行器项目取得长足进步，但由于其具有强非线性、强不确定和强耦合等特性，给高超声速飞行器的控制技术研究带来了很多问题和挑战[1]。当前文献中，滑模控制[2]、自适应控制[3]、容错控制[4]等多种先进控制策略已经应用到高超声速飞行器控制系统设计。文献[5]针对滑模控制中的抖振现象，设计了高阶滑模控制器，实现了高超声速飞行器的稳定跟踪控制。文献[6]将自适应与模糊神经网络结合，解决了高超声速飞行器的时变动力学结构问题。文献[7]在考虑了弹性高超声速飞行器气动伺服弹性问题的情况下，构建了一种结合线性自抗扰和自适应陷波器的综合控制方案，最终达到对频率时变的弹性振动进行抑制。以上控制技术以及实际工程中广泛应用的PID 技术可保证一定精度的轨迹和姿态控制，然而，面向未来高超声速飞行器控制系统的实时、鲁棒和高精度需求，现有技术仍存在诸多不足和缺陷。由执行机构受限导致的输入受限问题已经成为当前高超声速飞行器控制领域研究的热点之一。为了处理执行机构幅值约束，文献[8]通过引入辅助系统对误差信号进行补偿，保证了高超声速飞行器在执行机构受限情况下对参考指令的稳定跟踪。类似地，文献[9]构建了辅助系统并结合指令滤波器来处理执行机构的幅值和速率约束。文献[10]和文献[11]采用控制分配的方案处理执行机构受限问题，分别基于二次规划和伪逆矩阵设计了控制器，但存在计算复杂度较高、无法保证分配最优的问题。在此基础上，文献[12]提出了一种基于循环神经网络的控制分配方法，采用该神经网络近似求解二次规划问题，然而这一方法对在线计算能力要求较高。模型预测控制（model predictive control, MPC）是当前工业控制界具有代表性且较常用的技术之一[13]，能够很好地解决高超声速飞行器执行机构的约束问题。文献[14]设计了一种基于MPC 的容错控制器来处理执行器幅值饱和问题，但是该方法需要飞行状态量的高阶导数，这在实际工程中难以获得。文献[15]考虑高超声速飞行器线性变参数模型下的执行器受限问题，所设计的控制器需要对较复杂矩阵进行优化处理，由此带来的缓慢求解速度难以应对实际需求。文献[16]综合考虑了控制量的幅值和速率约束，基于神经网络控制和MPC 提出了一种新的控制方法，实现了对气动舵指令的优化分配。但是，由于MPC 的引入大大增加了计算的复杂度，并导致控制系统的指令延迟，这些问题在高机动的高超声速飞行器控制中尤为突显。人工智能技术具有精度高、实时表现性强的特点[17]，因而其符合未来高超声速飞行器对控制系统的快速高精度的需求。当前，包括神经网络控制、深度学习、强化学习在内的智能控制技术逐渐应用于设计航空航天器的控制系统[18-20]。文献[21]利用神经网络对未知非线性进行逼近，结合反步法实现高超声速飞行器纵向动力学控制。文献[22]基于强化学习技术对卫星控制系统的参数进行调整和更新，实现姿态自适应跟踪控制。然而，在实际工程和落地转化中，样本、算力、最优性以及可靠性等因素制约着人工智能技术的应用。根据S698PM 星载计算机的最新数据显示[23]，其600MHz 主频、20Mb 运行内存的星载配置与地面仿真条件存在量级上的巨大差距，很难应用强化学习、深度神经网络等算法。在此情况下，可考虑将这些技术与传统控制器相结合，即“传统控制架构+人工智能技术” 来提高控制性能。基于以上分析，为了实现气动舵受限下的高超声速飞行器高精度跟踪控制，本文提出了一种基于神经自适应的智能控制方案。针对速度子系统，借助强化学习技术对控制器参数的在线调整能力，设计基于深度强化学习（deep reinforcement learning, DRL）的PID 参数整定策略，提高控制器的稳定性和鲁棒性。在高度子系统中，以神经自适应控制为主体架构，利用非线性模型预测控制（nonlinear model predictive control, NMPC）对气动舵指令进行控制分配。不同于已有方法，本文利用NMPC 生成大量样本数据集并系统工程与电子技术Systems Engineering and Electronics训练深度神经网络（ deep neural network,DNN），以此代替NMPC 进行气动舵指令优化分配的过程，实现快速计算控制指令，提升系统性能。为了处理外部扰动引入自适应超螺旋微分器，增强了系统的鲁棒性。仿真实验证明所提方案能实现系统状态的快速稳定收敛，具有较高的跟踪精度。1 系统描述和预备知识1.1 弹性高超声速飞行器的纵向模型本文采用某型高超声速飞行器的纵向动力学模型[24]为( )( )2121cos sinsin1 cossin2 , 1,2Vyy i iQyy i yyi i i i i i i iV T D g dmh VgT L dmV VQMQ dI IN Q iga gggg aa gy hh x w h w h y=ìï = - - +ïï =ïï = + - + ïíï = -ïï = + +ïïîï = - - + + ¢ =å(1)式中：V、h、γ、α、Q 是高超声速飞行器的状态量，包括速度、高度、航迹角、攻角和俯仰角速率； T、D、L 分别为发动机推力、阻力和升力；m 为飞行器质量；Iyy 为转动惯量；Myy 为俯仰力矩；ηi 为第i 阶弹性模态，ξi为其阻尼系数；ψi 为铰链参数；ωi 为第i 阶弹性模态；Ni 为第i 阶广义力；d*为外界扰动，并假设其有界且一阶导数有界。系统中的力和力矩表达式为( )( )( )()( )221 1 12 23 3 2 2 1 03 3 2 2 1 01 02 2 1 22 02 2 1 02 2 1 012 2 12c ec ce eeT T T TT T T TL L c L e LD D D c D cD e D e Dyy T M M M M eN N NN NT qS C C C CqS C C C CL qS C C C CD qS C C C CC C CM z T qSc C C C CN C C CN C Cd dd dd dda a aa a a Fa d da a d dd da a da aa aF F F F= + + ++ + + += + + += + + ++ + += + + + += + += + +, , , ,2 20 eN N e C Cd + d式中： q 表示动压；S、c 、zT 表示与高超声速飞行器机身有关的参数；系统的输入量为燃料当量比Φ，鸭翼偏角δc 和升降舵偏角δe。1.2 气动舵非线性从工程实际的角度，气动舵偏角应该满足幅值和速率的约束：,min ,max,min ,maxd dd ddd£ £ ìïí£ £ ïî(2)其中，δ 代表鸭翼偏角δc 和升降舵偏角δe。本文中舵面偏转角度的限制范围分别选取,max 20 d = 和,min 20 d =- ，舵面偏转角速度的限制范围分别选取,max 50 s d = 和,min 50 s d =- 。此外，执行机构动力学模型描述了舵面偏转或舵机偏转的动态特性，模型描述如下[25]：( )22 2 2SF s SFSFSF SF SFG s es st ww z w- =+ +(3)额定状态下， 0.002s SF t = ，90 / s SF w = ， 0.7 SF z = 。1.3 自适应超螺旋微分器由于非匹配不确定性等扰动的存在，会给控制器的设计带来诸多不便，鉴于自适应超螺旋微分器具有良好的逼近效果[26]，本文采用自适应超螺旋微分器逼近扰动量以得到更加精确的值。对于系统 x = f (t ) ，满足 f (t ) £e ，可构建如下自适应超螺旋微分器：( ) ( )( ) ( )121 1 1 1 22 2 1sgnsgnc t x xc t xì= - - - + ïíîï = - -(4)式中： ( ) ( ) 1 3 c t = 2 t ， ( ) ( ) 2 3 c t = 4 t ，( ) ( ) 3 4 3 t = t +c > 0， 3 c > 0，( )( )124 1 4 14, if0, otherwisec x ttkì æ öï ç - ÷ £= í è øïî(5)上式中函数 (x)定义为( ) 2 0, if, otherwisexxxìï <k=íïî(6)系统工程与电子技术Systems Engineering and Electronics其中4 0 c > ， 1 0 k > ， 2 0 k > 。根据文献[26]，可知自适应超螺旋微分器的跟踪误差是有界的。通过选择合适的参数，可以保证自适应超螺旋微分器的状态量在有限时间内实现精确跟踪。为便于后面的论证，给出以下引理：引理1[27] 对于任意的0 e > ，下面的不等式成立：tanhz0 z z keeæ ö£ - ç ÷ £è ø(7)式中： k 为常数， 1 e k k -- = ，即0.2785 k = 。2 控制器设计由式（1）知，可以将模型分解为速度子系统和高度子系统。首先针对速度子系统进行控制器设计。2.1 速度子系统智能PID 控制器设计对于速度子系统，控制器的设计目标是跟踪速度指令Vr。针对速度子系统，采用PID 控制为基本框架。定义速度跟踪误差V r e =V -V ，燃料当量比 Φ 选择如下的 PID控制律：( )d ( )ddVp V i V de tk e k e t t ktF = + ò + (8)式中：kp、ki 和kd 是PID 参数。PID 参数整定是一个复杂的过程，一般需要根据对象慢慢进行。高超声速飞行器作为一类具有强不确定性和强非线性的被控对象，采用传统的人工试错调参方案很大程度上依赖于调试人员的经验，需要消耗大量的时间，同时难以满足较高跟踪精度的需求。针对速度子系统存在干扰等问题，设计一种基于深度强化学习的PID 参数整定策略，对于式（8）的PID 控制器，根据高超声速飞行器当前飞行状态调整PID 参数，实现速度指令的跟踪。本文中所采用的深度强化学习方法为深度确定性策略梯度（deep deterministic policygradient，DDPG）[28]。这是一种不基于模型的Actor-Critic 网络框架下的强化学习算法，其目标是获得最优策略π∗，其可以最大化期望累计回报。一方面，Actor 根据环境状态Sn和策略π 决定输出动作an；另一方面，Critic根据环境状态Sn、回报rn 以及Actor 的输出an 来更新Actor 的策略π。定义自状态Sn 开始的累计回报为 = ( , )Tn i k i iR b r s a= å ，其中b为折扣率。Actor 网络参数根据目标函数( ) J m 的梯度进行更新：( ) ( ) ( ) ( ) ,11, |i i iNs s a s s siJ s a sNm mmq a q mm q m q= = ==Ñ = åÑ Ñ(9)式中： (s ) m m q 是Actor 网络表征， mq 为Actor 网络参数， (s,a |q )是 Critic 网络表征，q 为Critic 网络参数。Critic 网络通过最小化损失函数获得，定义网络损失函数为：( )2111, |Ni i iiy s aNq== é - ùåë û (10)其中， ( ) ( ) 1 1 , , i i i i i y r s a b s a q ¢+ + = + 。本文中Actor 网络和Critic 网络均选用两层神经网络。Actor 网络的输入选取高度、攻角、速度及其跟踪误差，即{ , , , } n V s = h a V e ；输出设为{ , , } n p i d a = k k k 。Critic网络的输入选取为 Sn和 an 的集合，输出为 (s,a |q )。此外，将回报函数设计为2 0.2 Vn r = - *e ，其中Vn V V ,max e = e e 表示归一化误差。注1：速度子系统作为外环系统，其控制器选用PID 便能够保证良好的跟踪效果，在许多研究中被采用[8]。本节所设计的基于深度强化学习的PID 参数整定策略能够节约人工调参的时间和成本，保障了高超声速飞行器速度跟踪的精确控制。同时，训练得到的参数整定模块具有一定的可移植性。对比相对简单的外环控制器设计，本文采用神经自适应作为主体为高度子系统设计内环控制器。一方面能够为控制器提供完善的Lyapunov 稳定性证明，另一方面能够在设计过程中解决气动舵受限下的控制分配问题。值得说明的是，速度子系统中采用的智能PID 控制器设计思路同样适可考虑用于高度子系统的控制器设计。2.2 高度子系统神经自适应控制器设计本小节针对高度子系统设计控制器，根系统工程与电子技术Systems Engineering and Electronics据高度子系统的跟踪指令hr，可以定义高度跟踪误差为 h r e = h - h 。由文献[29]可知，选择航迹角指令rr arcsin h h k e hVgæ - + ö= ç ÷è ø可将高度跟踪问题转化为航迹角跟踪问题，其中kh 为待设计的正常数。因此，对于高度子系统，控制器的设计目标是跟踪航迹角指令γr，同时能够对气动舵指令实现合理的控制分配。高度子系统的设计思路为：首先，设计神经自适应控制为基础的主要框架；然后，以NMPC 为控制指令分配模板，在大量飞行任务下生成样本数据集，进行离线训练，用以拟合在线智能分配模块的深度神经网络；最后，用自适应超螺旋微分器处理由执行机构动态和控制器设计过程引入的扰动项。2.2.1 RBF 神经网络本文中通过引入RBF 神经网络来逼近模型不确定项[30]：( ) ( ) T f x =w f x (11)式中： f Î R 和n Î R x 分别为神经网络的输入和输出； n Î R w 为权值向量； ( ) n f x ÎR为径向基函数。由文献[31]可知，对于紧集Θx 上的实函数f(x)和任意常数0 v > ，存在一个最优权重矩阵* n Î R w 使得RBF 神经网络表示为( ) ( ) ( ) T f * x =w f x +D x (12)式中，D( x) £v 表示估计误差； *w 可定义为如下形式：( ) ( ) T =argmin supnfQ*Î Îì üí - ýR î x þ xx xww w f (13)2.2.2 基于深度神经网络的控制分配策略本节以NMPC 为控制指令分配模板，生成大量包含气动舵指令的样本数据集，利用深度神经网络学习控制分配策略，实现对气动舵指令的智能分配。包括样本数据生成和网络离线训练两个部分。(1) 样本数据生成在当前时刻k，根据期望舵偏角k d 生成满足约束的预测控制序列p,k d 。可表示为如下形式的带约束的非线性规划问题：( ),,,min ,max,min ,maxmins.t.p kp k Jdd dd dddd£ ££ £(14)定义优化目标函数为( ) ( ) ( )( ), , ,,p k L p k M p kp kJ w L w Mwdd d dd d= D + D+ D(15)式中0 Lw > ， 0 Mw > ，且( ) ( ) 2 21pcNeL c L eiL C C d d=D = é D + D ùêë úû å (16)( ) ( ) 2 21pcNeM c M eiM C C d d=D = é D + D ùêë úû å (17)( ) ( ) 2 21Ncc eid=D = é D + D ùë û å (18)在上述优化问题的目标函数中，( ) ( ) , , , x p x x D =d k +i k -d k +i k x = c e表示k 时刻对k+i 时刻输出的预测值差， Np 和Nc 分别表示所采用NMPC 方法的控制及预测时域指标。在目标函数中，减小前两项是为了实现由气动舵提供的期望升力和力矩，减小第三项是为了平滑控制输出，且该项的设立可以削弱控制面抖动，保护伺服系统，提高控制面气动效率。然后，利用优化算法求解由式（14）所表示的优化问题。设计m 个飞行任务用于产生样本数据集，将每个飞行任务划分为n 个具有相等时间间隔的状态点，重复上述步骤的求解可得到mn 个样本用于离线训练，此样本数据集记为( ) ( ) ( ) ( ) ( ) { , , , , } s s s c s e s h V a d d * * * * * ，s =1,2, ,mn。(2) DNN 离线训练以样本集中的状态量作为输入，以分配后的气动舵指令作为期望输出对网络进行训练。网络输入层为T1 2 , , , mn* * * X = éëx x x ùû ，其中每个输入向量( ) ( ) ( ) ( ) ( )T, , , , 1, 2, , s s s s c s e s h V a d d s mn * = é * * * * * ù =ë ûx ，系统工程与电子技术Systems Engineering and Electronics，输出层为T1 2 , , , mn= é * * * ù Y ë y y y û ，其中每个输出向量( ) ( )T, , , s c NN s e NN s d d * = é * * ùë ûy ，即分配后的气动舵指令。第j 层的第i 个神经元的输出如下所示：( ) ij ij i 1 ij f G b - = w f + (19)式中： ijw 、ijb 、G 分别为第j 层第i 个神经元对应的权值向量、阈值、激活函数， 1 i - f为第j-1 层神经元的输出。通过训练使如下损失函数的值收敛到设定的误差范围。( ) ( ) ( ) ( ) ( ) ( ) 2 22 , ,11 Nc NN s c s e NN s e ss Nd d d d * * * *== é - + - ùêë úû å (20)式中： 2 表示误差大小；N＝1000 为每次从训练集中随机选择样本进行学习的个数。以上给出了利用深度神经网络学习分配策略的具体步骤，所设计的DNN 控制分配模块将应用在下面设计的控制器中。2.2.3 神经自适应控制器设计定义航迹角跟踪误差r eg gg=- ，其导数可表示为( ) 1 1 c e f x g dg g g = + d + (21)式中1 x g = ，( ) ( ) 1 01 1rsincosc , eL LL LT qSf x C CmV mVgVqS qSg C d C dmV mV g g gd daaggìï = + +ïïí - -ïï= = + ïî此处采用RBF 神经网络逼近( ) 1 1 f x ，根据2.2.1 可知( ) ( ) ( ) *T1 1 1 1 1 1 1 f x =w f x +D x 。定义经过DNN 控制分配模块得到的控制指令为c,DNN d ，然后考虑执行机构动态的实际输出为c d 。为此，定义( ) ( ) 1 1 c cc D d x gg g g = + D + d -d 以及 Dg g £e ，则式（21）可以改写为( ) *T1 1 1 cc e x g Dg g g =w f + d + (22)设计控制律为( ) T1 1 11 ˆ ˆ ˆ tanh ccex k e Dg ggg g gg gdJé æ ö ù= ê- - - - ç ÷G ú ç ÷êë è ø úûw f(23)式中： 0 kg > ， 0 g J > 。设计RBF 神经网络的自适应调节律为( ) 11 1 1 1 1 1 ˆ x e l ˆ g t - w = éëf - w ùû (24)式中： 1 0 t > ， 1 0 l > 。通过自适应超螺旋微分器估计Dg为( )( ) ( )121, 2, 1, 1,2, 2, 1,ˆsgnD c t vc t vg g g g g gg g g gx x xx xì= = - - ïíï = - - î(25)式中：v ˆ g =g -g ， ( ) 1 1 ˆ cc f x gg g = + d 。定义ˆ D D D g g g =-，且满足Dg g £ G 。通过如下更新律估计11 ,2ˆ ˆ tanhee gg g g g ggt tJ-é æ ö ùG = ê-G + ç ÷ ú ç ÷êë è ø úû， (26)式中： ,1 0 g t > ， ,2 0 g t > 。然后，定义期望攻角a* ，设计虚拟控制律d eg a a* = - (27)定义攻角跟踪误差d ea =a -a ，结合式（27）中a = Q-g ，其导数可表示为r e Q a g a* = - - (28)对此，设计虚拟控制律d d Q k e a a g a* = - + + (29)结合式（28）可得= Q e k e e a a a - + (30)定义俯仰角速度跟踪误差为Q d e = Q -Q ，则其导数可写为( ) Q 2 2 Q e e f g dg= x + d + (31)式中[ ]T2 x = g ,a,Q ，系统工程与电子技术Systems Engineering and Electronics( ) ( ) 2 2 1 02 2221e ,Q QM M MyyTQ dyyi iM Qyy i yyqScf C C CIz Tk k eIqScg C d dI Ia ada ag ay h*=ìï = + +ïïïí + - + - -ïïï = = +ïîåx此处采用RBF 神经网络逼近( ) 22 f x ，可知( ) ( ) ( ) *T2 2 2 2 2 2 2 f x =w f x +D x 。定义经过DNN 控制分配模块得到的控制指令为, e DNN d ，然后考虑执行机构动态的实际输出为e d 。为此，定义( ) ( ) Q Q 2 2 Q e ec D = d + D x + g d -d 以及Q Q D e £ ，则式（31）可以改写为( ) *TQ 2 2 2 Q e Q e =w f x + g d + D (32)设计控制律为( ) T2 2 21 ˆ ˆ ˆ tanhQQec Q Q QQ Qek e e Dg a dJé æ ö ù= ê- - - - - ç ÷G ú ç ÷êë è ø úûw f x(33)式中： 0 Qk > ， 0 QJ > 。设计RBF 神经网络的自适应调节律为( ) 12 2 2 2 2 2 ˆ ˆ Qt e l - w = éëf x - w ùû (34)式中： 2 0 t > ， 2 0 l > 。通过自适应超螺旋微分器估计QD ，表示为( )( ) ( )121, 2, 1, 1,2, 2, 1,ˆsgnQ Q Q Q Q QQ Q Q QD c t vc t vx x xx xì= = - - ïíï = - -î(35)式中： ˆQ v Q Q=-， ( ) 2 2ˆQ ec Q = f x + g d 。定义ˆQ Q Q D D D=-，且满足Q Q D £ G 。通过如下更新律估计11 ,2ˆ ˆ tanh QQ Q Q Q QQet t eJ-é æ ö ùG = ê-G + ç ÷ ú ç ÷êë è ø úû， (36)式中： ,1 0 Q t > ， ,2 0 Qt > 。以上部分完成了智能控制方案的设计，图1 给出了具体的控制系统框图。NMPC控制分配网络离线训练神经自适应控制在线智能分配PID参数整定Critic网络Actor网络sn={h,α,V,eV}an={kp,ki,kd}样本数据eVδecδcc δc,NNδe,NNδcδeΦVshsδesf11f21fi1...f1jf2jfiju1u2.........样本数据池{h,α,V,δc,δe}速度子系统高度子系统飞行器模型图1 控制系统框图Fig. 1 Control system block diagram3 稳定性分析由于速度子系统采用PID 控制器，本小节主要对高度子系统进行稳定性分析。定理1 针对系统式（1），使用控制律式（ 23 ）、式（ 33 ），更新律式（ 24 ）、式（26）、式（34）、式（36），自适应超螺旋微分器式（25）、式（35），系统可以实现一致有界跟踪控制，误差变量eg 、ea 和Q e 收敛到如下区域：: max (0), 2eh x x S e e Wìï ìï Q üïïü= í £ í ýýîï îï ¡ ïþïþ(37)其中，x =g ,a ,Q，Q 和¡ 是与控制器参数相关的常数。系统工程与电子技术Systems Engineering and Electronics证明选取李雅普诺夫函数如下：Q W W W W g a = + + (38)式中12 T ,1 21 1,222 T ,1 22 2,221 12 2 2121 12 2 2QQ Q QQW eW eW egg g gga atttttt= + + G== + + Gw ww w对式（37）求导得T ,11 1 1,2T ,12 2 2,2ˆ ˆˆ ˆQQQ Q Q QQW W W We e e ee eg agg g g g a agtttttt= + += - - G G ++ - - G Gw ww w(39)将式（22）、（24）、（26）、（30）、（32）、（34）和（36）代入式（39），可得2 T1 1 1,222 T2 2 2,21 ˆ ˆtanh1 ˆ ˆtanhQ Q Q QQQQ Q Q QQW k e l D eee k ek e leD e eg g g g g gggg g a agtJtJ= - + + G G +æ ö- ç ÷ G - ç ÷è ø- + + G Gæ ö+ - ç ÷ G ç ÷è øw ww w(40)结合引理1 并注意到2 2 xxˆ £ - x 2 + x 2，则有2 T 2, , 1,2 , ,2T 21,2 , ,2 ,12 212 2ii i i i ii Q i i Q iii i i i ii i Q i i QlW k elWg a gg gtk Jt= = =* *= = =£ - - - G+ + G + G£ -¡ + Qå å åå å åw ww w(41)其中,1 21 2 ,1 ,12, ,2 ,1 1min 2 ,2 ,2 , , , , 0102QQi i ii Q i i Ql lk k k g agg gt t t tk Jt = =ìï ïü¡ = í ý >îï ïþQ = å G + å G >(42)对式（42）求解可得：( ) (0) e t W t W - ¡ Q é Qù£ + ê - ú ¡ ë ¡ û(43)由式（ 43 ）可得 W(t ) £W(0) ，即( )Wt 是有界的，联合李雅普诺夫函数式（38），则有( ) ( ) ( ) 2 10 e2tx e t W t W - ¡ Q é Qù£ £ + ê - ú ¡ ë ¡ û(44)进一步可得：( ) 2 2 (0) e tx e t W - ¡ Q é Qù£ + ê - ú ¡ ë ¡û(45)其中x =g ,a ,Q。基于上述分析，所形成的闭环系统具有最终一致有界稳定性。通过调节控制增益，高度子系统的状态跟踪误差可以收敛至任意小的集合内，即误差变量eg 、ea 和Qe 渐进收敛到区域: max (0), 2eh x x S e e Wìï ìï Q üïïü= í £ í ýýîï ïî ¡ ïþïþ，其中x =g ,a ,Q。证毕4 训练设计和仿真结果4.1 速度子系统强化学习训练在设置基于DDPG 算法的离线训练时，设计最大的训练回合为3000，每回合最大步长为500，采样时间为1s。为使DDPG 智能体适应多种环境，需要将训练期间的参考轨迹设计在表1 所示的飞行包线内，且尽量覆盖不同类型具有代表性的飞行任务。系统工程与电子技术Systems Engineering and Electronics表1 高超声速飞行器的状态约束Table 1 State constraints of hypersonic vehicle参数下界上界V/(m/s) 1700 3400h/(m) 18288 36576γ/(°) -10 10α/(°) -10 10Q/(°/s) -20 20由于高超声速飞行器的状态值不在同一个数量级，训练所需的状态值需进行归一化处理为有效数据，然后随机采样进行训练。当飞行任务输出完成时，该回合停止，同时计算当前回合的总回报奖励。表2 给出了具体的训练参数设置。表2 训练参数设置Table 2 Training parameter settings训练参数参数值学习率 0.0001批学习数 128网络噪声 0.5,0.1惯性更新率 0.001经验池大小 1000000由图2 可以看出，累计汇报曲线在400回合附近逐渐呈现收敛趋势。最后，训练好的DDPG 智能体将被移植于速度子系统控制器中，用于自适应调整PID 参数。图2 累计回报曲线Fig. 2 Cumulative reward curve4.2 高度子系统神经网络训练在生成数据样本时，选取飞行任务数量m＝1000，每个飞行任务划分状态点数量n＝5000，因此可得到5×106 个样本用于离线训练。最后将样本集随机划分为训练集1 和测试集2 ，比例设置为95%和5%。其中，训练集1 采用归一化处理，训练得到的网络模型经测试集2 进行性能测试，对比并筛选出相对理想的网络结构，用于在线控制分配。图3 给出了损失函数的收敛曲线。图3 损失函数曲线Fig. 3 Loss function curve4.3 仿真结果为了验证所提出方案的有效性，本文设计如下两个仿真实验。其中，模型中的气动数据见文献[21]，速度和高度参考信号采用文献[16] 给出的指令滤波器，高超声速飞行器的状态初值如表3 所示。表3 高超声速飞行器的状态初值Table 3 Initial states of hypersonic vehicle参数数值V/(m/s) 2400h/(m) 26000γ/(°) 0α/(°) 2.66Q/(°/s) 0η1 0.832η2 0.121本文的设计参数分别为0.1 hk kg = = ，1 ka = ， 5 Q k = ，其余参数根据具体仿真实验和式（42）的约束进行适当调整。4.3.1 验证仿真为验证所提出控制方案的有效性，设计如下由阶跃信号产生的参考指令：( ) ( ]( ]2400, 0s2900, 0s, 200s3100, 200s, 400srtV t ttì =ï= í Îïî Î( ) ( ]( ]26000, 0s31000, 0s,200s28000, 200s,400srth t ttì =ï= í Îïî Î为了验证控制器的鲁棒性，引入以下干扰：当120s £ t £140s ， 2cos( ) Vd = t ；当220s £ t £ 240s ， d 0.005cos(t ) g = ；当320s £ t £ 340s ， 0.02cos( ) Qd = t 。仿真结果如图4~图6 所示。图4 给出了速度和高度的跟踪结果，可以看出系统在干扰作用下的速度和高度都能够稳定跟踪设定的参考轨迹。图5 显示的是系统状态响应曲线，包括航迹角、攻角、俯仰角速率以及弹系统工程与电子技术Systems Engineering and Electronics性模态，可以看出航迹角和攻角具有比较小的跟踪误差。图6 给出了包括燃料当量比、鸭翼偏角和升降舵偏角在内的输入变化曲线，本文所考虑的气动舵受限问题得到了有效解决。图7 给出了PID 的变化曲线，可以看出kp、ki、kd 随着系统状态变化，最终趋于稳定。神经自适应控制的权重变化在图8 中体现。图9 和图10 给出利用自适应超螺旋微分器处理扰动和误差上界的估计值。此外，为了研究基于NMPC 和DNN 优化分配控制器的性能对比，表4 给出了基于同一平台（CPU: i7-7700HQ，RAM: 16.0 GB）的仿真时间。可以看出，基于DNN 优化分配的方案将计算速度提升近90% 。这主要是因为NMPC 需要解决执行器模型的优化问题，而利用深度神经网络代替复杂优化问题的过程将明显缩短计算时间。(a) 速度跟踪结果(a) Velocity tracking results(b) 高度跟踪结果(b) Altitude tracking results图4 速度和速度跟踪结果Fig. 4 Velocity and altitude tracking results(a) 航迹角变化曲线(a) Change curve of flight path angle(b) 攻角变化曲线(b) Change curve of angle of attack(c) 俯仰角速率变化曲线(c) Change curve of pitch rate(d) 弹性模态变化曲线(d) Change curves of flexible states图5 系统状态响应曲线Fig. 5 Response curves of system states(a) 燃料当量比(a) Fuel equivalence ratio(b) 鸭翼偏角(b) Canard deflection angle系统工程与电子技术Systems Engineering and Electronics(c) 升降舵偏角(c) Elevator deflection angle图6 控制输入曲线Fig. 6 Curves of control inputs图7 PID 参数变化曲线Fig. 7 Change curves of PID parameters图8 权重变化曲线Fig. 8 Change curves of weights图9 等效干扰估计结果Fig. 9 Estimation results of equivalent interferences图10 误差上界估计结果Fig. 10 Estimated results of the upper bound of errors表4 控制分配算法运行时间比较Table 4 Comparison of control allocation algorithmrunning time算法运行时间/sNMPC 81.51DNN 7.864.3.2 对比仿真为了进一步验证本文方法的优越性，选取文献[16]中的神经自适应控制器（简称对比方法1）以及文献[3]中的自适应反步控制器（简称对比方法2）与本文所提出的控制器（简称本文方法）进行对比。速度参考指令跟踪幅值为200 m/s 的阶跃信号，高度指令为幅值为10000 m的阶跃信号。图11~图14 为对比仿真的实验结果。(a) 速度跟踪结果(a) Velocity tracking results(b) 高度跟踪结果(b) Altitude tracking results图11 速度和速度跟踪结果Fig. 11 Velocity and altitude tracking results图12 系统状态响应曲线Fig. 12 Response curves of system states系统工程与电子技术Systems Engineering and Electronics图13 控制输入曲线Fig. 13 Curves of control inputs(a) 速度跟踪平均绝对误差(a) Mean absolute errors in velocity tracking(b) 高度跟踪平均绝对误差(b) Mean absolute errors in altitude tracking图14 平均绝对误差曲线Fig. 14 Mean absolute error curves从图11 可以看出，以上三种方法均能够实现良好的跟踪控制性能。通过对比可以发现，本文所提出的控制方法具有较快的跟踪性能和较好的跟踪效果，这主要是因为所采用的智能控制方法实时调整控制参数以及网络权值，并且采用的自适应超螺旋微分器对控制器提供较好的补偿。图12 和图13 分别给出了对应的系统状态曲线和控制输入曲线，其中包括了鸭翼偏转角和升降舵偏转角根据目标函数进行了优化分配的控制输入曲线。图14 给出了三种方法在500 次蒙特卡洛仿真下的平均绝对误差曲线对比，可以看出，本文方法具有更高的跟踪精度。5 结论针对弹性高超声速飞行器气动舵受限情况下的高精度跟踪控制问题，设计了一种基于神经自适应的智能控制方案。应用深度强化学习方法构建了智能参数整定策略，实现了对速度指令的快速跟踪控制。考虑气动舵的约束和动态特性，设计了基于深度神经网络的智能分配策略，并给出了神经自适应控制器设计过程和稳定性证明。通过引入自适应超螺旋微分器处理外部扰动，有效地增强了智能控制系统的鲁棒性和抗扰能力。仿真结果表明，所提出的方案能够较好地处理气动舵受限问题，并实现快速高精度的速度和高度跟踪控制。参考文献[1] PEEBLES C. Road to Mach 10: Lessonslearned from the X-43A flight researchprogram [M]. Reston: American Institute ofAeronautics and Astronautics, 2008.[2] SHOU Y, XU B, LIANG X, et al.Aerodynamic/reaction-jet compound controlof hypersonic reentry vehicle using slidingmode control and neural learning [J].Aerospace Science and Technology, 2021,111: 106564-106564.[3] FIORENTINI L, SERRANI A, BOLENDERM A, et al. Nonlinear robust adaptive controlof flexible air-breathing hypersonic vehicles[J]. Journal of Guidance Control andDynamics, 2009, 32(2): 402-417.[4] REN W, JIANG B, YANG H. Singularperturbation-based fault-tolerant control ofthe air-breathing hypersonic vehicle [J].IEEE/ASME Transactions on Mechatronics,2020, 24(6): 2562-2571.[5] ZONG Q, WANG J, TAO Y. Adaptive highorderdynamic sliding mode control for aflexible air-breathing hypersonic vehicle [J].International Journal of Robust andNonlinear Control, 2013, 23(15): 1718-1736.[6] CHANG Y, JIANG T, PU Z. Adaptive controlof hypersonic vehicles based on系统工程与电子技术Systems Engineering and Electronicscharacteristic models with fuzzy neuralnetwork estimators [J]. Aerospace Scienceand Technology, 2017, 68: 475-485.[7] 朴敏楠, 陈志刚, 孙明玮, 等. 高超声速飞行器气动伺服弹性的自适应抑制 [J]. 航空学报, 2020, 41(11): 623698-623698.PIAO M N, CHEN Z G, SUN M W, et al.Adaptive aeroservoelasticity suppression ofhypersonic vehicles [J]. Acta Aeronautica etAstronautica Sinica, 2020, 41(11): 623698-623698.[8] SHAO X., SHI Y., ZHANG W. Fault-tolerantquantized control for flexible air-breathinghypersonic vehicles with appointed-timetracking performances [J]. IEEE Trans. onAerospace and Electronic Systems, 2021,57(2): 1261-1273.[9] AN H, LIU J, WANG C, et al. Approximateback-stepping fault-tolerant control of theflexible air-breathing hypersonic vehicle [J].IEEE/ASME Transactions on Mechatronics,2015, 21(3): 1680-1691.[10] QIAN J, QI R, JIANG B. Fault-tolerantguidance and control design for reentryhypersonic flight vehicles based on controlallocationapproach [C]//Proc. of the IEEEChinese Guidance, Navigation and ControlConference, 2014: 1624-1629.[11] JIN J. Modified pseudoinverse redistributionmethods for redundant controls allocation [J].Journal of Guidance, Control, and Dynamics,2005, 28(5): 1076-1079.[12] YU Y, WANG H, LI N. Fault-tolerantcontrol for over-actuated hypersonic reentryvehicle subject to multiple disturbances andactuator faults [J]. Aerospace Science andTechnology, 2019, 87:230-243.[13] BEMPORAD A, MORARI M. Robustmodel predictive control: A survey [M].Robustness in identification and control.London: Springer, 1999: 207-226.[14] HU Q, MENG Y. Adaptive backsteppingcontrol for air-breathing hypersonic vehiclewith actuator dynamics [J]. AerospaceScience and Technology, 2017, 67:412-421.[15] QIN W, HE B, LIU G, et al. Robust modelpredictive tracking control of hypersonicvehicles in the presence of actuatorconstraints and input delays [J]. Journal ofthe Franklin Institute, 2016, 353(17): 4351-4367.[16] AN H, GUO Z, WANG G, et al. Neuraladaptive control of air-breathing hypersonicvehicles robust to actuator dynamics [J]. ISATransactions, 2021, 116: 17-29.[17] 黄旭星, 李爽, 杨彬, 等. 人工智能在航天器制导与控制中的应用综述. 航空学报,2021, 42(4): 524201-524201.HUANG X X, LI S, YANG B, et al.Spacecraft guidance and control based onartificial intelligence: Review [J]. ActaAeronautica et Astronautica Sinica, 2021,42(4): 524201-524201.[18] IZZO D, MRTENS M, PAN B F. A surveyon artificial intelligence trends in spacecraftguidance dynamics and control [J].Astrodynamics, 2019, 3(4): 287-299.[19] 胥彪,李翔,李爽,等.基于非线性模型预测控制的火星大气进入智能制导方法 [J].系统工程与电子技术, 2021, 43(07): 1943-1953.XU B, LI X, LI S, et al. Intelligent guidancemethod based on nonlinear model predictivecontrol for mars atmosphere entry[J]. SystemEngineering and Electronic Technology,2021, 43(07): 1943-1953.[20] SÁNCHEZ-SÁNCHEZ C, IZZO D. Realtimeoptimal control via deep neuralnetworks: Study on landing problems [J].Journal of Guidance, Control, and Dynamics,2018, 41(5):1122-1135.[21] 许斌, 王霞. 基于时标分解的弹性高超声速飞行器智能控制 [J]. 航空学报, 2020,41(11): 624387-624387.XU B, WANG X. Time-scale decompositionbased intelligent control of flexiblehypersonic flight vehicle [J]. ActaAeronautica et Astronautica Sinica, 2020,系统工程与电子技术Systems Engineering and Electronics41(11): 624387-624387.[22] VAN BUIJTENEN W M, SCHRAM G,BABUSKA R, et al. Adaptive fuzzy controlof satellite attitude by reinforcement learning[J]. IEEE Transactions on Fuzzy Systems,1998, 6(2): 185-194.[23] 颜军. 基于S698PM 星载计算机的设计[C]//2019 航空装备服务保障与维修技术论坛暨中国航空工业技术装备工程协会年会,2019: 653-656, 659.YAN J. Design of spaceborne on-boardcomputer (OBC) using S698PM [C]// Proc.of the Aviation Equipment Service Supportand Maintenance Technical Forum andAnnual Meeting of China Aviation IndustryTechnical Equipment EngineeringAssociation, 2019: 653-656, 659.[24] PARKER JT, DOMAN DB, BOLENDER MA. Control-oriented modeling of an airbreathinghypersonic vehicle [J]. Journal ofGuidance, Control, and Dynamics, 2007,30(3): 856–869.[25] 胡军. 高超声速飞行器非线性自适应姿态控制 [J]. 宇航学报, 2017, 38(12):1281-1288.HU J. The Nonlinear adaptive attitudecontrol for hypersonic vehicle [J]. Journal ofAstronautics, 2017, 38(12): 1281-1288.[26] ALWI H, EDWARDS C. An adaptivesliding mode differentiator for actuatoroscillatory failure case reconstruction [J].Automatica, 2013, 49(2): 642-651.[27] JIANG Z, PARLY L. Design of robustadaptive controllers for nonlinear systemswith dynamic uncertainties [J]. Automatica1998, 34(7): 825–40[28] LILLICRAP T P, HUNT J J, PRITZEL A, etal. Continuous control with deepreinforcement learning [J]. ComputerScience, 2015, 8(6): A187.[29] FIORENTINI L, SERRANI A. Adaptiverestricted trajectory tracking for a nonminimumphase hypersonic vehicle model[J]. Automatica, 2012, 48(7):1248-1261.[30] CHEN M, TAO G, JIANG B. Dynamicsurface control using neural networks for aclass of uncertain nonlinear systems withinput saturation[J]. IEEE Transactions onNeural Networks and Learning Systems,2015, 26(9): 2086-2097.[31] SANNER R M, SLOTINE J E. Gaussiannetworks for direct adaptive control [J].IEEE Transactions on Neural Networks,1992, 3(6): 837-863.作者简介王冠（1994—），男，博士研究生，主要研究方向为飞行器控制。茹海忠（1985—），男，高级工程师，硕士，主要研究方向为制导导航与控制。马广程（1971—），男，教授，博士，主要研究方向为运动控制与空间控制。夏红伟（1979—），男，教授，博士，主要研究方向为飞行器控制与仿真技术。

[返回]

上一篇：基于辅助信标的无人机协同目标跟踪
下一篇：车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法