欢迎访问一起赢论文辅导网
机械论文
当前位置:首页 > 机械论文
带退化效应多态生产系统调度与维护集成优化
来源:一起赢论文网     日期:2017-10-09     浏览数:2750     【 字体:

  2  至系统安全起着至关重要的作用。在传统的生产调度研究中,一般都假定设备始终可用,这往往不符合企业的实际生产情况,生产设备有时因为维护活动或机器故障而变得不再可用;预防性维护策略制定一般也不考虑其对生产作业的影响。因此,生产调度方案和设备维护策略在具体的执行过程中经常发生冲突,导致生产调度和设备维护策略实际效果大打折扣。为解决两者之间的耦合关系,同时兼顾生产调度和预防性维护的各自目标,生产调度和预防性维护集成优化已逐渐成为制造领域的研究热点[1-3]。 现有的调度与维护集成优化研究大都假定工件加工时间/成本和设备维护时间/成本在整个生产过程中是固定不变的[4-6],而实际生产中,随着加工设备的退化,与之相关的工件加工时间/成本往往会相应增加,同时设备维护时间/成本也会增加[7]。目前,描述退化的工件加工时间/成本主要有两种方法,即分别基于依赖于时间和依赖于位置的退化效应,前者将退化的工件加工时间表示为工件开始加工时间与其标准加工时间的函数,后者一般基于工件加工位置和标准加工时间进行描述。假定机器维护周期是预先确定的,Lee [8]将退化的工件加工时间表示为开始加工时间的非减函数,给出了一种启发式算法求解 makespan 最小化集成优化问题。Lee [9]进一步考虑依赖于位置的退化加工时间,且假定每个机器只有一个预防性维护,给出多项式算法确定工件公共交货期和维护任务位置,从而最小化并行机总提前/拖期成本。同样考虑依赖位置的退化效应,Haddad [10]通过混合模拟退火和爬山算法求解单机多任务维护集成优化问题。也有学者同时考虑依赖时间和依赖位置联合退化效应对工件加工速率的影响,假定在整个计划周期机器至多只有一个维护活动,Ji [11]建立了单机生产调度和预防性维护集成优化模型。与退化的工件加工时间描述类似,退化的维护时间也可以用时间和位置加以表示。为了最小化工件加权拖期,Pan [12]将机器预防性维护时间用机器有效役龄表示,给出一种单机生产调度和预防性维护计划集成优化模型。 上述生产调度和预防性维护集成优化研究都是基于传统的设备二态可靠性理论开展的,也就是说,认为生产设备仅仅存在可观察的正常工作和完全失效两个状态。随着生产设备的日益复杂化以及对设备失效机理和规律研究的深入,已经发现生产设备失效过程往往表现出多状态特征,设备加工过程中由于振动、疲劳及磨损等原因导致设备状况会逐渐退化,从健康正常状态经历多个状态以至最终失效,即设备从正常工作到完全失效的退化过程会经历若干个中间状态[13]。一般可借助于设备状态监测数据,对设备状态运行机制进行建模,通过模型分析和辨识获知设备各状态之间演变规律,已经有多种方法被用于处理状态监测数据并进行建模,这些方法总体上可被分为基于模型方法、数据驱动方法和统计分析法三种类型[1415]。可见,简单地将设备状态划分为“正常”和“失效”两种状态是不准确的,也不符合生产实际情况。而且,设备状态退化过程也并不总是依次转移至相邻状态,而是以概率形式随机退化到某个劣化程度更严重的状态。由上述文献综述不难看出,现有的绝大部分文献都是基于设备二态可靠性对带退化效应的生产系统调度与维护集成优化问题展开研究,而对多态生产系统调度与预防性维护集成优化的研究却很少[16-18],多态生产系统状态转移的不 3  确定性给此类问题的集成优化模型建立及其求解带来了极大的挑战。本文在考虑设备退化效应前提下对多态单机生产系统调度与维护集成优化问题进行研究,建立无限阶段平均期望报酬马尔可夫决策(Markov Decision ProcessesMDP)模型,并首次将强化学习技术应用到多态生产系统用于求解调度与预防性维护集成优化 MDP 模型。 1 模型建立 1.1  无限阶段平均期望报酬 以单机器多产品生产系统为研究对象,机器可加工多种工件类型 nnÎ{1,2,L, N},令nt 为工件类型 n 的加工时间。机器状态随着生产进行会产生退化效应,在 k 阶段机器选择加工工件后,在下一个 k+1 阶段机器将会以一定概率从状态ks 转移到状态k+1s 。令机器状态 i 共有 M +1 个状态,即iÎ{0,1,L, M}0 代表机器最好状态,M 为机器最差状态,i 越大意味机器状态越差。机器在状态 i处选择某种工件类型加工或进行预防性维护可看作是一个动作,动作集 A N+1 个动作构成,即1 1{ , , , }+= KN NA a a a ,其中动作N+1a 为预防性维护活动。令机器退化过程中状态转移具有马尔科夫过程特性,即机器状态转移只与当前状态和所选择的动作有关,而不受历史状态和动作影响,即状态转移满足下式: 1 1 1 1 1 0 0{ | , , , ,..., , , , }aij k k k k kp p s j s i a a s a s a s a+ - -= = = =1{ | , }k k kp s j s i a a+= = = = 。           (1) 随着机器状态的退化,工件加工成本也会相应增加,为了降低生产成本,通常会根据机器状态适时采用预防性维护以改善机器状况,假定机器经过维护后状态可恢复到最好状态,即维修后机器状态为“as good as new”。生产过程中状态转移过程可用下式表示:  11{0,1, , }, { , 1, , },{0,1, ,1 0,0},ij Naij Np a ap j a ai M j i i Mi M++ì¹Îï= í= =ïîÎ +ÎL LL其它                (2) 通常情况下,机器所处状态越差,其转移到更差状态的概率也会越大,故可令¥=åijj Lp 为状态 i 的非减函数。状态为 i 的机器预防性维护费用可用函数 ( , )mc i a 表示,具体有:    1( )( , )0 其它  +ì== íîm Nmc i a ac i a                            (3) 机器状态越差,其所需维护费用一般也会越高,因此可假定维护费用函数 ( , )mc i a 为状态 i 的非减函数,即 ( , ) ³( ¢, ), ³¢m mc i a c i a i i 。需要指出的是,机器在最好状态时其预防性维护费用为 0,也即1( , ) 0m Nc i a+= 。进一步假定机器在同一状态下加工不同类型工件的单位时间加工成本是相同的,可用以下函数 ( , )pc i a 表示机器处于状态 i 时的单位时间加工成本:  4       1( )( , )0 其它+ì¹= íîp Npc i a ac i a                                (4) 由上式不难看出,当机器在状态 i 处进行预防性维护时,不产生加工成本。单位时间加工成本随着机器的退化也会相应增加,即对于状态i³ i¢ 有 ( , ) ³( ¢, )p pc i a c i a 。用函数 ( , )or i a 表示选择并完成某工件加工的回报,即机器状态为 i 时完成某工件加工的回报值,而执行维护活动则没有任何回报,回报函数 ( , )or i a 具体为: 1( )( , )0 其它  +ì¹= íîo Nor a a ar i a                          (5) 不难看出,该回报函数是与选择何种动作直接相关的。基于上述预防性维护费用、加工成本以及工件完工回报函数,可得到 k 阶段生产机器状态为 i 的立即报酬函数为: ( , ) =( , ) -( , ) -( , )k o m p nR i a r i a c i a c i a t   。                   (6) 令函数 ( , )mc i a ( , )pc i a ( , )or i a 有界,因此有 | ( , ) |£ < ¥kR i a B B 为一个有界正数。生产过程中选择动作的决策频率一般很快,因此采用平均期望报酬替代折扣期望总报酬更为合理。在策略p 下的无限阶段平均期望报酬可表示为: 0( ( ))( ) lim supKkkKE R iiKppr =®¥å=   。                        (7) 本文研究目标是最大化无限阶段平均期望报酬值,也即获得最优策略p*使得对所有状态 i (i) (i)p pr r*³ 。由式(1)可知,最大化无限阶段平均期望报酬问题可以通过建立马尔可夫决策模型进行求解。 1.2  平均准则最优方程   为了获得马尔可夫决策过程的最优策略p*,需要建立无限阶段平均期望报酬的最优方程。为此,首先需要分析无限阶段平均期望报酬马尔可夫决策过程最优平稳策略的存在性,在此基础上,进一步获得无限阶段平均期望报酬的最优方程。根据随机动态规划理论[19]有以下定理。 定理 1   若存在一个有界函数 h(i)和常数 g,对所有i³0 ( ) =max[ ( , ) - +ah i R i a g0( )]¥=åaijjp h j ,则存在最优平稳策略p*使得 ( ) max ( )p ppr r*g= i= i i³0 ,且最优平稳策略p* 为在状态 i 时选择最大化0( , ) ( )¥=- + åaijjR i a g p h j 动作的策略。 由定理 1 可知,若存在有界函数 h(i)和常数 g 使得等式 ( ) =max[ ( , ) - +ah i R i a g0( )]¥=åaijjp h j 成立,则无限阶段平均期望报酬最优平稳策略存在,可基于无限阶段折扣期望报酬与平均期望报酬之间的1  带退化效应多态生产系统调度与维护集成优化1 杨宏兵1,沈 露1,成 明2,陶来发3 (1.苏州大学 机电工程学院,江苏  苏州 2100062.苏州大学 城市轨道交通学院,江苏  苏州 2100063.北京航空航天大学 可靠性与系统工程学院,北京 100191) 摘要:考虑设备退化效应的影响,对多态单机生产系统调度与预防性维护集成优化进行研究。基于预防性维护费用、工件加工成本以及工件完工回报值,建立无限阶段平均期望报酬马尔可夫决策模型,分析和证明该集成优化模型最优平稳策略的存在性,并获得该模型的最优方程。基于模型最优方程设计了一种无模型强化学习算法用于求解马尔可夫决策模型,可有效解决传统动态规划算法在求解模型时所遭遇的维数灾和模型灾难题。为了评估该无模型强化学习的性能,基于无限阶段平均期望报酬设计了一种启发式求解算法,实验分析结果验证了所引入的无模型强化学习算法的有效性。最后,对该强化学习算法参数进行了敏感性分析,探索各参数对算法性能的影响,为算法设计及其性能提高提供了相应的实验依据。 关键词:多态系统;集成优化;强化学习;退化效应;生产调度 中图分类号:TH166          文献标识码:A Integrated optimization of scheduling and maintenance in multi-state production systems with deterioration effects YANG Hongbing1SHEN Lu1CHENG Ming2TAO Laifa3 (1.School of Mechanical and Electric EngineeringSoochow UniversitySuzhou 215006China2.School of Urban Rail TransportationSoochow UniversitySuzhou 215006China3.School of Reliability and Systems EngineeringBeihang UniversityBeijing 100191China) Abstract:An  integrated  optimization  problem  is  investigated  for  production  scheduling  and  preventive maintenance  with  deteriorating  conditions  in  multi-state  production  systems.Firstly based  on  the preventive  maintenance  costproduction  cost  and  rewards  of  finished  jobthe  integrated  optimization problem  is  formulated  as  a  Markov  decision  process(MDP)  model  of  long-run  expected  average  reward over finite-horizonafter the existence of the optimal stationary policy is analyzed and provedan optimal equation is obtained for the MDP model. Traditional dynamic programming methods suffer from the curse of dimensionality and modelingso a model-free reinforcement learning algorithm is presented to solve the established  MDP  model  on  the  basis  of  the  optimal  equation.  In  order  to  evaluate  the  performance  of  the reinforcement learninga concise heuristic algorithm is proposedand the experiments carried out indicate that  the  reinforcement  learning  algorithm  provide  very  effective  solutions  for  the  problem  in  comparison with  the  heuristic  algorithm.Finallya  parameter  sensitivity  analysis  is  performed  for  the  reinforcement learning  algorithmwhich  provides  the  experiment  reference  for  further  design  and  improvement  of  the algorithm. Keywords:multi-state  systemsintegrated  optimizationreinforcement  learningdeterioration  effectsproduction scheduling 0 引言 生产调度和预防性维护是制造领域中的两项关键技术,对于制造企业的生产效率、生产成本甚                                                        收稿日期:2016-08-08;修订日期:2017-04-07Received 08 Aug.2016;accepted 07 Apr.2017. 基金项目:国家自然科学基金资助项目(51005160);江苏省自然科学青年基金资助项目(BK20150344);江苏省高校自然科学研究资助项目(13KJB460005);中国博士后科学基金资助项目(2016M601885)。Foundation  items:  Project supported  by  the  National  Natural  Science  FoundationChina(No.51005160)the  Natural  Science  Foundation  of  Jiangsu Province China(No.BK20150344) the  Collegiate  Natural  Science  Foundation  of  Jiangsu  Province China (No.13KJB460005)and the Chinese Postdoctoral Science FoundationNo. 2016M601885.  5  关系讨论定理 1 的条件是否能够满足。用aV 表示无限阶段最优折扣期望回报函数,则对于所有状态i 有如下最优方程: ( ) max[ ( , ) ( )]a a= +aåaijajV i R i a p V j   。                              (8) 上式中a ( 0 £a <1)为折扣系数,基于无限阶段最优折扣期望回报函数,有如下定理[19]: 定理 2  对于所有a和状态 i,若存在常数 H< ¥ 并使得| ( ) (0) |a aV i-V< H ,则存在一个有界函数 h(i)和常数 g 满足定理 1。 由定理 1 和定理 2 可知,若存在常数 H< ¥ 并使得| ( ) (0) |a aV i-V< H ,则存在无限阶段平均期望报酬最优平稳策略p*,并可获得无限阶段平均期望报酬最优方程。为了证明定理 2 的条件能够满足,先给出随机变量随机大于的定义和引理[19]: 定义 1   对于所有的数q ,若两个随机变量 x, y 满足不等式 p(x>q) ³ p(y>q) ,则称随机变量 x随机大于随机变量 y ,记为 xˆ³ y 。 引理 1   对于非减函数 f 和随机变量 x, y ,函数 f 的期望不等式 E( f(x)) ³ E( f(y)) 成立,当且仅当xˆ³ y 成立。 基于引理 1 可以得出最优折扣期望回报函数aV 是关于状态 i 的非增函数,即有以下性质: 性质 1   最优折扣期望回报函 ( ) max[ ( , )oaV i r i aa= ( , ) ( , ) ( )]am p n ijjc i a c i a t p V ja- - +aå 为状态 i 的非增函数, 0 £a <1。 证明   令 ( )akV i k 个阶段最优折扣期望回报函数,则0( )aV i =0。由式(2)状态转移特性可将 ( )akV i写为: 1( ) max {max[ ( ) ( ) ( )],k a ko p n ijajV i r a c i t p V ja aa-= - + å1(0) ( )}kmV c iaa--   。                 (9) 由式(9)可得1( ) max{max[ ( ) ( ) ]o p naV i r a c i ta= - , ( )}m-c i ,因为 ( )pc i ( )mc i 均为状态 i 的非减函数,显然1( )aV i 为状态 i 的非增函数。不妨令 k-1 个阶段最优折扣期望回报函数-1( )akV i 为状态 i 的非增函数。令机器加工工件后状态 i 转移到的后续状态为is ,即 ( =) =i ijp s j p ,因为¥=åijj Lp 为状态 i 的非减函数,由定义 1 可知随机变量+1ˆ³i is s 。若 f 为非减函数,由引理 1 可知+1( ( )) ³( ( ))i iE f s E f s ,即 ( ( ))iE f s 为状态 i 的非减函数。令函数f¢ = - f ,函数 f¢ 为非增函数,有+1( ¢( )) £( ¢( ))i iE f s E f s ,即 ( ¢( ))iE f s 为状态 i 的非增函数,因此1( )a-åa kijjp V j为状态 i 的非增函数。又因为 ( )pc i ( )mc i 为状态 i 的非减函数,故 ( )akV i 为状态 i 的非增函数。由归纳法可得对于所有 k,无限阶段折扣期望回报函数 ( )akV i 均为状态 6  i 的非增函数。又因为 lim ( ) ( )a a®¥=kkV i V i ,故最优折扣期望回报函数 ( )aV i 为状态 i 的非增函数,性质 1得证。 基于性质 1,可以进一步证明定理 2 中条件是能够满足的,即有如下性质: 性 质 2   对 所 有 状 态 i 的 无 限 阶 段 最 优 折 扣 期 望 回 报 函 数 , 存 在 常 数 H< ¥ 使 得| ( ) (0) |a aV i-V< H 成立, 0 £a <1。 证明   由状态转移规律可得: ( ) max[ ( , ) ( , ) ( , ) ( )]ao m p n ijajV i r i a c i a c i a t p V ja a= - - +aå 1{a , a }max {max [ ( ) ( ) ( )], (0) ( )}Nao p n ij majr a c i t p V j V c ia aa aÎ= - + å-K  。                  (10)  根据式(10)可得 ( ) (0) ( )mV i V c ia a³a - 。由于函数 ( , )mc i a 有界,故不妨令 | ( ) |m mc i £N ,则有(0) ( ) (1 ) (0)mV V i N Va a a- £ + -a 。又由于立即报酬函数| R(i,a) |£B < ¥ ,故有:    (0) ( )a a- £ +mV V i N B   。                         (11) 由 性 质 1 可 知 最 优 折 扣 期 望 回 报 函 数 ( )aV i 为 状 态 i 的 非 增 函 数 , 故 由 式 (11) 可 得| (0) ( ) |mV V i N Ba a- £ + 。故而存在常数 ³ +mH N B ,使得 | V(0)a- V(i) | Ha£ ,即性质 2 得证。 根据性质 2、定理 1 和定理 2 可知,无限阶段平均期望报酬最优平稳策略存在,且其最优方程为: ( ) max( ( , ) r( ))* * *Î= - + åaija AjV i R i a p V j   。                           (12) 式中:V(i) 为值函数,aijp 为执行动作 a 时状态一步转移概率, r*为无限阶段最优平均期望报酬值,其相应的最优平稳策略p*为执行最大化式(12)右边项动作 a 的贪婪策略。求解等式(12)最优方程的传统方法主要有策略迭代、预雅可比迭代(Pre-Jacobi  Iteration)、高斯-赛德尔(Gauss-Seidel)迭代以及下松弛算法等,但这些算法在求解过程中通常都面临着“维数灾”,即随着问题规模变大,算法计算负担随着问题规模呈指数级增长而难以求解。此外,求解最优方程还需要预先知道最优方程中状态一步转移概率aijp ,这在实际生产中有时也较难获取,即所谓的“模型灾”难题,这也给模型求解提出了极大的挑战。虽然可以通过投入高昂费用用于对设备状态进行有效监测和分析,以获得设备状态一步转移概率aijp ,但这无形中也会额外增加企业的运行成本。由以上分析不难看出,试图通过基于值迭代或策略迭代的传统算法求解上述马尔可夫决策模型最优方程时,会经常遭遇“维数灾”和“模型灾”难题而变得难于应用。为此,本文利用文献[20]中平均报酬型强化学习算法对上述马尔可夫决策模型进行求解,本文称其为 G-learning 算法,这种无模型强化学习算法可有效克服求解过程中“维数灾”和“模型灾”难题。  7  2  算法设计 强化学习方法是一种基于函数逼近和仿真的异步随机动态规划算法,可用于求解大规模马尔可夫决策或半马尔可夫决策问题以获得最优解或次优解[21]。以 Q-learning 算法为代表用于求解折扣报酬型 MDP 问题算法近年来已被广泛研究,并被应用于很多领域且取得了良好效果[2223]。与折扣报酬型强化学习相比,平均报酬型强化学习算法具有更为复杂的结构特性,目前,无论是算法自身理论研究还是算法应用研究都有待于进一步深入探讨和完善[2024]2.1  G-learning 算法设计 G-learning 算法是由 Gosavi 基于 Bellman 方程提出的一种强化学习方法,G-learning 不仅可用于求解马尔可夫决策问题,对于半马尔可夫决策问题同样也是行之有效的。G-learning 算法学习过程主要包括最优平均报酬r和相对平均报酬V(i,a)两个部分的更新,其更新方程分别为: 11( , ) ( , ) ( ( , , ))[ ( , )k k kV i a V i a bm k i a R i a r+= + - max ( , ) ( , )] (( , ) )k k ka AV j a V i a I i a f¢Î+¢ - ´ = ;     (13) 12 2(1 ( )) ( )[ ( )k k kr bk r bk J k r+= - + +R(i,a)] J(k +1) 。                       (14) 式中:函数 m(×) 是决策时相应的状态-动作对已经被访问的次数,相对平均报酬值V(i,a)的学习率1b是关于 m(×) 的函数,最优平均报酬 r的学习率2b 大小取决于决策次数。J(k) k 步迭代时状态转移次数,fkk 步迭代时被访问的状态-动作对, I(×) 0-1 示性函数。式(14)可以用如下更为简洁的 Robbins-Monro 等式进行替代: 12 2r(1 b( ))r b( ) ( , )+= - +k kk k R i a  。                            (15) 基于上述更新方程(13)(15)设计 G-learning 算法,具体步骤如下: 步骤 1   令迭代次数 k = 0,并设定最大迭代次数maxk 。初始化所有状态-动作对的相对平均报酬值 ( , )kV i a 及最优平均报酬r。初始化学习率1b 、2b 以及e - 策略[19]的探索概率e ,并记当前状态为i。 步骤 2   基于迭代次数 k 和当前状态访问次数计算探索概率e 、学习率1b 和2b 。 步骤 3   以概率1-e 选择最大相对平均报酬值 ( , )kV i a 所对应的动作maxa ,以概率 e(| A| -1) 随机选择除maxa 外其他动作, | A| 为动作集中动作个数,并令被选择的动作记为 a 。 步骤 4   令状态 i 转移至状态 j,计算机器预防性维护费用函数 ( , )mc i a 、单位时间加工成本函数( , )pc i a 以及回报函数 ( , )or i a ,并按照式(6)计算立即报酬值 R(i, a) ,并按如下规则更新相对平均报酬函数V(i,a) 11 1( , ) (1- ) ( , ) [ ( , )k k kV i a bV i a bR i a r+¬ + - max ( , )]ka AV j a¢Î+¢。 步骤 5   若步骤 3 中选择的 a 不是动作maxa ,则不更新最优平均报酬r,即1r r+¬k k;否则对 8  最优平均报酬值r更新如下: 12 2(1 ) ( , )k kr b r bR i a+¬ - + * 。 步骤 6   k  大于等于最大迭代次数maxk ,终止迭代;否则,令 k= k+1,置当前状态为 j,并返回步骤 2。 上述算法步骤中变量1b1(0 £b £1) 2b2(0 £b £1) 分别为相对平均报酬值 V(i, a) 和最优平均报酬r的学习率参数,用于控制和调整V(i,a)和 r 值的学习速率。 2.2  Heuristic 算法设计 为了分析和评价 G-learning 算法的执行效果,本文基于无限阶段平均期望报酬式(7)设计一种启发式求解算法,其具体步骤如下: 步骤 1   令迭代步数 k=0,置系统当前状态为 i。 步骤 2   若状态 i 为系统最差状态 M,则执行预防性维护活动N+1a ,状态由 i 转移到 j,此时状态 j 为最好状态 0,计算平均报酬值,进入步骤 4,否则进入步骤 3。 步骤3   在状态i处计算所有动作a的立即报酬值 R(i,a),选择并执行具有最大立即报酬值 R(i,a)的动作maxa ,状态由 i 转移到 j,计算平均报酬值。 步骤 4   k= k+1  ,若 k  小于最大迭代次数,置当前状态为 j,并返回步骤 2;否则,终止迭代。 3  仿真实验 3.1  实验设计及分析 为了验证 G-learning 算法的有效性,实验以单机及其附属设备构成的生产系统为研究对象,该机器可加工 4 种不同类型工件。设备状态一般与设备性能密切相关的,如工件加工时间长短以及加工质量等,本实验假定加工过程中机器处于 6 种不同的设备状态。随着机器加工的进行,由于退化效应影响,机器状况将会越来越差,其在不同状态的转移服从任意的随机分布,机器状态转移规律如式(2)所示。生产费用主要由工件加工成本和预防性维护费用构成,每种类型工件加工成本取决于该工件加工时间、单位时间加工成本以及加工时机器状态,各类型工件加工时间nt 如表 1 所示,各类型工件在机器状态 i 时的单位时间加工成本 ( , )pc i a 如表 2 所示。机器预防性维护费用与机器所处状态 i 有关,各状态的机器预防性维护费用 ( , )mc i a 如表 3 所示。机器每加工完一个工件即会获得相应的回报奖励,不同类型工件完工时的回报值如表 4 所示,在实际生产中,工件完工回报值可以根据各类型工件价值、需要紧迫性及其加工难易程度等因素综合确定。 表 1  工件加工时间nt   工件(n)  1  2  3  4 nt   0.90  1.25  1.40  1.10  9   2  单位时间加工成本 ( , )pc i a  状态(i)  0  1  2  3  4  5 ( , )pc i a   0.10  0.25  0.35  0.60  1.10  2.00  3  机器预防性维护费用 ( , )mc i a  状态(i)  0  1  2  3  4  5 ( , )mc i a   0  0.85  1.15  1.30  1.50  2.10  4  工件完工回报值 ( , )or i a  工件(n)  1  2  3  4 ( , )or i a   1.35  2.15  2.60  2.30 分别采用本文所设计的 G-learningHeuristic 算法以及随机方法进行实验,并对 3 种方法所获得的平均期望报酬值进行比较。实验采取的随机方法是在任意机器状态 i 处,随机选择某种类型工件加工或执行预防性维护活动。G-learning 算法学习过程中e - 策略的探索概率e 会逐渐衰减,设计了指数衰减控制函数0ke =e j 用于控制探索概率e 的衰减速率,其中0e 为初始探索概率,k 为算法迭代次数,j 为衰减因子,后续我们还会对衰减因子j 以及初始探索概率0e 对算法性能影响进行相应的敏感性分析。实验基于 MATLAB7.0 语言分别对 G-learningHeuristic 算法及随机方法进行编程,设定 G-learning 算法的各参数为1b =0.3 2b =0.003 ,j =1.0004 0e =0.6 3 种方法均运行 15000个阶段,平均期望报酬值变化过程如图 1 所示。  迭代次数 图 1  平均期望报酬值变化过程 实验中 G-learning 算法运行 15 000 阶段耗时小于 1 s,从图 1 不难看出,G-learning 算法在经历前期阶段探索和学习过程之后,在第 5  000 次左右迭代时收敛到稳定的平均期望报酬值。图 1 也表明,与其他两种方法相比,G-learning 算法能够获得更好的平均期望报酬值,而 Heuristic 算法则要平均期望报酬值 

[返回]
上一篇:带有通气孔的数控渐进反向成形支撑自动生成
下一篇:复杂装备精密产品多项式混沌扩展稳健优化设计