欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
机械论文
当前位置:首页 > 机械论文
人机对抗中的博弈学习方法
来源:一起赢论文网     日期:2024-01-06     浏览数:129     【 字体:

 第4 卷第9 计算机学报Vo l . 4 5N o .92 0 2 2 年 9 月C H I N E S E J O U R N A LO FC O M P U T E R SS e p t . 2 0 2 2人机对抗中的博弈学习方法周雷尹奇跃黄凯奇( 中国科学院自动化研究所智能系统与工程研究中心北京1 0 0 1 9 0 )摘要近年来, 人机对抗智能技术作为人工智能领域的前沿方向取得了一系列突破性的进展, 如Al p h a G o 和D e e p S t a c k 分别在围棋和二人无限注德州扑克中击败了人类专业选手. 这些突破离不开博弈论和机器学习的深度结合. 本文通过梳理当前人机对抗智能技术领域的重要工作, 深人分析博弈论和机器学习在其中发挥的作用, 总结了面向人机对抗任务的博弈学习研究框架, 指出博弈论为人机对抗任务提供博弈模型和定义求解目标, 机器学习帮助形成稳定高效可扩展的求解算法. 具体地, 本文首先介绍了人机对抗中的博弈学习方法的内涵, 详细阐述了面向人机对抗任务的博弈学习研究框架, 包括博弈模型构建、解概念定义、博弈解计算三个基本步骤, 之后利用该框架分析了当前人机对抗智能技术领域的典型进展, 最后指出了人机对抗中的博弈学习未来发展可能面临的挑战.本文梳理总结的人机对抗中的博弈学习研究框架为人机对抗智能技术领域的发展提供了方法保障和技术途径, 同时也为通用人工智能的发展提供了新思路.关键词人工智能; 人机对抗; 博弈论; 机器学习; 博弈学习中图法分类号T P 1 8D Ol 号1 0 .  1 1 8 9 7 / S P .  J .  1 0 1 6 .  2 0 2 2 .  0 1 8 5 9Game - T h e o r e t i cL e a rn i n gi nHum an - C omp u t e rG am i n gZ H O UL e iY I NQ i Y u eH U A N GK a i Q i{ C e n t e r fo r  R e s e a r c h  o n  I n L e l l i g e n L  S y s L e m a n d  En g i n e e r i n g ,I n s L i L u L e  o f A u L o ma L i o n, C h i n e s e  A c a d e my o f S c i e n c e s, B e iji n g1 0 0 1 9 0 )A b s t r a c tR e c e n t  d e v e l o p m e n t  i n  t h e  f i e l d o f h u m a n c o m p u t e r  g am i n g ,o n e o f  t h e  f r o n t i e r s i na r t i f i c i a l  i n t e l l i g e n c e  ( A I )  ,h a s w i t n e s s e d  a  s e r i e s  o f  b r e a k t h r o u g h s,s u c h  a s A l p h a G o  a n dD e e p S t a c kb e a t  p r o f e s s i o n a l h u m a n  p l a y e r s  i n G o  a n d h e a d s u p  n 〇l i m i t T e x a s H o l d?e m , r e s p e c t i v e l y .S u c hs u c c e s s e s  d e m o n s t r a t e  s y n e r g i s t i c  i n t e r a c t i o n s  b e t w e e n  g a m e  t h e o r y a n d m a c h i n e  l e a r n i n g .G a m et h e o r y i s  a  t h e o r e t i c a l  f r a m e w o r k  t h a t  d e a l s w i t h s t r a t e g i c  i n t e r a c t i o n s  am o n g m u l t i p l e  r a t i o n a lp l a y e r s .C o m b i n e d w i t h m a c h i n e  l e a r n i ng ,i t  i s w e l l  s u i t e d f o r m o d e l i ng ,a n a l y z i ng ,a n d s o l v i ngd e c i s i o n m a k i ng  p r o b l e m s  i n h um a n c om pu t e r g am i ng  t a s k s  t h a t  o f t e n i n v o l v e  t w o  o r m o r e  d e c i s i o nm a k e r s .G am e  t h e o r y  b a s e d  l e a r n i ng m e t h o d s  t h u s  r e c e i v e  i n c r e a s i ng  a t t e n t i o n i n r e c e n t  y e a r s .B e s i d e s  t h e p o p u l a r m u l t i a g e n t  r e i n f o r c e m e n tl e a r n i n ga p p r o a c h e s,t h e r e a r e s o m e o t h e r g a m et h e o r y b a s e dl e a r n i n gm e t h o d s,i .  e ., g am e t h e o r e t i cl e a r n i n gm e t h o d s,t h a ta r ed e s i g n e dt oc o n v e r g e  t o  e q u i l i b r i a  a n d  c a n  b e  d a t e d  b a c k  t o  t h e  f a m o u s  f i c t i t i o u s  p l a y  p r o p o s e d  i n  1 9 5 1 .I n  t h i sp a p e r, w e  g i v e  a  s e l e c t i v e  o v e r v i ew o f  s u c h  g a m e t h e o r e t i c  l e a r n i n g m e t h o d s  i n h u m a n c o m p u t e rg am i n g .B y a n a l y z i n gk e y p r o g r e s s e si n t h e f i e l d  o f h u m a n c o m p u t e r g a m i n ga n d g a m e t h e o r y( i n c l u d i ng g am e t h e o r e t i c  l e a r n i ng ) , w e  o b t a i n  a  r e s e a r c h f r am e w o r k  f o r g a m e t h e o r e t i c  l e a r n i ngi n  h u m a n c o m pu t e r  g a m i ng .I n  t h i s  f r am e w o r k,t h e r o l e o f  g am e  t h e o r y a n d m a c h i n e l e a r n i nge a c h p l a y s  i s  i d e n t i f i e d :g am e  t h e o r y  p r o v i d e s m o d e l s  o f  s t r a t e g i c  i n t e r a c t i o n s  a n d  d e f i n e s  a s s o c i a t e dl e a r n i ng  o bje c t i v e s ( i .  e .  ,s o l u t i o nc o n c e p t s )w h i l e m a c h i n el e a r n i ngh e l p sg i v e r i s e t os t a b l e,收稿日期: 2 0 2 1 0 9 1 4; 在线发布日期: 2 0 2 2 0 3 2 2 . 本课题得到中国科学院战略性先导科技专项( A 类) ( X D A 2 7 0 1 0 1 0 3 ) 资助. 周雷, 博士, 助理研究员, 主要研究方向为演化博弈论、机器学习、博弈学习. E m a i l:  l e i . z h o u @ i a . a c . c n . 尹奇跃, 博士, 副研究员, 硕士生导师, 中国计算机学会( C C F ) 会员, 主要研究领域为机器学习、数据挖掘、博弈决策. 黄凯奇( 通信作者) , 博士, 研究员, 博士生导师, 主要研究领域为计算机视觉、模式识别、认知决策. E m a i l:  k q h u a n g @ n l p r .  i a .  a c .  c n .1 8 6 0 计算机学报 2 0 2 2 年e f f i c i e n t, a n d s c a l a b l e g a m e  s o l v i n g a l g o r i t h m s .I n  d e t a i l, w e  f i r s t  r e v i ew i m p o r t a n t  p r o g r e s s e s  i nt h e  f i e l do fh u m a n c o m p u t e rg am i n ga n dg a m et h e o r y .T h e n ,w ei n t r o d u c et h ed e f i n i t i o no fg am e t h e o r e t i c l e a r n i n gi nh u m a n c o m p u t e rg a m i n ga n dc o m p a r ei tw i t ht r a d i t i o n a lm a c h i n el e a r n i n gm e t h o d ss u c ha ss u p e r v i s e dl e a r n i n ga n ds i n g l e a g e n tr e i n f o r c e m e n tl e a r n i n g .A f t e rt h a t,w e e l a b o r a t e  o n  i t s  r e s e a r c h  f r a m e w o r k .I n t u i t i v e l y ,t h i s  r e s e a r c h  f r a m e w o r k  e q u i v a l e n t l yo r  a p p r o x i m a t e l y  t r a n s f o r m s  t h e  p r o b l e mo f  a c h i e v i ng  a  go o d p e r f o r m a n c e  i n  a c l a s s  o f  h u m a nc o mpu t e r g a m i ng  t a s k s  i n t ot h e p r o b l e m o f s o l v i nga c l a s so f g am e s .A s w e s u m m a r i z e,s u c ht r a n s f o r m a t i o nu s u a l l yt a k e st h r e eb a s i cs t e p s :g a m em o d e lf o r m u l a t i o n ,s o l u t i o nc o n c e p td e f i n i t i o n , a n d  g a m e  s o l u t i o n  c o m p u t a t i o n .E m p l o y i n g  t h i s  f r am e w o r k,w e  a l s o  a n a l y z e  a  r e c e n tg am e t h e o r e t i c  l e a r n i n g  a l g o r i t h m t h a t  c o m b i n e s f i c t i t i o u s p l a y a n d d e e p  r e i n f o r c e m e n t  l e a r n i n gc a l l e dn e u r a lf i c t i t i o u ss e l f p l a y ,a n da l s ot h r e em i l e s t o n e si nt h ef i e l do fh u m a n c o m p u t e rg am i n g ,i .  e ., A l p h a G o  Z e r o ,L i b r a t u s, a n d A l p h a S t a r . A t  t h e  e n d, w e p o i n t  o u t  p o s s i b l e p r o b l e m sa n d  c h a l l e ng e s  i n  t h e  f u t u r e  r e s e a r c h  o f g am e t h e o r e t i c  l e a r n i ng  i n h u m a n c o mpu t e r g am i ng ,  s u c ha s  t h e  d e f i n i t i o n  o f  l e a r n i ng  o bje c t i v e s i n g e n e r a l s um g am e s, t h e  i n t e r p r e t a b i l i t y o f  g am e t h e o r e t i cl e a r n i ng  a l go r i t h m s  b a s e d  o n  d e e p n e u r a l  n e t w o r k s,  t h e  d e s i gn  o f  d i v e r s e  e n v i r o n m e n t  s u i t a b l e  f o rg am e t h e o r e t i c  l e a r n i ng , a n d t h e  e f f i c i e n t  s o l v i ng o f  c o mp l e x  l a r g e s c a l e  g a m e s  t h a t m a y e x h i b i tn o n t r a n s i t i v e  g am e  b e h a v i o r s .W e  b e l i e v e  t h a t  t h e  r e s e a r c h  f r am ew o r k  o f  g a m e t h e o r e t i c  l e a r n i n gi n  h u m a n c om p u t e r  g am i n g  o f f e r s  g u i d a n c e  f o r  t h e  f u t u r e  d e v e l o p m e n t  o f  h u m a n c o m p u t e r  g am i n g ,a n d  i t  a l s o  p r o v i d e s  n e w p e r s p e c t i v e s  o n  t h e  d e v e l o p m e n t  o f  a r t i f i c i a l  g e n e r a l  i n t e l l i g e n c e .K e yw o r d sa r t i f i c i a li n t e l l i g e n c e;h u m a n c o m p u t e rg am i n g ;g a m et h e o r y ;m a c h i n el e a r n i n g ;g am e t h e o r e t i c  l e a r n i ngi 引言人机对抗智能技术研究计算机博弈中机器战胜人类的方法, 是当前人工智能研究领域的前沿方向,它以人机( 人类与机器) 和机机( 机器与机器) 对抗为主要形式研究不同博弈场景下, 机器智能战胜人类智能的基础理论与方法技术[1]. 人机对抗智能技术通过人、机、环境之间的博弈对抗和交互学习, 探索巨复杂、高动态、不确定的对抗环境下机器智能快速增长的机理和途径, 以期最终达到或者超越人类智能?.人机对抗智能技术的突破离不开机器学习的发展, 机器学习主要研究如何让机器通过与数据的交互实现能力的提升. 然而, 与传统的机器学习关注单智能体( s i ng l e a g e n t ) 与环境的交互不同, 人机对抗智能技术研究的场景往往包含两个或两个以上智能体, 也就是多智能体( m u l t i a g e n t ) 的情形, 这些智能体都拥有自己的优化目标, 比如最大化自身收益. 此时, 如果直接应用单智能体机器学习方法, 得到的智能体( 称为中心智能体)一般表现欠佳[4 5]. 这是因为传统机器学习方法假设数据的产生机制是平稳的( s t a t i o n a r y )[ 6 ]( 即数据均来自于同一个分布,简称为环境的平稳性) , 这一假设忽略了研究场景中的其他智能体, 而这些智能体也同时在进行学习, 因此其行为模式会随着时间发生变化, 从而破坏中心智能体所处环境的平稳性, 进而导致传统机器学习方法失去理论保证& 3 ]. 更为严峻的是, 随着人机对抗场景中智能体数量的增加, 环境非平稳的问题将会愈发凸显, 多个趋利的智能体在学习的过程中相互影响的情况将不可避免.为了处理环境非平稳的问题, 有学者考虑将博弈论引人机器学习方法中[7]. 这主要是因为博弈论本身就是为了研究多个利己个体之间的策略性交互( s t r a t e g i c  i n t e r a c t i o n s ) 而发展的数学理论. 博弈论诞生于 I 9 4 4 年 v o n N e u m a n n 和M o r g e n s t e r n合著白句T h e o r y o f G a m e s  a n dE c o n o m i c B e h a v i o r[8] ? 在完全理性的假设下, 博弈论给出了一系列解概念来预测博弈最终可能的结果. 博弈论早期的大部分工作关注不同博弈场景下解概念( s o l u t i o n  c o n c e p t s ) 的定义、精炼( r e fi n e m e n t ) 、存在性及其拥有的性质[ 9 ]. 随① 人机对抗智能技术门户网站. 网址: h t t p : / / t u r i n g a i .  i a .  a c .  c n /,爵輝: 人机对拣中繼灣学:爾*& J1 II着博弈论的发展, 部分研究者开始研究在? 歲全理性的倩形下, 个体是否可以通过迭代孛习的方式来达到这些解概念s 其中著名的工作包栝Br ow n 提出的虚IK l^li Qi c t it io ts  p l a y ,)Cl 0] ^ H annan fH Bl ackw e l l -ffl( n o r egr ei  l e a r n i n g j  r egre t m i n i mi za t i o n .or H s n n a n  C D n sfete u ey )[ 1 1 1 3 ] 等,近年来, 得益于机器算力的提升和深'度学习的兴起. 人机对抗智能技术领域取得了一系列突破, 如D e ep M i n d 团队开发的A l ph‘〇M首次击败了人类■模顶尖选手李世右, 阿尔伯塔大学团队开发的D枕pSta c k?在二人无限注德州扑克中击败了专'家铁人翁_ 等_Al ptoGo :中? _ 裱義機为二人零和完美信息扩展形式博弈, 并利用1 我对局蒙特卡洛树搜索以及探度禅经网络近似来对博弈进行求解# 在D e e p S t ac k 中, 二人德州扑克被建模为二人零和非完錢值息扩展形式博穽. , 求解方法结合了自我对鳥、萬事实遽憾最小化算法以及深度神■ 网络近似. 从这些例子可以看衝. 人机对抗智能技术领域的突破离不开博弈论和机器学习的探度结合.然而, 虽然人机对抗智能技术领域目前取得T一系列突破, 博弈论与机器学习交叉方向的研究却缺焉猜晰的研究框架. 基于此, 本文通过梳琿人机对揉智猶技术领域的麗蘩:工推, 介'绍了人机对養中的博:_攀5 #法他内涵总錯了W 向人机对秔任务的博弈擧习研究框架f 包括其组成婆素和基本步骤, 并利用该框架对人机对抗智能技术领域的典型进展进行了分析. .本文作者认为, 随着人机对抗智能技术领域实验场景和测试环境逐渐接近真实场景, 场景的复杂性和对抗性急剧增加. 结合现代机器学习方法和博弈论的博弈学习方法将会在未来人机对抗领域的发展中发挥越来越重要的作用.2 发展历史自图灵测试这一人机对抗模式在1 3 5 0 年被提出& 6] 以来. 博弈论和机器学习就在人工智能的发展中发挥着:越来越黨要的作用r并呈现出交叉融合的趋势. 本文梳理了人机对抗智能技术和博弈论铒域开创性的工作和里程碑事;件. 并将其发展历史分为两条路线,一条是博弈论绪合专家系统( 见图1 中绿色实线) . 另一条是博弈论结合学习方法( 见图1 中橙色虚钱) ,S h a n n o n 发表第篇利用计算机编程设计国际象棋走子程序的论文N e we l l,  S h aw 和S i mo n 使用a l ph a b et a 前枝算法设计W 际象棋走子程序L i uma n 建立随机博弈与多智能体强化学习之间的联系S amu e l 发表论文阐述4 : 学习跳棋程序的设计原理B e n s t e i n 完成并展示了第一个能完成整局的国际象棋程序圓 I B M 公; e p B l u e 击败国际Jf p Ka s pa r ovT c s a u r o利用强化学习和人工神经M 络训练出了自主提升的双陆棋程序T D -G a m mo n\A_S t a r击败星际争霸2 专业Al p h aGo Z e r o无需人类级选手, 达到经验从零自学, 3 天后宗师级段位以1 0 0 比0 击败Al p h aG oD e epM i n d 团队A l p h a G o击败人类囤棋顶级l选手李世石T . i b r a t u s 在一人无限注德P l u r i b u s 在六人无限注州扑克中击败人类专业德州扑克中击败人类级选手专、I k 级选手/1 9 4 4 1 9 5 01 9 5 11 9 5 31 9 5 61 9 5 71 9 5 8  1 9 5 9N I )  K C O N O M I IB I S H A V I O KN a s h 提出策v on  N e um a n n 和略均衡的概M or g e n s t em念( 即纳什合著T h e o r y o f均衡)G a m e s  a n dE c o n o m i cB e h a v i o r ,标志着博弈论的诞生1 9 9 21 9 9 41 9 9 71 9 9 8  2 0 0 02 0 0 8\\2 0 1 62 0 1 72 0 1 9Ha n n a n证明B aye s i a nr e g r e t: i 理( 即Ha n n a nc o n s i s t e n c y 概念)Ha r t 和Ma s C o l e l l 提出遗憾匹配算法Z i n k e v i c h等人提出反事实遗憾最小化算法B r own 提出虚拟对局(f i c t i t i ou s p l ay ) 算法ap p r o a c h a b i l i ty 定理F u d e n b e r g和L e v i n e合著T h e  T h e o r y o f  L e a r n i ngi n  G a me s博弈论+ 专家系统博弈论+ 学哥方法图1 入机#抗臀懂技求与撙虜% 的麗展w史2 . 1 路线一: 博弈论结合专家系统在衮展路缘一中, 为了取得较好的人机对拉表现, 研究者们:主賽是It 对'基于博露论的m i n - ma x 树搜索算法进行优化, 并错含专家经验来改进评估函数. 路线一的简襄发展历程如下:1 9 S ? 年s S ba mi Q n 翁參了第一簾荆顧编. 乘实现国际象棋走子裎序的论文[1 7], 论文中S h a n n o n 参者¥〇ii Ns uma n n班明前 tn i n ima x定靡设? 了腿m a x 搜索算法和揭面评估翼数, 对于局面评估函数的设计, 参考的爱如下定連; 在鼠标象祺中, 最终的绪局只可能是以下三种彎中的一种: C1 ) 不论白方如何奉子, 裏方有一种策略总能保证赢4力不1 8 6 2 计算机学报 2 0 2 2 年论黑方如何走子, 白方有一种策略总能保证赢;( 3 ) 黑白双方都有一种策略保证至少平局.1 9 5 6 年,S a m u e l 利用第一台商用计算机I BM7 0 1 编写了跳棋( c h e c k e r s ) 走子程序, 并在1 9 5 9 年发表论文总结了该程序的设计思想和原理[1 9]. 该跳棋走子程序使用了m i n m a x 搜索.1 9 5 7 年, B e r n s t e i n 带领的团队在IB M7 0 1 上完成了第一个能下完整局的国际象棋走子程序, 该程序使用了m i n m a x 搜索, 但每次最多向后搜索4 步,每步只能考虑7 个备选走法.1 9 5 8 年, N ew e l l 、S h a w和S i m o n 第一■ 次在国际象棋程序中使用a l ph a b e t a 剪枝搜索算法[2 °].A l p h a b e t a 剪枝算法是m i n m a x 搜索算法的改进,通过剪掉明显次优的子树分支, 该算法极大地降低了搜索空间. 该算法最初由M c Ca r t h y 在1 9 5 6 年提出.此后, 跳棋和国际象棋程序的优化大多围绕评估函数和搜索算法进行改进. 随着计算能力的增强,I B M 公司开发的国际象棋程序D e e p B l u e 在1 9 9 7年利用总结了大量人类经验的评估函数和强大的搜索能力击败国际象棋大师K a s p a r o v , — 时轰动. 该事件从此成为人机对抗智能技术发展历史上的标志性事件.2 . 2 路线二: 博弈论结合学习方法路线一中采用的方法很难称得上实现了机器的“ 学习” 能力, 在路线二中, 研究者们试图克服机器对专家数据的过度依赖, 希望能够打造自主学习的智能机器. 路线二的简要发展历程如下:最早在人机对抗研究中引人学习的是S a m u e l,他1 9 5 7 年完成的跳棋走子程序不仅使用了m i n m a x搜索, 同时也引人了两种“ 学习” 机制[1 9]: 死记硬背式学习( r o t e l e a r n i n g ) 和泛化式学习( l e a r n i n gb yg e n e r a l i z a t i o n ) . 前者通过存储之前下棋过程中计算得到的局面得分来减少不必要的搜索, 后者则根据下棋的不同结果来更新评估函数中不同参数的系数来得到一个更好的评估函数. 此外, 该论文也第一次提到了自我对局( s e l f p l a y ) . 此后, 这种通过学习来提升机器能力的思想就一直没能引起重视. 直到1 9 9 0 年前后, 才陆续出现了能够学习的棋类程序. 这其中比较知名的是1 9 9 4 年T e s a u r o 结合神经网络和强化学习训练出的双陆棋程序T D G am m 〇n[2 1].T D G am m 〇n 的成功引起了许多学者对学习算法的兴趣, 并促成了博弈论与机器学习的初步结合,其中著名的工作是L i t t m a n 在1 9 9 4 年正式建立了M a r k o v 博弈( 或随机博弈) 与多智能体强化学习之间的联系. 之后, M a r k o v 博弈便作为多智能体强化学习的理论框架, 启发了众多学者的研究. 同时, 在该论文中U t t m a n 也提出了第一个多智能体强化学习算法m i n i m a x Q [2 2]. M i n i m a x Q 是针对二人零和博弈的学习算法, 当博弈的双方都使用该算法时, 最终博弈双方的策略都会收敛到二人零和博弈的最优解极大极小策略上.值得指出的是, 除了人工智能领域, 博弈论领域的研究者们很早也开始了对学习方法的研究. 与人工智能领域学者的出发点不同, 他们关注的是在博弈模型给定的情形下, 如何设计迭代学习的规则能使个体的策略收敛到均衡. 此类方法之后被称为博弈学习( g a m e t h e o r e t i c  l e a r n i n g ) 方法. 博弈学习方法的思想最早可以追溯到1 9 5 1 年B r o w n 提出的虚拟对局( f i c t i t i o u s  p l a y )[1 °], 即采用迭代学习的方式来计算二人零和博弈的极大极小策略, 之后著名的博弈学习方法包括无悔学习( n o r e g r e t  l e a r n i n g )[1 1 1 3] 和复制动力学( r e p l i c a t o r  dy n am i c s )[2 3] ? 在 1 " 8年, 几乎与L i t t m a n 等人同一■ 时期, F u d e n b e r g 和L e v i n e 出版了著作T h e T h e o r y o f L e a r n i ng  i n G a m e s[2 4], 对之前博弈学习方法的研究进行了汇总、总结和扩展.博弈学习方法的研究为博弈论中的解概念( 主要是纳什均衡) 提供了非理性假设下的解释, 换言之, 非理性的个体在一定学习规则的指导下也能达到均衡.此后, 博弈论和机器学习领域的研究兴趣和研究内容开始交叉, 逐步形成了博弈论与机器学习结合的博弈学习方法[2 5  3 °]. 相关工作包括: ( 1 ) 利用强化学习方法计算博弈的解, 比如N a S h Q [3 1] 等;( 2 ) 利用博弈论中的学习方法进行游戏A I 的算法设计, 比如针对不完美信息博弈的反事实遗憾最小化算法( 属于无悔学习算法的一种) ; ( 3 ) 利用机器学习加强博弈论中学习方法的可扩展性, 比如虚拟自我对局( F i c t i t i o u s S e l f P l a y , F S P )[2 9]. 相比于传统解决单智能体与环境交互问题的机器学习方法, 与博弈论结合的学习方法有两个优势:一是充分考虑了多个智能体同时最大化收益时环境的非平稳问题, 学习的目标是任务的均衡解而不是让某个智能体的收益最大化; 二是在满足模型的假设时, 这些算法一般具有收敛的理论保证. 特别地, 面向人机对抗任务, 人机对抗中的博弈学习方法在此基础上添加了人机对抗任务建模, 为的是能更好地利用和拓展现有的博弈学习方法来处理复杂的人机对抗任务.,爵輝: 人机对拣中繼灣学:爾*& J1?近年来* 随看深食学习的兴起, 深度神经网络被广泛应甩于人机对抗任务, 形成了一系.列优秀的樓型和博羿攀习算法, 这也促迸T 人机对抗智能技术近期一系列的突破, 包括2 0 1 S 年A l p h a Go击败围祺9 段选芋李世石, 2〇1 7 年, L i to a t u sW3 和De^ p Sta c k^ 分别在二人无限注德州扑克: 中击败人类专业选手以及2 〇1 9 年A l p li a StW4 1] 在星标争霸2中击败人类II 级选手,3 人机对抗中的博弈学习方法内涵入机着抗:中的_難学謂方法是一种顶向人机对抗任务> 以博弈论为埋论基础、以机器攀习为主要技术手段、*通过智能体与环境、智能体身其他智能体的交互来获得具有良好性质( 比如适应牲、鲁:俸性等等? 博弈策略的学习方法是实现人机对?抗智能技术的核心《墨体地, v人机对抗中的傳_攀3 方:齒基于博弈论建模人机对抗住务和定义学眉目标^ 并利用机器学习方法来帮助援计裔缴, 稳健 > 可扩展的荸习箕法a:完威人机对搲任务,为了阐述博弈孛习方法与灣# 机器学习方法的区別与联系, 本文按照系统中信:息的流向以及债息产生的机制将已有的学3 框架划分为一元、二元以及三元( 或多元) 学习. 在一元学习中,智能体从数据中获取知识k并且这个过程R 渉及数据到智能体的单向信息流动, 监督学习、无监督学习以及深度学;习都属于一元学习( 见菌2 ( a? . 在二元学习中, 智能体通过与环境互动撙到数据. 进而获取知识, 与^ 元擧习不同的是此时数据的产生不仅取决于环境也取决于智能体, 即智能体决策的好坏影响它自身学万的效巣, 必鼕时智能体还畫荽对环境动力学进行建模, 单智能体强化学习属于二元学3 ( 见图2 ( b ) )、在三元学石中, 智能体通过与环境和其他替能体的交S 获轉数据, 此时智能体學习的效果^ 到环境和其他智能体的共同澎响, 必蘩吋智能体需要对环境动方# 和其他智能体进行A 樓( 见M 2 ( c > ) , 博* #习属于三元学( a) —元学习( b ) 二元学习。|^备一^= 赛厲3_学聲Iffi 餚学河的区爾与联辜4 人机对抗中的博弈学习研究框架通过对博弈论和人机对抗智能技术发展历程的梳遽, _翁合人机对抗中的鐵#寧3 方法悔_, 率文总结出了如图3 所示的人机对抗中的博弈学习研食獄架人机)t截: 中的傳# 学习研_截架以人机对抗任务为输人, f 先通过博弈模塑构寒获得博弈模型* 然后通过解概念定义得到博弈的可行解, 最后通过博弈解计算输出满足霈求的傳弈策略组合, 也就基学召任务的解? 直观来讲, 人机对抗中的博弈学习研究框架将一类人机对抗任务的解决近似或等价转换为对某一类搏弈问题的求解, 诙框架fe 含两个组成要素【博弈模型和博弈解> 和三个基本步骤(:博弈模型构建、解概念定义和博弈解计算: ) ?博弈模型 解概念 博弈解图3 人机对抗參擔看參习研究輕架接下来, 本文翁人机对抗中的傳弈擎习翁_

[返回]
上一篇:改进的机器学习算法,用于预测基态属性
下一篇:端到端松耦合视觉惯性里程计