人机对抗中的博弈学习方法 |
来源:一起赢论文网 日期:2024-01-06 浏览数:446 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第4 5 卷第9 期计算机学报Vo l . 4 5N o .92 0 2 2 年 9 月C H I N E S E J O U R N A LO FC O M P U T E R SS e p t . 2 0 2 2人机对抗中的博弈学习方法周雷尹奇跃黄凯奇( 中国科学院自动化研究所智能系统与工程研究中心北京1 0 0 1 9 0 )摘要近年来, 人机对抗智能技术作为人工智能领域的前沿方向取得了一系列突破性的进展, 如Al p h a G o 和D e e p S t a c k 分别在围棋和二人无限注德州扑克中击败了人类专业选手. 这些突破离不开博弈论和机器学习的深度结合. 本文通过梳理当前人机对抗智能技术领域的重要工作, 深人分析博弈论和机器学习在其中发挥的作用, 总结了面向人机对抗任务的博弈学习研究框架, 指出博弈论为人机对抗任务提供博弈模型和定义求解目标, 机器学习帮助形成稳定高效可扩展的求解算法. 具体地, 本文首先介绍了人机对抗中的博弈学习方法的内涵, 详细阐述了面向人机对抗任务的博弈学习研究框架, 包括博弈模型构建、解概念定义、博弈解计算三个基本步骤, 之后利用该框架分析了当前人机对抗智能技术领域的典型进展, 最后指出了人机对抗中的博弈学习未来发展可能面临的挑战.本文梳理总结的人机对抗中的博弈学习研究框架为人机对抗智能技术领域的发展提供了方法保障和技术途径, 同时也为通用人工智能的发展提供了新思路.关键词人工智能; 人机对抗; 博弈论; 机器学习; 博弈学习中图法分类号T P 1 8D Ol 号1 0 . 1 1 8 9 7 / S P . J . 1 0 1 6 . 2 0 2 2 . 0 1 8 5 9Game - T h e o r e t i cL e a rn i n gi nHum an - C omp u t e rG am i n gZ H O UL e iY I NQ i Y u eH U A N GK a i Q i{ C e n t e r fo r R e s e a r c h o n I n L e l l i g e n L S y s L e m a n d En g i n e e r i n g ,I n s L i L u L e o f A u L o ma L i o n, C h i n e s e A c a d e my o f S c i e n c e s, B e iji n g1 0 0 1 9 0 )A b s t r a c tR e c e n t d e v e l o p m e n t i n t h e f i e l d o f h u m a n c o m p u t e r g am i n g ,o n e o f t h e f r o n t i e r s i na r t i f i c i a l i n t e l l i g e n c e ( A I ) ,h a s w i t n e s s e d a s e r i e s o f b r e a k t h r o u g h s,s u c h a s A l p h a G o a n dD e e p S t a c kb e a t p r o f e s s i o n a l h u m a n p l a y e r s i n G o a n d h e a d s u p n 〇l i m i t T e x a s H o l d?e m , r e s p e c t i v e l y .S u c hs u c c e s s e s d e m o n s t r a t e s y n e r g i s t i c i n t e r a c t i o n s b e t w e e n g a m e t h e o r y a n d m a c h i n e l e a r n i n g .G a m et h e o r y i s a t h e o r e t i c a l f r a m e w o r k t h a t d e a l s w i t h s t r a t e g i c i n t e r a c t i o n s am o n g m u l t i p l e r a t i o n a lp l a y e r s .C o m b i n e d w i t h m a c h i n e l e a r n i ng ,i t i s w e l l s u i t e d f o r m o d e l i ng ,a n a l y z i ng ,a n d s o l v i ngd e c i s i o n m a k i ng p r o b l e m s i n h um a n c om pu t e r g am i ng t a s k s t h a t o f t e n i n v o l v e t w o o r m o r e d e c i s i o nm a k e r s .G am e t h e o r y b a s e d l e a r n i ng m e t h o d s t h u s r e c e i v e i n c r e a s i ng a t t e n t i o n i n r e c e n t y e a r s .B e s i d e s t h e p o p u l a r m u l t i a g e n t r e i n f o r c e m e n tl e a r n i n ga p p r o a c h e s,t h e r e a r e s o m e o t h e r g a m et h e o r y b a s e dl e a r n i n gm e t h o d s,i . e ., g am e t h e o r e t i cl e a r n i n gm e t h o d s,t h a ta r ed e s i g n e dt oc o n v e r g e t o e q u i l i b r i a a n d c a n b e d a t e d b a c k t o t h e f a m o u s f i c t i t i o u s p l a y p r o p o s e d i n 1 9 5 1 .I n t h i sp a p e r, w e g i v e a s e l e c t i v e o v e r v i ew o f s u c h g a m e t h e o r e t i c l e a r n i n g m e t h o d s i n h u m a n c o m p u t e rg am i n g .B y a n a l y z i n gk e y p r o g r e s s e si n t h e f i e l d o f h u m a n c o m p u t e r g a m i n ga n d g a m e t h e o r y( i n c l u d i ng g am e t h e o r e t i c l e a r n i ng ) , w e o b t a i n a r e s e a r c h f r am e w o r k f o r g a m e t h e o r e t i c l e a r n i ngi n h u m a n c o m pu t e r g a m i ng .I n t h i s f r am e w o r k,t h e r o l e o f g am e t h e o r y a n d m a c h i n e l e a r n i nge a c h p l a y s i s i d e n t i f i e d :g am e t h e o r y p r o v i d e s m o d e l s o f s t r a t e g i c i n t e r a c t i o n s a n d d e f i n e s a s s o c i a t e dl e a r n i ng o bje c t i v e s ( i . e . ,s o l u t i o nc o n c e p t s )w h i l e m a c h i n el e a r n i ngh e l p sg i v e r i s e t os t a b l e,收稿日期: 2 0 2 1 0 9 1 4; 在线发布日期: 2 0 2 2 0 3 2 2 . 本课题得到中国科学院战略性先导科技专项( A 类) ( X D A 2 7 0 1 0 1 0 3 ) 资助. 周雷, 博士, 助理研究员, 主要研究方向为演化博弈论、机器学习、博弈学习. E m a i l: l e i . z h o u @ i a . a c . c n . 尹奇跃, 博士, 副研究员, 硕士生导师, 中国计算机学会( C C F ) 会员, 主要研究领域为机器学习、数据挖掘、博弈决策. 黄凯奇( 通信作者) , 博士, 研究员, 博士生导师, 主要研究领域为计算机视觉、模式识别、认知决策. E m a i l: k q h u a n g @ n l p r . i a . a c . c n .1 8 6 0 计算机学报 2 0 2 2 年e f f i c i e n t, a n d s c a l a b l e g a m e s o l v i n g a l g o r i t h m s .I n d e t a i l, w e f i r s t r e v i ew i m p o r t a n t p r o g r e s s e s i nt h e f i e l do fh u m a n c o m p u t e rg am i n ga n dg a m et h e o r y .T h e n ,w ei n t r o d u c et h ed e f i n i t i o no fg am e t h e o r e t i c l e a r n i n gi nh u m a n c o m p u t e rg a m i n ga n dc o m p a r ei tw i t ht r a d i t i o n a lm a c h i n el e a r n i n gm e t h o d ss u c ha ss u p e r v i s e dl e a r n i n ga n ds i n g l e a g e n tr e i n f o r c e m e n tl e a r n i n g .A f t e rt h a t,w e e l a b o r a t e o n i t s r e s e a r c h f r a m e w o r k .I n t u i t i v e l y ,t h i s r e s e a r c h f r a m e w o r k e q u i v a l e n t l yo r a p p r o x i m a t e l y t r a n s f o r m s t h e p r o b l e mo f a c h i e v i ng a go o d p e r f o r m a n c e i n a c l a s s o f h u m a nc o mpu t e r g a m i ng t a s k s i n t ot h e p r o b l e m o f s o l v i nga c l a s so f g am e s .A s w e s u m m a r i z e,s u c ht r a n s f o r m a t i o nu s u a l l yt a k e st h r e eb a s i cs t e p s :g a m em o d e lf o r m u l a t i o n ,s o l u t i o nc o n c e p td e f i n i t i o n , a n d g a m e s o l u t i o n c o m p u t a t i o n .E m p l o y i n g t h i s f r am e w o r k,w e a l s o a n a l y z e a r e c e n tg am e t h e o r e t i c l e a r n i n g a l g o r i t h m t h a t c o m b i n e s f i c t i t i o u s p l a y a n d d e e p r e i n f o r c e m e n t l e a r n i n gc a l l e dn e u r a lf i c t i t i o u ss e l f p l a y ,a n da l s ot h r e em i l e s t o n e si nt h ef i e l do fh u m a n c o m p u t e rg am i n g ,i . e ., A l p h a G o Z e r o ,L i b r a t u s, a n d A l p h a S t a r . A t t h e e n d, w e p o i n t o u t p o s s i b l e p r o b l e m sa n d c h a l l e ng e s i n t h e f u t u r e r e s e a r c h o f g am e t h e o r e t i c l e a r n i ng i n h u m a n c o mpu t e r g am i ng , s u c ha s t h e d e f i n i t i o n o f l e a r n i ng o bje c t i v e s i n g e n e r a l s um g am e s, t h e i n t e r p r e t a b i l i t y o f g am e t h e o r e t i cl e a r n i ng a l go r i t h m s b a s e d o n d e e p n e u r a l n e t w o r k s, t h e d e s i gn o f d i v e r s e e n v i r o n m e n t s u i t a b l e f o rg am e t h e o r e t i c l e a r n i ng , a n d t h e e f f i c i e n t s o l v i ng o f c o mp l e x l a r g e s c a l e g a m e s t h a t m a y e x h i b i tn o n t r a n s i t i v e g am e b e h a v i o r s .W e b e l i e v e t h a t t h e r e s e a r c h f r am ew o r k o f g a m e t h e o r e t i c l e a r n i n gi n h u m a n c om p u t e r g am i n g o f f e r s g u i d a n c e f o r t h e f u t u r e d e v e l o p m e n t o f h u m a n c o m p u t e r g am i n g ,a n d i t a l s o p r o v i d e s n e w p e r s p e c t i v e s o n t h e d e v e l o p m e n t o f a r t i f i c i a l g e n e r a l i n t e l l i g e n c e .K e yw o r d sa r t i f i c i a li n t e l l i g e n c e;h u m a n c o m p u t e rg am i n g ;g a m et h e o r y ;m a c h i n el e a r n i n g ;g am e t h e o r e t i c l e a r n i ngi 引言人机对抗智能技术研究计算机博弈中机器战胜人类的方法, 是当前人工智能研究领域的前沿方向,它以人机( 人类与机器) 和机机( 机器与机器) 对抗为主要形式研究不同博弈场景下, 机器智能战胜人类智能的基础理论与方法技术[1]. 人机对抗智能技术通过人、机、环境之间的博弈对抗和交互学习, 探索巨复杂、高动态、不确定的对抗环境下机器智能快速增长的机理和途径, 以期最终达到或者超越人类智能?.人机对抗智能技术的突破离不开机器学习的发展, 机器学习主要研究如何让机器通过与数据的交互实现能力的提升. 然而, 与传统的机器学习关注单智能体( s i ng l e a g e n t ) 与环境的交互不同, 人机对抗智能技术研究的场景往往包含两个或两个以上智能体, 也就是多智能体( m u l t i a g e n t ) 的情形, 这些智能体都拥有自己的优化目标, 比如最大化自身收益. 此时, 如果直接应用单智能体机器学习方法, 得到的智能体( 称为中心智能体)一般表现欠佳[4 5]. 这是因为传统机器学习方法假设数据的产生机制是平稳的( s t a t i o n a r y )[ 6 ]( 即数据均来自于同一个分布,简称为环境的平稳性) , 这一假设忽略了研究场景中的其他智能体, 而这些智能体也同时在进行学习, 因此其行为模式会随着时间发生变化, 从而破坏中心智能体所处环境的平稳性, 进而导致传统机器学习方法失去理论保证& 3 ]. 更为严峻的是, 随着人机对抗场景中智能体数量的增加, 环境非平稳的问题将会愈发凸显, 多个趋利的智能体在学习的过程中相互影响的情况将不可避免.为了处理环境非平稳的问题, 有学者考虑将博弈论引人机器学习方法中[7]. 这主要是因为博弈论本身就是为了研究多个利己个体之间的策略性交互( s t r a t e g i c i n t e r a c t i o n s ) 而发展的数学理论. 博弈论诞生于 I 9 4 4 年 v o n N e u m a n n 和M o r g e n s t e r n合著白句T h e o r y o f G a m e s a n dE c o n o m i c B e h a v i o r[8] ? 在完全理性的假设下, 博弈论给出了一系列解概念来预测博弈最终可能的结果. 博弈论早期的大部分工作关注不同博弈场景下解概念( s o l u t i o n c o n c e p t s ) 的定义、精炼( r e fi n e m e n t ) 、存在性及其拥有的性质[ 9 ]. 随① 人机对抗智能技术门户网站. 网址: h t t p : / / t u r i n g a i . i a . a c . c n /,爵輝: 人机对拣中繼灣学:爾*& J1 II着博弈论的发展, 部分研究者开始研究在? 歲全理性的倩形下, 个体是否可以通过迭代孛习的方式来达到这些解概念s 其中著名的工作包栝Br ow n 提出的虚IK l^li Qi c t it io ts p l a y ,)Cl 0] ^ H annan fH Bl ackw e l l -ffl( n o r egr ei l e a r n i n g j r egre t m i n i mi za t i o n .or H s n n a n C D n sfete u ey )[ 1 1 1 3 ] 等,近年来, 得益于机器算力的提升和深'度学习的兴起. 人机对抗智能技术领域取得了一系列突破, 如D e ep M i n d 团队开发的A l ph‘〇M首次击败了人类■模顶尖选手李世右, 阿尔伯塔大学团队开发的D枕pSta c k?在二人无限注德州扑克中击败了专'家铁人翁_ 等_Al ptoGo :中? _ 裱義機为二人零和完美信息扩展形式博弈, 并利用1 我对局蒙特卡洛树搜索以及探度禅经网络近似来对博弈进行求解# 在D e e p S t ac k 中, 二人德州扑克被建模为二人零和非完錢值息扩展形式博穽. , 求解方法结合了自我对鳥、萬事实遽憾最小化算法以及深度神■ 网络近似. 从这些例子可以看衝. 人机对抗智能技术领域的突破离不开博弈论和机器学习的探度结合.然而, 虽然人机对抗智能技术领域目前取得T一系列突破, 博弈论与机器学习交叉方向的研究却缺焉猜晰的研究框架. 基于此, 本文通过梳琿人机对揉智猶技术领域的麗蘩:工推, 介'绍了人机对養中的博:_攀5 #法他内涵总錯了W 向人机对秔任务的博弈擧习研究框架f 包括其组成婆素和基本步骤, 并利用该框架对人机对抗智能技术领域的典型进展进行了分析. .本文作者认为, 随着人机对抗智能技术领域实验场景和测试环境逐渐接近真实场景, 场景的复杂性和对抗性急剧增加. 结合现代机器学习方法和博弈论的博弈学习方法将会在未来人机对抗领域的发展中发挥越来越重要的作用.2 发展历史自图灵测试这一人机对抗模式在1 3 5 0 年被提出& 6] 以来. 博弈论和机器学习就在人工智能的发展中发挥着:越来越黨要的作用r并呈现出交叉融合的趋势. 本文梳理了人机对抗智能技术和博弈论铒域开创性的工作和里程碑事;件. 并将其发展历史分为两条路线,一条是博弈论绪合专家系统( 见图1 中绿色实线) . 另一条是博弈论结合学习方法( 见图1 中橙色虚钱) ,S h a n n o n 发表第篇利用计算机编程设计国际象棋走子程序的论文N e we l l, S h aw 和S i mo n 使用a l ph a b et a 前枝算法设计W 际象棋走子程序L i uma n 建立随机博弈与多智能体强化学习之间的联系S amu e l 发表论文阐述4 : 学习跳棋程序的设计原理B e n s t e i n 完成并展示了第一个能完成整局的国际象棋程序圓 I B M 公; e p B l u e 击败国际Jf p Ka s pa r ovT c s a u r o利用强化学习和人工神经M 络训练出了自主提升的双陆棋程序T D -G a m mo n\A_S t a r击败星际争霸2 专业Al p h aGo Z e r o无需人类级选手, 达到经验从零自学, 3 天后宗师级段位以1 0 0 比0 击败Al p h aG oD e epM i n d 团队A l p h a G o击败人类囤棋顶级l选手李世石T . i b r a t u s 在一人无限注德P l u r i b u s 在六人无限注州扑克中击败人类专业德州扑克中击败人类级选手专、I k 级选手/1 9 4 4 1 9 5 01 9 5 11 9 5 31 9 5 61 9 5 71 9 5 8 1 9 5 9N I ) K C O N O M I IB I S H A V I O KN a s h 提出策v on N e um a n n 和略均衡的概M or g e n s t em念( 即纳什合著T h e o r y o f均衡)G a m e s a n dE c o n o m i cB e h a v i o r ,标志着博弈论的诞生1 9 9 21 9 9 41 9 9 71 9 9 8 2 0 0 02 0 0 8\\2 0 1 62 0 1 72 0 1 9Ha n n a n证明B aye s i a nr e g r e t: i 理( 即Ha n n a nc o n s i s t e n c y 概念)Ha r t 和Ma s C o l e l l 提出遗憾匹配算法Z i n k e v i c h等人提出反事实遗憾最小化算法B r own 提出虚拟对局(f i c t i t i ou s p l ay ) 算法ap p r o a c h a b i l i ty 定理F u d e n b e r g和L e v i n e合著T h e T h e o r y o f L e a r n i ngi n G a me s博弈论+ 专家系统博弈论+ 学哥方法图1 入机#抗臀懂技求与撙虜% 的麗展w史2 . 1 路线一: 博弈论结合专家系统在衮展路缘一中, 为了取得较好的人机对拉表现, 研究者们:主賽是It 对'基于博露论的m i n - ma x 树搜索算法进行优化, 并错含专家经验来改进评估函数. 路线一的简襄发展历程如下:1 9 S ? 年s S ba mi Q n 翁參了第一簾荆顧编. 乘实现国际象棋走子裎序的论文[1 7], 论文中S h a n n o n 参者¥〇ii Ns uma n n班明前 tn i n ima x定靡设? 了腿m a x 搜索算法和揭面评估翼数, 对于局面评估函数的设计, 参考的爱如下定連; 在鼠标象祺中, 最终的绪局只可能是以下三种彎中的一种: C1 ) 不论白方如何奉子, 裏方有一种策略总能保证赢4力不1 8 6 2 计算机学报 2 0 2 2 年论黑方如何走子, 白方有一种策略总能保证赢;( 3 ) 黑白双方都有一种策略保证至少平局.1 9 5 6 年,S a m u e l 利用第一台商用计算机I BM7 0 1 编写了跳棋( c h e c k e r s ) 走子程序, 并在1 9 5 9 年发表论文总结了该程序的设计思想和原理[1 9]. 该跳棋走子程序使用了m i n m a x 搜索.1 9 5 7 年, B e r n s t e i n 带领的团队在IB M7 0 1 上完成了第一个能下完整局的国际象棋走子程序, 该程序使用了m i n m a x 搜索, 但每次最多向后搜索4 步,每步只能考虑7 个备选走法.1 9 5 8 年, N ew e l l 、S h a w和S i m o n 第一■ 次在国际象棋程序中使用a l ph a b e t a 剪枝搜索算法[2 °].A l p h a b e t a 剪枝算法是m i n m a x 搜索算法的改进,通过剪掉明显次优的子树分支, 该算法极大地降低了搜索空间. 该算法最初由M c Ca r t h y 在1 9 5 6 年提出.此后, 跳棋和国际象棋程序的优化大多围绕评估函数和搜索算法进行改进. 随着计算能力的增强,I B M 公司开发的国际象棋程序D e e p B l u e 在1 9 9 7年利用总结了大量人类经验的评估函数和强大的搜索能力击败国际象棋大师K a s p a r o v , — 时轰动. 该事件从此成为人机对抗智能技术发展历史上的标志性事件.2 . 2 路线二: 博弈论结合学习方法路线一中采用的方法很难称得上实现了机器的“ 学习” 能力, 在路线二中, 研究者们试图克服机器对专家数据的过度依赖, 希望能够打造自主学习的智能机器. 路线二的简要发展历程如下:最早在人机对抗研究中引人学习的是S a m u e l,他1 9 5 7 年完成的跳棋走子程序不仅使用了m i n m a x搜索, 同时也引人了两种“ 学习” 机制[1 9]: 死记硬背式学习( r o t e l e a r n i n g ) 和泛化式学习( l e a r n i n gb yg e n e r a l i z a t i o n ) . 前者通过存储之前下棋过程中计算得到的局面得分来减少不必要的搜索, 后者则根据下棋的不同结果来更新评估函数中不同参数的系数来得到一个更好的评估函数. 此外, 该论文也第一次提到了自我对局( s e l f p l a y ) . 此后, 这种通过学习来提升机器能力的思想就一直没能引起重视. 直到1 9 9 0 年前后, 才陆续出现了能够学习的棋类程序. 这其中比较知名的是1 9 9 4 年T e s a u r o 结合神经网络和强化学习训练出的双陆棋程序T D G am m 〇n[2 1].T D G am m 〇n 的成功引起了许多学者对学习算法的兴趣, 并促成了博弈论与机器学习的初步结合,其中著名的工作是L i t t m a n 在1 9 9 4 年正式建立了M a r k o v 博弈( 或随机博弈) 与多智能体强化学习之间的联系. 之后, M a r k o v 博弈便作为多智能体强化学习的理论框架, 启发了众多学者的研究. 同时, 在该论文中U t t m a n 也提出了第一个多智能体强化学习算法m i n i m a x Q [2 2]. M i n i m a x Q 是针对二人零和博弈的学习算法, 当博弈的双方都使用该算法时, 最终博弈双方的策略都会收敛到二人零和博弈的最优解极大极小策略上.值得指出的是, 除了人工智能领域, 博弈论领域的研究者们很早也开始了对学习方法的研究. 与人工智能领域学者的出发点不同, 他们关注的是在博弈模型给定的情形下, 如何设计迭代学习的规则能使个体的策略收敛到均衡. 此类方法之后被称为博弈学习( g a m e t h e o r e t i c l e a r n i n g ) 方法. 博弈学习方法的思想最早可以追溯到1 9 5 1 年B r o w n 提出的虚拟对局( f i c t i t i o u s p l a y )[1 °], 即采用迭代学习的方式来计算二人零和博弈的极大极小策略, 之后著名的博弈学习方法包括无悔学习( n o r e g r e t l e a r n i n g )[1 1 1 3] 和复制动力学( r e p l i c a t o r dy n am i c s )[2 3] ? 在 1 " 8年, 几乎与L i t t m a n 等人同一■ 时期, F u d e n b e r g 和L e v i n e 出版了著作T h e T h e o r y o f L e a r n i ng i n G a m e s[2 4], 对之前博弈学习方法的研究进行了汇总、总结和扩展.博弈学习方法的研究为博弈论中的解概念( 主要是纳什均衡) 提供了非理性假设下的解释, 换言之, 非理性的个体在一定学习规则的指导下也能达到均衡.此后, 博弈论和机器学习领域的研究兴趣和研究内容开始交叉, 逐步形成了博弈论与机器学习结合的博弈学习方法[2 5 3 °]. 相关工作包括: ( 1 ) 利用强化学习方法计算博弈的解, 比如N a S h Q [3 1] 等;( 2 ) 利用博弈论中的学习方法进行游戏A I 的算法设计, 比如针对不完美信息博弈的反事实遗憾最小化算法( 属于无悔学习算法的一种) ; ( 3 ) 利用机器学习加强博弈论中学习方法的可扩展性, 比如虚拟自我对局( F i c t i t i o u s S e l f P l a y , F S P )[2 9]. 相比于传统解决单智能体与环境交互问题的机器学习方法, 与博弈论结合的学习方法有两个优势:一是充分考虑了多个智能体同时最大化收益时环境的非平稳问题, 学习的目标是任务的均衡解而不是让某个智能体的收益最大化; 二是在满足模型的假设时, 这些算法一般具有收敛的理论保证. 特别地, 面向人机对抗任务, 人机对抗中的博弈学习方法在此基础上添加了人机对抗任务建模, 为的是能更好地利用和拓展现有的博弈学习方法来处理复杂的人机对抗任务.,爵輝: 人机对拣中繼灣学:爾*& J1?近年来* 随看深食学习的兴起, 深度神经网络被广泛应甩于人机对抗任务, 形成了一系.列优秀的樓型和博羿攀习算法, 这也促迸T 人机对抗智能技术近期一系列的突破, 包括2 0 1 S 年A l p h a Go击败围祺9 段选芋李世石, 2〇1 7 年, L i to a t u sW3 和De^ p Sta c k^ 分别在二人无限注德州扑克: 中击败人类专业选手以及2 〇1 9 年A l p li a StW4 1] 在星标争霸2中击败人类II 级选手,3 人机对抗中的博弈学习方法内涵入机着抗:中的_難学謂方法是一种顶向人机对抗任务> 以博弈论为埋论基础、以机器攀习为主要技术手段、*通过智能体与环境、智能体身其他智能体的交互来获得具有良好性质( 比如适应牲、鲁:俸性等等? 博弈策略的学习方法是实现人机对?抗智能技术的核心《墨体地, v人机对抗中的傳_攀3 方:齒基于博弈论建模人机对抗住务和定义学眉目标^ 并利用机器学习方法来帮助援计裔缴, 稳健 > 可扩展的荸习箕法a:完威人机对搲任务,为了阐述博弈孛习方法与灣# 机器学习方法的区別与联系, 本文按照系统中信:息的流向以及债息产生的机制将已有的学3 框架划分为一元、二元以及三元( 或多元) 学习. 在一元学习中,智能体从数据中获取知识k并且这个过程R 渉及数据到智能体的单向信息流动, 监督学习、无监督学习以及深度学;习都属于一元学习( 见菌2 ( a? . 在二元学习中, 智能体通过与环境互动撙到数据. 进而获取知识, 与^ 元擧习不同的是此时数据的产生不仅取决于环境也取决于智能体, 即智能体决策的好坏影响它自身学万的效巣, 必鼕时智能体还畫荽对环境动力学进行建模, 单智能体强化学习属于二元学3 ( 见图2 ( b ) )、在三元学石中, 智能体通过与环境和其他替能体的交S 获轉数据, 此时智能体學习的效果^ 到环境和其他智能体的共同澎响, 必蘩吋智能体需要对环境动方# 和其他智能体进行A 樓( 见M 2 ( c > ) , 博* #习属于三元学( a) —元学习( b ) 二元学习。|^备一^= 赛厲3_学聲Iffi 餚学河的区爾与联辜4 人机对抗中的博弈学习研究框架通过对博弈论和人机对抗智能技术发展历程的梳遽, _翁合人机对抗中的鐵#寧3 方法悔_, 率文总结出了如图3 所示的人机对抗中的博弈学习研食獄架人机)t截: 中的傳# 学习研_截架以人机对抗任务为输人, f 先通过博弈模塑构寒获得博弈模型* 然后通过解概念定义得到博弈的可行解, 最后通过博弈解计算输出满足霈求的傳弈策略组合, 也就基学召任务的解? 直观来讲, 人机对抗中的博弈学习研究框架将一类人机对抗任务的解决近似或等价转换为对某一类搏弈问题的求解, 诙框架fe 含两个组成要素【博弈模型和博弈解> 和三个基本步骤(:博弈模型构建、解概念定义和博弈解计算: ) ?博弈模型 解概念 博弈解图3 人机对抗參擔看參习研究輕架接下来, 本文翁人机对抗中的傳弈擎习翁_ |
[返回] |