人机对抗中的博弈学习方法 - 机械论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

工作时间：9:00-24:00

成功案例

机械论文

当前位置：首页 > 机械论文

人机对抗中的博弈学习方法

来源：一起赢论文网日期：2024-01-06 浏览数：129 【字体：大中小】

第４５卷第９期计算机学报Ｖｏｌ． ４５Ｎｏ．９２０２２ 年 ９ 月ＣＨＩＮＥＳＥ ＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳＳｅｐｔ． ２０２２人机对抗中的博弈学习方法周雷尹奇跃黄凯奇（中国科学院自动化研究所智能系统与工程研究中心北京１００１９０）摘要近年来，人机对抗智能技术作为人工智能领域的前沿方向取得了一系列突破性的进展，如ＡｌｐｈａＧｏ和ＤｅｅｐＳｔａｃｋ分别在围棋和二人无限注德州扑克中击败了人类专业选手．这些突破离不开博弈论和机器学习的深度结合．本文通过梳理当前人机对抗智能技术领域的重要工作，深人分析博弈论和机器学习在其中发挥的作用，总结了面向人机对抗任务的博弈学习研究框架，指出博弈论为人机对抗任务提供博弈模型和定义求解目标，机器学习帮助形成稳定高效可扩展的求解算法．具体地，本文首先介绍了人机对抗中的博弈学习方法的内涵，详细阐述了面向人机对抗任务的博弈学习研究框架，包括博弈模型构建、解概念定义、博弈解计算三个基本步骤，之后利用该框架分析了当前人机对抗智能技术领域的典型进展，最后指出了人机对抗中的博弈学习未来发展可能面临的挑战．本文梳理总结的人机对抗中的博弈学习研究框架为人机对抗智能技术领域的发展提供了方法保障和技术途径，同时也为通用人工智能的发展提供了新思路．关键词人工智能；人机对抗；博弈论；机器学习；博弈学习中图法分类号ＴＰ１８ＤＯｌ 号１０．  １１８９７／ＳＰ．  Ｊ．  １０１６．  ２０２２．  ０１８５９Ｇａｍｅ－ＴｈｅｏｒｅｔｉｃＬｅａｒｎｉｎｇｉｎＨｕｍａｎ－ＣｏｍｐｕｔｅｒＧａｍｉｎｇＺＨＯＵＬｅｉＹＩＮＱｉＹｕｅＨＵＡＮＧＫａｉＱｉ｛Ｃｅｎｔｅｒ ｆｏｒ  Ｒｅｓｅａｒｃｈ  ｏｎ  ＩｎＬｅｌｌｉｇｅｎＬ  ＳｙｓＬｅｍ ａｎｄ  Ｅｎｇｉｎｅｅｒｉｎｇ，ＩｎｓＬｉＬｕＬｅ  ｏｆ ＡｕＬｏｍａＬｉｏｎ，Ｃｈｉｎｅｓｅ  Ａｃａｄｅｍｙ ｏｆ Ｓｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１００１９０）ＡｂｓｔｒａｃｔＲｅｃｅｎｔ  ｄｅｖｅｌｏｐｍｅｎｔ  ｉｎ  ｔｈｅ  ｆｉｅｌｄ ｏｆ ｈｕｍａｎｃｏｍｐｕｔｅｒ  ｇａｍｉｎｇ，ｏｎｅ ｏｆ  ｔｈｅ  ｆｒｏｎｔｉｅｒｓ ｉｎａｒｔｉｆｉｃｉａｌ  ｉｎｔｅｌｌｉｇｅｎｃｅ  （ＡＩ）  ，ｈａｓ ｗｉｔｎｅｓｓｅｄ  ａ  ｓｅｒｉｅｓ  ｏｆ  ｂｒｅａｋｔｈｒｏｕｇｈｓ，ｓｕｃｈ  ａｓ ＡｌｐｈａＧｏ  ａｎｄＤｅｅｐＳｔａｃｋｂｅａｔ  ｐｒｏｆｅｓｓｉｏｎａｌ ｈｕｍａｎ  ｐｌａｙｅｒｓ  ｉｎ Ｇｏ  ａｎｄ ｈｅａｄｓｕｐ  ｎ〇ｌｉｍｉｔ Ｔｅｘａｓ Ｈｏｌｄ？ｅｍ， ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｓｕｃｈｓｕｃｃｅｓｓｅｓ  ｄｅｍｏｎｓｔｒａｔｅ  ｓｙｎｅｒｇｉｓｔｉｃ  ｉｎｔｅｒａｃｔｉｏｎｓ  ｂｅｔｗｅｅｎ  ｇａｍｅ  ｔｈｅｏｒｙ ａｎｄ ｍａｃｈｉｎｅ  ｌｅａｒｎｉｎｇ．Ｇａｍｅｔｈｅｏｒｙ ｉｓ  ａ  ｔｈｅｏｒｅｔｉｃａｌ  ｆｒａｍｅｗｏｒｋ  ｔｈａｔ  ｄｅａｌｓ ｗｉｔｈ ｓｔｒａｔｅｇｉｃ  ｉｎｔｅｒａｃｔｉｏｎｓ  ａｍｏｎｇ ｍｕｌｔｉｐｌｅ  ｒａｔｉｏｎａｌｐｌａｙｅｒｓ．Ｃｏｍｂｉｎｅｄ ｗｉｔｈ ｍａｃｈｉｎｅ  ｌｅａｒｎｉｎｇ，ｉｔ  ｉｓ ｗｅｌｌ  ｓｕｉｔｅｄ ｆｏｒ ｍｏｄｅｌｉｎｇ，ａｎａｌｙｚｉｎｇ，ａｎｄ ｓｏｌｖｉｎｇｄｅｃｉｓｉｏｎｍａｋｉｎｇ  ｐｒｏｂｌｅｍｓ  ｉｎ ｈｕｍａｎｃｏｍｐｕｔｅｒ ｇａｍｉｎｇ  ｔａｓｋｓ  ｔｈａｔ  ｏｆｔｅｎ ｉｎｖｏｌｖｅ  ｔｗｏ  ｏｒ ｍｏｒｅ  ｄｅｃｉｓｉｏｎｍａｋｅｒｓ．Ｇａｍｅ  ｔｈｅｏｒｙ  ｂａｓｅｄ  ｌｅａｒｎｉｎｇ ｍｅｔｈｏｄｓ  ｔｈｕｓ  ｒｅｃｅｉｖｅ  ｉｎｃｒｅａｓｉｎｇ  ａｔｔｅｎｔｉｏｎ ｉｎ ｒｅｃｅｎｔ  ｙｅａｒｓ．Ｂｅｓｉｄｅｓ  ｔｈｅ ｐｏｐｕｌａｒ ｍｕｌｔｉａｇｅｎｔ  ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｅｓ，ｔｈｅｒｅ ａｒｅ ｓｏｍｅ ｏｔｈｅｒ ｇａｍｅｔｈｅｏｒｙ ｂａｓｅｄｌｅａｒｎｉｎｇｍｅｔｈｏｄｓ，ｉ．  ｅ．，ｇａｍｅｔｈｅｏｒｅｔｉｃｌｅａｒｎｉｎｇｍｅｔｈｏｄｓ，ｔｈａｔａｒｅｄｅｓｉｇｎｅｄｔｏｃｏｎｖｅｒｇｅ  ｔｏ  ｅｑｕｉｌｉｂｒｉａ  ａｎｄ  ｃａｎ  ｂｅ  ｄａｔｅｄ  ｂａｃｋ  ｔｏ  ｔｈｅ  ｆａｍｏｕｓ  ｆｉｃｔｉｔｉｏｕｓ  ｐｌａｙ  ｐｒｏｐｏｓｅｄ  ｉｎ  １９５１．Ｉｎ  ｔｈｉｓｐａｐｅｒ， ｗｅ  ｇｉｖｅ  ａ  ｓｅｌｅｃｔｉｖｅ  ｏｖｅｒｖｉｅｗ ｏｆ  ｓｕｃｈ  ｇａｍｅｔｈｅｏｒｅｔｉｃ  ｌｅａｒｎｉｎｇ ｍｅｔｈｏｄｓ  ｉｎ ｈｕｍａｎｃｏｍｐｕｔｅｒｇａｍｉｎｇ．Ｂｙ ａｎａｌｙｚｉｎｇｋｅｙ ｐｒｏｇｒｅｓｓｅｓｉｎ ｔｈｅ ｆｉｅｌｄ  ｏｆ ｈｕｍａｎｃｏｍｐｕｔｅｒ ｇａｍｉｎｇａｎｄ ｇａｍｅ ｔｈｅｏｒｙ（ｉｎｃｌｕｄｉｎｇ ｇａｍｅｔｈｅｏｒｅｔｉｃ  ｌｅａｒｎｉｎｇ）， ｗｅ  ｏｂｔａｉｎ  ａ  ｒｅｓｅａｒｃｈ ｆｒａｍｅｗｏｒｋ  ｆｏｒ ｇａｍｅｔｈｅｏｒｅｔｉｃ  ｌｅａｒｎｉｎｇｉｎ  ｈｕｍａｎｃｏｍｐｕｔｅｒ  ｇａｍｉｎｇ．Ｉｎ  ｔｈｉｓ  ｆｒａｍｅｗｏｒｋ，ｔｈｅ ｒｏｌｅ ｏｆ  ｇａｍｅ  ｔｈｅｏｒｙ ａｎｄ ｍａｃｈｉｎｅ ｌｅａｒｎｉｎｇｅａｃｈ ｐｌａｙｓ  ｉｓ  ｉｄｅｎｔｉｆｉｅｄ：ｇａｍｅ  ｔｈｅｏｒｙ  ｐｒｏｖｉｄｅｓ ｍｏｄｅｌｓ  ｏｆ  ｓｔｒａｔｅｇｉｃ  ｉｎｔｅｒａｃｔｉｏｎｓ  ａｎｄ  ｄｅｆｉｎｅｓ  ａｓｓｏｃｉａｔｅｄｌｅａｒｎｉｎｇ  ｏｂｊｅｃｔｉｖｅｓ （ｉ．  ｅ．  ，ｓｏｌｕｔｉｏｎｃｏｎｃｅｐｔｓ）ｗｈｉｌｅ ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｈｅｌｐｓｇｉｖｅ ｒｉｓｅ ｔｏｓｔａｂｌｅ，收稿日期：２０２１０９１４；在线发布日期：２０２２０３２２．本课题得到中国科学院战略性先导科技专项（Ａ类）（ＸＤＡ２７０１０１０３）资助．周雷，博士，助理研究员，主要研究方向为演化博弈论、机器学习、博弈学习．Ｅｍａｉｌ：  ｌｅｉ．ｚｈｏｕ＠ｉａ．ａｃ．ｃｎ．尹奇跃，博士，副研究员，硕士生导师，中国计算机学会（ＣＣＦ）会员，主要研究领域为机器学习、数据挖掘、博弈决策．黄凯奇（通信作者），博士，研究员，博士生导师，主要研究领域为计算机视觉、模式识别、认知决策．Ｅｍａｉｌ：  ｋｑｈｕａｎｇ＠ｎｌｐｒ．  ｉａ．  ａｃ．  ｃｎ．１８６０ 计算机学报 ２０２２ 年ｅｆｆｉｃｉｅｎｔ， ａｎｄ ｓｃａｌａｂｌｅ ｇａｍｅ  ｓｏｌｖｉｎｇ ａｌｇｏｒｉｔｈｍｓ．Ｉｎ  ｄｅｔａｉｌ， ｗｅ  ｆｉｒｓｔ  ｒｅｖｉｅｗ ｉｍｐｏｒｔａｎｔ  ｐｒｏｇｒｅｓｓｅｓ  ｉｎｔｈｅ  ｆｉｅｌｄｏｆｈｕｍａｎｃｏｍｐｕｔｅｒｇａｍｉｎｇａｎｄｇａｍｅｔｈｅｏｒｙ．Ｔｈｅｎ，ｗｅｉｎｔｒｏｄｕｃｅｔｈｅｄｅｆｉｎｉｔｉｏｎｏｆｇａｍｅｔｈｅｏｒｅｔｉｃ ｌｅａｒｎｉｎｇｉｎｈｕｍａｎｃｏｍｐｕｔｅｒｇａｍｉｎｇａｎｄｃｏｍｐａｒｅｉｔｗｉｔｈｔｒａｄｉｔｉｏｎａｌｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｅｔｈｏｄｓｓｕｃｈａｓｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇａｎｄｓｉｎｇｌｅａｇｅｎｔｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ．Ａｆｔｅｒｔｈａｔ，ｗｅ ｅｌａｂｏｒａｔｅ  ｏｎ  ｉｔｓ  ｒｅｓｅａｒｃｈ  ｆｒａｍｅｗｏｒｋ．Ｉｎｔｕｉｔｉｖｅｌｙ，ｔｈｉｓ  ｒｅｓｅａｒｃｈ  ｆｒａｍｅｗｏｒｋ  ｅｑｕｉｖａｌｅｎｔｌｙｏｒ  ａｐｐｒｏｘｉｍａｔｅｌｙ  ｔｒａｎｓｆｏｒｍｓ  ｔｈｅ  ｐｒｏｂｌｅｍｏｆ  ａｃｈｉｅｖｉｎｇ  ａ  ｇｏｏｄ ｐｅｒｆｏｒｍａｎｃｅ  ｉｎ  ａ ｃｌａｓｓ  ｏｆ  ｈｕｍａｎｃｏｍｐｕｔｅｒ ｇａｍｉｎｇ  ｔａｓｋｓ  ｉｎｔｏｔｈｅ ｐｒｏｂｌｅｍ ｏｆ ｓｏｌｖｉｎｇａ ｃｌａｓｓｏｆ ｇａｍｅｓ．Ａｓ ｗｅ ｓｕｍｍａｒｉｚｅ，ｓｕｃｈｔｒａｎｓｆｏｒｍａｔｉｏｎｕｓｕａｌｌｙｔａｋｅｓｔｈｒｅｅｂａｓｉｃｓｔｅｐｓ：ｇａｍｅｍｏｄｅｌｆｏｒｍｕｌａｔｉｏｎ，ｓｏｌｕｔｉｏｎｃｏｎｃｅｐｔｄｅｆｉｎｉｔｉｏｎ， ａｎｄ  ｇａｍｅ  ｓｏｌｕｔｉｏｎ  ｃｏｍｐｕｔａｔｉｏｎ．Ｅｍｐｌｏｙｉｎｇ  ｔｈｉｓ  ｆｒａｍｅｗｏｒｋ，ｗｅ  ａｌｓｏ  ａｎａｌｙｚｅ  ａ  ｒｅｃｅｎｔｇａｍｅｔｈｅｏｒｅｔｉｃ  ｌｅａｒｎｉｎｇ  ａｌｇｏｒｉｔｈｍ ｔｈａｔ  ｃｏｍｂｉｎｅｓ ｆｉｃｔｉｔｉｏｕｓ ｐｌａｙ ａｎｄ ｄｅｅｐ  ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎｇｃａｌｌｅｄｎｅｕｒａｌｆｉｃｔｉｔｉｏｕｓｓｅｌｆｐｌａｙ，ａｎｄａｌｓｏｔｈｒｅｅｍｉｌｅｓｔｏｎｅｓｉｎｔｈｅｆｉｅｌｄｏｆｈｕｍａｎｃｏｍｐｕｔｅｒｇａｍｉｎｇ，ｉ．  ｅ．， ＡｌｐｈａＧｏ  Ｚｅｒｏ，Ｌｉｂｒａｔｕｓ， ａｎｄ ＡｌｐｈａＳｔａｒ． Ａｔ  ｔｈｅ  ｅｎｄ， ｗｅ ｐｏｉｎｔ  ｏｕｔ  ｐｏｓｓｉｂｌｅ ｐｒｏｂｌｅｍｓａｎｄ  ｃｈａｌｌｅｎｇｅｓ  ｉｎ  ｔｈｅ  ｆｕｔｕｒｅ  ｒｅｓｅａｒｃｈ  ｏｆ ｇａｍｅｔｈｅｏｒｅｔｉｃ  ｌｅａｒｎｉｎｇ  ｉｎ ｈｕｍａｎｃｏｍｐｕｔｅｒ ｇａｍｉｎｇ，  ｓｕｃｈａｓ  ｔｈｅ  ｄｅｆｉｎｉｔｉｏｎ  ｏｆ  ｌｅａｒｎｉｎｇ  ｏｂｊｅｃｔｉｖｅｓ ｉｎ ｇｅｎｅｒａｌｓｕｍ ｇａｍｅｓ， ｔｈｅ  ｉｎｔｅｒｐｒｅｔａｂｉｌｉｔｙ ｏｆ  ｇａｍｅｔｈｅｏｒｅｔｉｃｌｅａｒｎｉｎｇ  ａｌｇｏｒｉｔｈｍｓ  ｂａｓｅｄ  ｏｎ  ｄｅｅｐ ｎｅｕｒａｌ  ｎｅｔｗｏｒｋｓ，  ｔｈｅ  ｄｅｓｉｇｎ  ｏｆ  ｄｉｖｅｒｓｅ  ｅｎｖｉｒｏｎｍｅｎｔ  ｓｕｉｔａｂｌｅ  ｆｏｒｇａｍｅｔｈｅｏｒｅｔｉｃ  ｌｅａｒｎｉｎｇ， ａｎｄ ｔｈｅ  ｅｆｆｉｃｉｅｎｔ  ｓｏｌｖｉｎｇ ｏｆ  ｃｏｍｐｌｅｘ  ｌａｒｇｅｓｃａｌｅ  ｇａｍｅｓ  ｔｈａｔ ｍａｙ ｅｘｈｉｂｉｔｎｏｎｔｒａｎｓｉｔｉｖｅ  ｇａｍｅ  ｂｅｈａｖｉｏｒｓ．Ｗｅ  ｂｅｌｉｅｖｅ  ｔｈａｔ  ｔｈｅ  ｒｅｓｅａｒｃｈ  ｆｒａｍｅｗｏｒｋ  ｏｆ  ｇａｍｅｔｈｅｏｒｅｔｉｃ  ｌｅａｒｎｉｎｇｉｎ  ｈｕｍａｎｃｏｍｐｕｔｅｒ  ｇａｍｉｎｇ  ｏｆｆｅｒｓ  ｇｕｉｄａｎｃｅ  ｆｏｒ  ｔｈｅ  ｆｕｔｕｒｅ  ｄｅｖｅｌｏｐｍｅｎｔ  ｏｆ  ｈｕｍａｎｃｏｍｐｕｔｅｒ  ｇａｍｉｎｇ，ａｎｄ  ｉｔ  ａｌｓｏ  ｐｒｏｖｉｄｅｓ  ｎｅｗ ｐｅｒｓｐｅｃｔｉｖｅｓ  ｏｎ  ｔｈｅ  ｄｅｖｅｌｏｐｍｅｎｔ  ｏｆ  ａｒｔｉｆｉｃｉａｌ  ｇｅｎｅｒａｌ  ｉｎｔｅｌｌｉｇｅｎｃｅ．Ｋｅｙｗｏｒｄｓａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ；ｈｕｍａｎｃｏｍｐｕｔｅｒｇａｍｉｎｇ；ｇａｍｅｔｈｅｏｒｙ；ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ；ｇａｍｅｔｈｅｏｒｅｔｉｃ  ｌｅａｒｎｉｎｇｉ引言人机对抗智能技术研究计算机博弈中机器战胜人类的方法，是当前人工智能研究领域的前沿方向，它以人机（人类与机器）和机机（机器与机器）对抗为主要形式研究不同博弈场景下，机器智能战胜人类智能的基础理论与方法技术［１］．人机对抗智能技术通过人、机、环境之间的博弈对抗和交互学习，探索巨复杂、高动态、不确定的对抗环境下机器智能快速增长的机理和途径，以期最终达到或者超越人类智能？．人机对抗智能技术的突破离不开机器学习的发展，机器学习主要研究如何让机器通过与数据的交互实现能力的提升．然而，与传统的机器学习关注单智能体（ｓｉｎｇｌｅａｇｅｎｔ）与环境的交互不同，人机对抗智能技术研究的场景往往包含两个或两个以上智能体，也就是多智能体（ｍｕｌｔｉａｇｅｎｔ）的情形，这些智能体都拥有自己的优化目标，比如最大化自身收益．此时，如果直接应用单智能体机器学习方法，得到的智能体（称为中心智能体）一般表现欠佳［４５］．这是因为传统机器学习方法假设数据的产生机制是平稳的（ｓｔａｔｉｏｎａｒｙ）［６］（即数据均来自于同一个分布，简称为环境的平稳性），这一假设忽略了研究场景中的其他智能体，而这些智能体也同时在进行学习，因此其行为模式会随着时间发生变化，从而破坏中心智能体所处环境的平稳性，进而导致传统机器学习方法失去理论保证＆３］．更为严峻的是，随着人机对抗场景中智能体数量的增加，环境非平稳的问题将会愈发凸显，多个趋利的智能体在学习的过程中相互影响的情况将不可避免．为了处理环境非平稳的问题，有学者考虑将博弈论引人机器学习方法中［７］．这主要是因为博弈论本身就是为了研究多个利己个体之间的策略性交互（ｓｔｒａｔｅｇｉｃ  ｉｎｔｅｒａｃｔｉｏｎｓ）而发展的数学理论．博弈论诞生于 Ｉ９４４ 年 ｖｏｎ Ｎｅｕｍａｎｎ 和Ｍｏｒｇｅｎｓｔｅｒｎ合著白句Ｔｈｅｏｒｙ ｏｆ Ｇａｍｅｓ  ａｎｄＥｃｏｎｏｍｉｃ Ｂｅｈａｖｉｏｒ［８］ ？在完全理性的假设下，博弈论给出了一系列解概念来预测博弈最终可能的结果．博弈论早期的大部分工作关注不同博弈场景下解概念（ｓｏｌｕｔｉｏｎ  ｃｏｎｃｅｐｔｓ）的定义、精炼（ｒｅｆｉｎｅｍｅｎｔ）、存在性及其拥有的性质［９］．随① 人机对抗智能技术门户网站．网址：ｈｔｔｐ：／／ｔｕｒｉｎｇａｉ．  ｉａ．  ａｃ．  ｃｎ／，爵輝：人机对拣中繼灣学：爾＊＆ Ｊ１ＩＩ着博弈论的发展，部分研究者开始研究在？歲全理性的倩形下，个体是否可以通过迭代孛习的方式来达到这些解概念ｓ其中著名的工作包栝Ｂｒｏｗｎ提出的虚ＩＫｌ＾ｌｉＱｉｃｔｉｔｉｏｔｓ  ｐｌａｙ，）Ｃｌ０］ ＾ ＨａｎｎａｎｆＨ Ｂｌａｃｋｗｅｌｌ －ｆｆｌ（ｎｏｒｅｇｒｅｉ  ｌｅａｒｎｉｎｇｊ  ｒｅｇｒｅｔ ｍｉｎｉｍｉｚａｔｉｏｎ．ｏｒ Ｈｓｎｎａｎ  ＣＤｎｓｆｅｔｅｕｅｙ）［１１１３］等，近年来，得益于机器算力的提升和深＇度学习的兴起．人机对抗智能技术领域取得了一系列突破，如ＤｅｅｐＭｉｎｄ团队开发的Ａｌｐｈ‘〇Ｍ首次击败了人类■模顶尖选手李世右，阿尔伯塔大学团队开发的Ｄ枕ｐＳｔａｃｋ？在二人无限注德州扑克中击败了专＇家铁人翁＿等＿ＡｌｐｔｏＧｏ ：中？ ＿裱義機为二人零和完美信息扩展形式博弈，并利用１我对局蒙特卡洛树搜索以及探度禅经网络近似来对博弈进行求解＃在ＤｅｅｐＳｔａｃｋ中，二人德州扑克被建模为二人零和非完錢值息扩展形式博穽．，求解方法结合了自我对鳥、萬事实遽憾最小化算法以及深度神■ 网络近似．从这些例子可以看衝．人机对抗智能技术领域的突破离不开博弈论和机器学习的探度结合．然而，虽然人机对抗智能技术领域目前取得Ｔ一系列突破，博弈论与机器学习交叉方向的研究却缺焉猜晰的研究框架．基于此，本文通过梳琿人机对揉智猶技术领域的麗蘩：工推，介＇绍了人机对養中的博：＿攀５＃法他内涵总錯了Ｗ向人机对秔任务的博弈擧习研究框架ｆ包括其组成婆素和基本步骤，并利用该框架对人机对抗智能技术领域的典型进展进行了分析．．本文作者认为，随着人机对抗智能技术领域实验场景和测试环境逐渐接近真实场景，场景的复杂性和对抗性急剧增加．结合现代机器学习方法和博弈论的博弈学习方法将会在未来人机对抗领域的发展中发挥越来越重要的作用．２发展历史自图灵测试这一人机对抗模式在１３５０年被提出＆６］以来．博弈论和机器学习就在人工智能的发展中发挥着：越来越黨要的作用ｒ并呈现出交叉融合的趋势．本文梳理了人机对抗智能技术和博弈论铒域开创性的工作和里程碑事；件．并将其发展历史分为两条路线，一条是博弈论绪合专家系统（见图１中绿色实线）．另一条是博弈论结合学习方法（见图１中橙色虚钱），Ｓｈａｎｎｏｎ发表第篇利用计算机编程设计国际象棋走子程序的论文Ｎｅｗｅｌｌ，  Ｓｈａｗ和Ｓｉｍｏｎ使用ａｌｐｈａｂｅｔａ前枝算法设计Ｗ际象棋走子程序Ｌｉｕｍａｎ建立随机博弈与多智能体强化学习之间的联系Ｓａｍｕｅｌ发表论文阐述４：学习跳棋程序的设计原理Ｂｅｎｓｔｅｉｎ完成并展示了第一个能完成整局的国际象棋程序圓 ＩＢＭ公；ｅｐ Ｂｌｕｅ击败国际ＪｆｐＫａｓｐａｒｏｖＴｃｓａｕｒｏ利用强化学习和人工神经Ｍ络训练出了自主提升的双陆棋程序ＴＤ－Ｇａｍｍｏｎ＼Ａ＿Ｓｔａｒ击败星际争霸２专业ＡｌｐｈａＧｏＺｅｒｏ无需人类级选手，达到经验从零自学，３天后宗师级段位以１００比０击败ＡｌｐｈａＧｏＤｅｅｐＭｉｎｄ团队ＡｌｐｈａＧｏ击败人类囤棋顶级ｌ选手李世石Ｔ．ｉｂｒａｔｕｓ在一人无限注德Ｐｌｕｒｉｂｕｓ在六人无限注州扑克中击败人类专业德州扑克中击败人类级选手专、Ｉｋ级选手／１９４４ １９５０１９５１１９５３１９５６１９５７１９５８  １９５９ＮＩ）  ＫＣＯＮＯＭＩＩＢＩＳＨＡＶＩＯＫＮａｓｈ提出策ｖｏｎ  Ｎｅｕｍａｎｎ和略均衡的概Ｍｏｒｇｅｎｓｔｅｍ念（即纳什合著Ｔｈｅｏｒｙ ｏｆ均衡）Ｇａｍｅｓ  ａｎｄＥｃｏｎｏｍｉｃＢｅｈａｖｉｏｒ，标志着博弈论的诞生１９９２１９９４１９９７１９９８  ２０００２００８＼＼２０１６２０１７２０１９Ｈａｎｎａｎ证明Ｂａｙｅｓｉａｎｒｅｇｒｅｔ：ｉ理（即Ｈａｎｎａｎｃｏｎｓｉｓｔｅｎｃｙ概念）Ｈａｒｔ和ＭａｓＣｏｌｅｌｌ提出遗憾匹配算法Ｚｉｎｋｅｖｉｃｈ等人提出反事实遗憾最小化算法Ｂｒｏｗｎ提出虚拟对局（ｆｉｃｔｉｔｉｏｕｓ ｐｌａｙ）算法ａｐｐｒｏａｃｈａｂｉｌｉｔｙ定理Ｆｕｄｅｎｂｅｒｇ和Ｌｅｖｉｎｅ合著Ｔｈｅ  Ｔｈｅｏｒｙ ｏｆ  Ｌｅａｒｎｉｎｇｉｎ  Ｇａｍｅｓ博弈论＋专家系统博弈论＋学哥方法图１入机＃抗臀懂技求与撙虜％的麗展ｗ史２．１路线一：博弈论结合专家系统在衮展路缘一中，为了取得较好的人机对拉表现，研究者们：主賽是Ｉｔ对＇基于博露论的ｍｉｎ－ｍａｘ树搜索算法进行优化，并错含专家经验来改进评估函数．路线一的简襄发展历程如下：１９Ｓ？年ｓ ＳｂａｍｉＱｎ翁參了第一簾荆顧编．乘实现国际象棋走子裎序的论文［１７］，论文中Ｓｈａｎｎｏｎ参者￥〇ｉｉ Ｎｓｕｍａｎｎ班明前 ｔｎｉｎｉｍａｘ定靡设？了腿ｍａｘ搜索算法和揭面评估翼数，对于局面评估函数的设计，参考的爱如下定連；在鼠标象祺中，最终的绪局只可能是以下三种彎中的一种：Ｃ１）不论白方如何奉子，裏方有一种策略总能保证赢４力不１８６２ 计算机学报 ２０２２ 年论黑方如何走子，白方有一种策略总能保证赢；（３）黑白双方都有一种策略保证至少平局．１９５６年，Ｓａｍｕｅｌ利用第一台商用计算机ＩＢＭ７０１编写了跳棋（ｃｈｅｃｋｅｒｓ）走子程序，并在１９５９年发表论文总结了该程序的设计思想和原理［１９］．该跳棋走子程序使用了ｍｉｎｍａｘ搜索．１９５７年，Ｂｅｒｎｓｔｅｉｎ带领的团队在ＩＢＭ７０１上完成了第一个能下完整局的国际象棋走子程序，该程序使用了ｍｉｎｍａｘ搜索，但每次最多向后搜索４步，每步只能考虑７个备选走法．１９５８ 年，Ｎｅｗｅｌｌ、Ｓｈａｗ和Ｓｉｍｏｎ 第一■ 次在国际象棋程序中使用ａｌｐｈａｂｅｔａ剪枝搜索算法［２ °］．Ａｌｐｈａｂｅｔａ剪枝算法是ｍｉｎｍａｘ搜索算法的改进，通过剪掉明显次优的子树分支，该算法极大地降低了搜索空间．该算法最初由ＭｃＣａｒｔｈｙ在１９５６年提出．此后，跳棋和国际象棋程序的优化大多围绕评估函数和搜索算法进行改进．随着计算能力的增强，ＩＢＭ公司开发的国际象棋程序Ｄｅｅｐ Ｂｌｕｅ在１９９７年利用总结了大量人类经验的评估函数和强大的搜索能力击败国际象棋大师Ｋａｓｐａｒｏｖ， — 时轰动．该事件从此成为人机对抗智能技术发展历史上的标志性事件．２．２路线二：博弈论结合学习方法路线一中采用的方法很难称得上实现了机器的“ 学习” 能力，在路线二中，研究者们试图克服机器对专家数据的过度依赖，希望能够打造自主学习的智能机器．路线二的简要发展历程如下：最早在人机对抗研究中引人学习的是Ｓａｍｕｅｌ，他１９５７年完成的跳棋走子程序不仅使用了ｍｉｎｍａｘ搜索，同时也引人了两种“ 学习” 机制［１９］：死记硬背式学习（ｒｏｔｅ ｌｅａｒｎｉｎｇ）和泛化式学习（ｌｅａｒｎｉｎｇｂｙｇｅｎｅｒａｌｉｚａｔｉｏｎ）．前者通过存储之前下棋过程中计算得到的局面得分来减少不必要的搜索，后者则根据下棋的不同结果来更新评估函数中不同参数的系数来得到一个更好的评估函数．此外，该论文也第一次提到了自我对局（ｓｅｌｆｐｌａｙ）．此后，这种通过学习来提升机器能力的思想就一直没能引起重视．直到１９９０年前后，才陆续出现了能够学习的棋类程序．这其中比较知名的是１９９４年Ｔｅｓａｕｒｏ结合神经网络和强化学习训练出的双陆棋程序ＴＤＧａｍｍ〇ｎ［２１］．ＴＤＧａｍｍ〇ｎ的成功引起了许多学者对学习算法的兴趣，并促成了博弈论与机器学习的初步结合，其中著名的工作是Ｌｉｔｔｍａｎ在１９９４年正式建立了Ｍａｒｋｏｖ博弈（或随机博弈）与多智能体强化学习之间的联系．之后，Ｍａｒｋｏｖ博弈便作为多智能体强化学习的理论框架，启发了众多学者的研究．同时，在该论文中Ｕｔｔｍａｎ也提出了第一个多智能体强化学习算法ｍｉｎｉｍａｘＱ［２２］． ＭｉｎｉｍａｘＱ是针对二人零和博弈的学习算法，当博弈的双方都使用该算法时，最终博弈双方的策略都会收敛到二人零和博弈的最优解极大极小策略上．值得指出的是，除了人工智能领域，博弈论领域的研究者们很早也开始了对学习方法的研究．与人工智能领域学者的出发点不同，他们关注的是在博弈模型给定的情形下，如何设计迭代学习的规则能使个体的策略收敛到均衡．此类方法之后被称为博弈学习（ｇａｍｅｔｈｅｏｒｅｔｉｃ  ｌｅａｒｎｉｎｇ）方法．博弈学习方法的思想最早可以追溯到１９５１年Ｂｒｏｗｎ提出的虚拟对局（ｆｉｃｔｉｔｉｏｕｓ  ｐｌａｙ）［１ °］，即采用迭代学习的方式来计算二人零和博弈的极大极小策略，之后著名的博弈学习方法包括无悔学习（ｎｏｒｅｇｒｅｔ  ｌｅａｒｎｉｎｇ）［１１１３］和复制动力学（ｒｅｐｌｉｃａｔｏｒ  ｄｙｎａｍｉｃｓ）［２３］ ？在 １＂８年，几乎与Ｌｉｔｔｍａｎ 等人同一■ 时期，Ｆｕｄｅｎｂｅｒｇ 和Ｌｅｖｉｎｅ 出版了著作Ｔｈｅ Ｔｈｅｏｒｙ ｏｆ Ｌｅａｒｎｉｎｇ  ｉｎ Ｇａｍｅｓ［２４］，对之前博弈学习方法的研究进行了汇总、总结和扩展．博弈学习方法的研究为博弈论中的解概念（主要是纳什均衡）提供了非理性假设下的解释，换言之，非理性的个体在一定学习规则的指导下也能达到均衡．此后，博弈论和机器学习领域的研究兴趣和研究内容开始交叉，逐步形成了博弈论与机器学习结合的博弈学习方法［２５  ３ °］．相关工作包括：（１）利用强化学习方法计算博弈的解，比如ＮａＳｈＱ［３１］等；（２）利用博弈论中的学习方法进行游戏ＡＩ的算法设计，比如针对不完美信息博弈的反事实遗憾最小化算法（属于无悔学习算法的一种）；（３）利用机器学习加强博弈论中学习方法的可扩展性，比如虚拟自我对局（Ｆｉｃｔｉｔｉｏｕｓ ＳｅｌｆＰｌａｙ， ＦＳＰ）［２９］．相比于传统解决单智能体与环境交互问题的机器学习方法，与博弈论结合的学习方法有两个优势：一是充分考虑了多个智能体同时最大化收益时环境的非平稳问题，学习的目标是任务的均衡解而不是让某个智能体的收益最大化；二是在满足模型的假设时，这些算法一般具有收敛的理论保证．特别地，面向人机对抗任务，人机对抗中的博弈学习方法在此基础上添加了人机对抗任务建模，为的是能更好地利用和拓展现有的博弈学习方法来处理复杂的人机对抗任务．，爵輝：人机对拣中繼灣学：爾＊＆ Ｊ１？近年来＊随看深食学习的兴起，深度神经网络被广泛应甩于人机对抗任务，形成了一系．列优秀的樓型和博羿攀习算法，这也促迸Ｔ人机对抗智能技术近期一系列的突破，包括２０１Ｓ年ＡｌｐｈａＧｏ击败围祺９段选芋李世石，２〇１７年，ＬｉｔｏａｔｕｓＷ３和Ｄｅ＾ｐＳｔａｃｋ＾分别在二人无限注德州扑克：中击败人类专业选手以及２〇１９年ＡｌｐｌｉａＳｔＷ４１］在星标争霸２中击败人类ＩＩ级选手，３人机对抗中的博弈学习方法内涵入机着抗：中的＿難学謂方法是一种顶向人机对抗任务＞以博弈论为埋论基础、以机器攀习为主要技术手段、＊通过智能体与环境、智能体身其他智能体的交互来获得具有良好性质（比如适应牲、鲁：俸性等等？博弈策略的学习方法是实现人机对？抗智能技术的核心《墨体地，ｖ人机对抗中的傳＿攀３方：齒基于博弈论建模人机对抗住务和定义学眉目标＾并利用机器学习方法来帮助援计裔缴，稳健 ＞可扩展的荸习箕法ａ：完威人机对搲任务，为了阐述博弈孛习方法与灣＃机器学习方法的区別与联系，本文按照系统中信：息的流向以及债息产生的机制将已有的学３框架划分为一元、二元以及三元（或多元）学习．在一元学习中，智能体从数据中获取知识ｋ并且这个过程Ｒ渉及数据到智能体的单向信息流动，监督学习、无监督学习以及深度学；习都属于一元学习（见菌２（ａ？．在二元学习中，智能体通过与环境互动撙到数据．进而获取知识，与＾元擧习不同的是此时数据的产生不仅取决于环境也取决于智能体，即智能体决策的好坏影响它自身学万的效巣，必鼕时智能体还畫荽对环境动力学进行建模，单智能体强化学习属于二元学３ （见图２（ｂ））、在三元学石中，智能体通过与环境和其他替能体的交Ｓ获轉数据，此时智能体學习的效果＾到环境和其他智能体的共同澎响，必蘩吋智能体需要对环境动方＃和其他智能体进行Ａ樓（见Ｍ ２（ｃ＞），博＊＃习属于三元学（ａ） —元学习（ｂ）二元学习。｜＾备一＾＝赛厲３＿学聲Ｉｆｆｉ餚学河的区爾与联辜４人机对抗中的博弈学习研究框架通过对博弈论和人机对抗智能技术发展历程的梳遽，＿翁合人机对抗中的鐵＃寧３方法悔＿，率文总结出了如图３所示的人机对抗中的博弈学习研食獄架人机）ｔ截：中的傳＃学习研＿截架以人机对抗任务为输人，ｆ先通过博弈模塑构寒获得博弈模型＊然后通过解概念定义得到博弈的可行解，最后通过博弈解计算输出满足霈求的傳弈策略组合，也就基学召任务的解？直观来讲，人机对抗中的博弈学习研究框架将一类人机对抗任务的解决近似或等价转换为对某一类搏弈问题的求解，诙框架ｆｅ含两个组成要素【博弈模型和博弈解＞ 和三个基本步骤（：博弈模型构建、解概念定义和博弈解计算：）？博弈模型 解概念 博弈解图３人机对抗參擔看參习研究輕架接下来，本文翁人机对抗中的傳弈擎习翁＿

[返回]

上一篇：改进的机器学习算法，用于预测基态属性
下一篇：端到端松耦合视觉惯性里程计