基于名声机制的重复囚徒困境合作博弈分析 - 电子通信论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

电子通信论文

当前位置：首页 > 电子通信论文

基于名声机制的重复囚徒困境合作博弈分析

来源：一起赢论文网日期：2013-06-13 浏览数：5176 【字体：大中小】

　　引言
　　人类社会与其他动物群体的一个重要区别在于人与人之间可以通过运用个人理性而达到某种形式的合作人与人之间的合作是人类文明社会的基础关于合作如何形成的研究具有重大的理论意义和实践价值已经成为社会科学自然科学乃至计算机科学的研究热点在每个人都具有自私动机的情况下人们怎样才能通过社会博弈而自发地产生合作？囚徒困境所揭示的正是这样的问题特里弗斯提出过他自己的见解并新造了互惠利他主义这个专用术语弗里德曼提供了一个严格的证明如果博弈者比较重视自己未来的收益那么合作就能够在不定次的重复囚徒困境中自我实现但是这种直接互惠机制存在着巨大的局限个体之间必须具有很大的重复交往机会在当今社会中一次性的快捷的交往方式逐渐成为主流个体很难与同一对手交往多次因而直接互惠机制由于缺乏现实合理性而限制了这个理论的应用范围因此间接互惠开始受到研究者们的重视美国密歇根大学的于提出了间接互惠这个概念并且认为间接互惠是人类道德伦理和法律体系的基础
　　后来又有学者提出间接收益这个概念即一个人现在选择合作的未来收益不是来自当前对局中的收益预期而是间接来自基于当前合作得到的名声的未来对局名声机制在间接互惠的研究中处于核心地位诺瓦克与西格蒙德设计出了一个模型在这个模型中群体中的所有成员都携带着一种基于过去行为的名声标记但是这个间接收益模型存在一个很大的困难它不能对博弈者因为背叛一个好名声者而采取的背叛策略与博弈者为了惩罚一个坏名声者而采取的背叛策略做出区分要做出这样的区分名声转换函数从当前的名声转换成将来的名声需要参考个体当前的行动和对手的名声与和认识到了这一问题并提出一种标签装置作为解决方案
　　本文将首先分析囚徒困境中实现合作的潜在可能性然后探讨如何通过名声机制实现群体内的合作最后做出简要的总结
　　囚徒困境中实现合作的可能性假设
　　在一个二人博弈中每个博弈者拥有两种可能的选择合作和背叛每种可能选择的预期收益如下表所列行博弈者列博弈者注行博弈者的收益列于前面且作为博弈一方的行可以选择合作或者背叛同时另一方列也在合作或者背叛中进行选择这些选择的收益组合形成如上表所列的种可能结果在这个博弈中如果双方都选择合作策略那么他们都将获得较高收益这是对合作的奖励用表示如果他们都选择背叛策略那么他们都将获得比较低的收益遭受对背叛的惩罚用表示如果任何一方在对手选择合作策略时选择背叛策略那么背叛者将得到最高的收益这一高收益成为背叛的诱惑用表示而此时合作者却得到很低的收益意味着傻瓜的收益用表示在这种收益结构下选择背叛策略将是占优策略因为如果对手选择合作策略那么此时你选择背叛策略将比选择合作策略获取更大的收益即如果对手选择背叛策略那么此时你选择背叛策略仍比选择合作策略获益更多即因此在囚徒困境的情况下无论对方怎么做自己选择背叛都将是最好的策略同样的逻辑对另一个人也同样适用即无论你如何选择对方也一定会选择背叛这样将会出现双方相互背叛的情形双方都只能得到较少的收益这比双方合作所能得到的收益差很多个体追求最大利益的理性却导致双方实际得到的收益比可能得到的收益少很多这就是所谓的困境囚徒困境是对一些非常普遍的情形的简单抽象在这些情形中从个人的角度考虑背叛是最好的选择但双方背叛又会导致很不理想的结果囚徒困境的定义要求这个可能的结果之间保持一定的关系即博弈者不能通过轮流背叛对方来摆脱困境如果互相之间都没有对方的任何信息对于背叛不存在有效的惩罚机制任何一次轻信都将可能导致损失那么无论是一次博弈还是多次重复博弈背叛都是最好的选择但是如果群体中的所有成员都携带着一种基于过去行为的名声标记通过选择合作策略而获得好名声具有好名声的个体在未来的对局中将会获得更大的收益即一个人现在选择合作策略的好处不是直接来自当前对局中的收益预期而是间接来自基于当前合作得到的名声的未来对局在这种情况下博弈者能够预期到背叛的后果如果他们关心自己未来的收益那么就会出现合作的可能性名声机制的基本概念在诺瓦克和西格蒙德模型最简单的形式中如果一个博弈者最近选择的是合作策略那么他将得到一个好名声如果他最近选择的是背叛策略那么他将得到一个坏名声群体中个体的基本变量是拥有好名声或者拥有坏名声这两种状态假设群体中的个体是成对对局的并且个体在每次对局之后的名声取决于他所做出的行动和他与对手在对局之前的名声也就是说一个名声机制的输入变量包括这个个体现在的行为他的名声以及他对手的名声由于有好名声与坏名声之分而且是成对对局的因此组合起来就有种名声有序对每个名声有序对都具有特定的含义前一个字母代表对手的名声后一个字母代表自己的名声比如名声有序对就意味着对手拥有一个好名声且自己拥有一个坏名声每一个个体都有合作与背叛这两种可能的行为所以一个名声机制就有种不同的输入变量对于每一个输入输出或即个体都可能获得一个好名声或者获得一个坏名声因此一共就有种可能的名声机制每一种名声机制都可以通过一个表格表示出来如表所列表当前的名声自己当前的行为对方自己合作背叛表显示出了的名声组合情况前两列给出了对局双方当前的名声后两列给出了自己当前采取一定行动之后所得到的名声当一个个体与一个坏名声者对局时如表的后两行所示这时不用考虑他的行为其名声将保持不变当一个个体与一个好名声者对局时如果他选择合作策略第列那么他的名声将会变好如果他选择背叛策略最后一列那么他的名声会变坏需要注意的是当一个好名声者为了惩罚一个坏名声者而选择背叛策略时他不会因此被惩罚而获得一个坏名声如表的第行最后一列一个坏名声者也不会因为他对另一个坏名声者使用合作策略而获得一个好名声如表的最后一行第列这里名声机制充分考虑了参与者行为的动机区分了公正与自私的背叛行为马尔可夫策略是将中的每一个名声有序对映射到可能的行为所得到的策略组合令这个名声有序对的顺序固定不变一个马尔可夫策略可以被描述为形如的四元组它的意思是当名声有序对是时选择合作策略否则选择背叛策略表示总是选择合作策略表示总是选择背叛策略表示当对方拥有好名声时选择合作当对方拥有坏名声时选择背叛在状况下的合作恢复自己好名声的手段在状况下的背叛不会导致自己丧失好名声而给予对手惩罚这里一共有种不同的马尔可夫策略名声机制合作博弈的理论模型强健均衡均衡是博弈论的核心概念是指博弈达到的一种稳定状态任何一方都不愿意单独改变自己的策略最重要也是最著名的均衡是纳什均衡假设有个人参与博弈在给定其他人策略的条件下每个参与人的选择自己的最优策略从而使自己利益最大化所有参与人的策略构成一个策略组合纳什均衡指的是这样一种策略组合这种策略组合由所有参与人的最优策略组成即在给定别人策略的情况下没有人有足够理由打破这种均衡如果一个策略组合在所有可能博弈路径上都能达到均衡那么这个策略组合就被称作完美纳什均衡假设在一个群体中存在着若干个个体个体之间存在无穷的潜在对局轮回在每个轮回中任意一个个体都将与群体中其他的个体进行对局而且它们在每一个对局轮回之后的名声都会根据名声机制进行更新这里个体之间所进行的重复博弈并非在两个特定的个体之间展开而是在这个群体内的任意两个个体之间进行另外在每一个对局轮回之后个体不再进行对局的概率为因此就平均状况来看每个个体都有次对局我们首先考虑仅由一个马尔可夫策略组成的群体的稳定状态如果在每一次对局之后一个马尔可夫策略做出了一个对其自身的最优回应那么这个马尔可夫策略就是一个完美纳什均衡定理对任意名声机制总是一个完美纳什均衡且群体的长期收益为证明如果一个个体的对手总是选择背叛策略那么他的收益是或者因此这个个体未来的收益折算成当前价值最多为总是选择策略将会达到这一最大值如果当前选择策略则未来收益的价值为因此选择策略是对策略的最优回应定理对于名声机制见表如果那么是一个完美纳什均衡且群体的长期收益为证明相对于对方的策略对于名声有序对和来说同在定理中的证明背叛策略是个体的占优策略其预期收益为和对于名声有序对当且仅当即时如果后者选择合作策略那么前者也选择合作策略是最优的对于名声有序对当且仅当即时如果后者选择背叛策略那么前者选择合作策略是最优的总的来看我们需要令代表群体中拥有坏名声的个体所占的比例则注为由一个好名声变成一个坏名声的概率为由一个坏名声变成一个好名声的概率以上两个公式相减得到这里唯一的可稳定状态是所以根据上式得到因此条件可以被转变为所以当时是一个纳什均衡对于一个完美纳什均衡的完全刻画需要一个马尔可夫策略和一个与马尔可夫策略相一致的名声的稳定分布任意给定一个马尔可夫策略作为候选均衡可以得到一个的矩阵在这个矩阵中由一个好名声变成一个坏名声的概率为仍保持其好名声的概率为由一个坏名声变成一个好名声的概率为仍保持其坏名声的概率为我们用表示某一轮回群体中具有坏名声的个体所占的百分比在下一次对局中这个比例将会由变成显然处于稳定状态当且仅当将被称作是可稳定的当且仅当对所有或者对所有如果对所有这是一个完美纳什均衡的稳定状态是一个稳定的策略在的值不是强健的情况下这是一个完美的均衡那么把一个马尔可夫策略和一个与之相应的名声稳定分布叫作一个强健的完美均衡在一个策略的完美均衡中的最大可能收益是我们把任何一个长期收益为的强健完美均衡称作是高效的定理在这个名声机制中有个具有唯一的强健完美纳什均衡并且每个个体在可稳定状态都有一个坏名声其余个名声机制具有高效性的强健完美均衡并且每个个体在可稳定状态都有一个好名声这个具有高效性的强健均衡的名声机制包括另外两个是和分别在表与表中表示出来表当前的名声自己当前的行为对方自己合作背叛表当前的名声自己当前的行为对方自己合作背叛与的区别仅体现在最后一行在中两个坏名声者对局时其名声将保持不变而在中坏名声者如果现在选择合作策略那么他将会获得一个好名声在中对于是一个强健的完美纳什均衡并且群体的长期收益为这与具有相同的长期收益与的区别仅在于第二行在中当坏名声者与好名声者对局时如果他选择合作策略那么他将恢复其好名声而在中当坏名声者与好名声者对局时即使他选择合作策略也不能得到一个好名声在中如果则是一个强健的完美纳什均衡并且这个群体的长期收益为这个高效的名声机制具有以下两个基本特征当两个好名声者对局时他们所获得的名声取决于他们对行为的选择如果选择合作策略那么就获得好名声如果选择背叛策略就获得坏名声当一个好名声者与一个坏名声者对局时这个好名声者可以惩罚那个坏名声者而选择背叛策略而且好名声者不会因此而失去其好名声基于名声机制的强健均衡求解我们首先把时间进行分段并编上号而且每一个时间段都拥有无穷的对局轮回也编上号由于一个个体在下与一个坏名声者对局时不论他选择什么行为其名声都将保持不变因此对他来说背叛策略是最佳选择也就是说对于任意马尔可夫策略都是相对于马尔可夫策略和的弱占优策略为了使模型简单将忽略劣势策略假定群体仅由这种策略组成而且可以把它进一步简化为用表示按程序运用策略的博弈者所占的人数比例则对于中的任一个策略用表示个体拥有一个坏名声的概率所以就用表示拥有一个好名声的比例用表示运用策略的坏名声者所占的人数比例则所有的博弈者在每个阶段的第一个轮回都会进行对局在每一次对局之后博弈者被剔除不再对局的概率为因此在一个时间段中博弈者参与对局的预期数量为在一个轮回中当博弈者与一个好名声者对局时他的名声能够发生改变用表示对局库中在时间段的第个轮回的开始使用策略的坏名声者所占的比例需要指出的是最后使即对局库中坏名声者所占的总比例用和表示采用策略在时间段的所有对局轮回的累积收益这里和是策略在时间段的起点分别拥有一个好名声和一个坏名声的条件下的累积收益这是时间段的所有对局轮回的群体平均收益策略在时间段的平均增长率为虽然增长率是基于每一时间段开始的名声定义的但是名声会在一个时间段内发生变化用表示在时间段有一个坏名声的条件下运用策略它将会在时间段的终点也获得一个坏名声的概率用表示在时间段的起点有一个好名声的条件下运用策略它将会在时间段的终点获得一个坏名声的概率因此策略在时间段的终点拥有一个坏名声的比例为不考虑名声采用策略的人数比例为基于派系的名声机制刻画名声机制的刻画是以群体为基础的但是群体之间是存在着一定差异的比如在一些群体内部存在不同的派系本节就这种情况作专门的讨论一个派系表示共同分享一个名声机制的一个小群体从个体的角度来看一个派系的另一种解释是一个个体的行为能够被他自己所处的派系的其他成员观察到并且这个个体也能观察到这个派系内其他成员的行为所以个体与处于同一派系内的其他个体对局所得到的名声将会影响到自己今后在派系内对局时的收益但是个体与派系外的个体所进行的对局却不会影响其在自己的派系内的名声因此个体对自己的派系之外的对手使用背叛策略是一个弱占优策略我们可以通过在所有自己派系外的对局中使用背叛策略来扩展前面提到的马尔可夫策略用表示派系中的一个个体与派系中的另一个个体随机的对局的概率我们就得到了定理的一个关于派系的扩展定理对于名声机制如果那么是一个完美纳什均衡且群体的长期收益为显然当时定理就与定理完全相同了如果派系之间正在为珍稀资源而竞争那么具有最大值的派系具有最大的生存潜力因此对局过程是很关键的如果值在派系的大小上是单调的那么其中最大的派系将最终占据支配地位如果值对于一个规模有限的群体是优化的那么几个派系能够共存结束语如何实现合作是合作博弈研究中的一个难点并具有重要的现实意义我们通过分析发现处于重复囚徒困境下的博弈者存在着相互合作的潜在可能性但是这种直接互惠机制存在着巨大的局限个体之间必须具有很大的重复交往机会在当今社会中一次性的快捷的交往方式逐渐成为主流个体很难与同一对手交往多次因而直接互惠机制由于缺乏现实合理性限制了这个理论的应用范围而名声机制则是突破困境实现合作的一条有效途径研究表明跟好名声者合作和背叛坏名声者的策略是一个最具吸引力的策略合作可因此最终成功实现并且持续下去此外由于派系的存在有关名声的信息不能在不同派系顺利流通这大大影响了名声机制的应用如何使名声机制的功能突破派系的约束在更大的群体中发挥作用？这需要有效的信息流通模式将如名声这样的重要信息在各个派系间实现共享本文的分析方法给我们提供了一种研究思路对我们拓展开来研究其他问题具有重要的启发意义
参考文献罗伯特阿克塞尔罗德合作的复杂性基于参与者竞争与合作的模型梁捷高笑梅译上海上海世纪出版集团罗伯特阿克塞尔罗德合作的进化吴坚忠译上海上海世纪出版集团

[返回]

上一篇：关于彩色电视机“三无”故障的分析与检修报告
下一篇：参数不确定性的高超声速飞行器自适应反步控制器设计