天才一秒记住【梧桐文学】地址:https://www.wtwx.net
冯·诺依曼和奥斯卡·摩根斯特恩提倡的博弈结果(均衡)就是这种最大最小值与最小最大值一致的行为组合。
按照混合概率选择行为
如上文所述,在冯·诺依曼和奥斯卡·摩根斯特恩提出的零和博弈的均衡状态下,博弈双方所选行为实现了各自的最大保底值。
但是,这里存在着一个不容忽视的问题——这种均衡并不是一种常态。
比如在“石头剪刀布”
的游戏中,假设获胜方得1分,失利方得-1分,不分胜负(打平)时双方各得0分。
在这种情况下,玩家A无论出剪刀、布、石头中的哪一个,其保底值都是-1分。
因此,保底水平的最大值就是-1分。
与之相对,玩家B的保底值就是1分。
由此可见,双方的保底值是无法达成一致的(最大最小值=最小最大值)。
这是因为一方失利,就意味着另一方取胜。
针对这种情况,冯·诺依曼和奥斯卡·摩根斯特恩提出了“按照混合概率选择行为”
的理念。
也就是说,玩家在选择时,并不仅限于单纯选择“石头”
“剪刀”
“布”
,而是可以按照不同的概率组合选择出招的策略。
比如采用“按照各0.5的概率选择出剪刀和石头”
或者“按照0.6、0.3和0.1的概率组合,选择出石头、剪刀和布”
等策略出招。
在使用这种混合概率出招时,玩家的得分自然也就不同了。
比如玩家A和B都选择“不出布,分别按照0.5的概率出剪刀和石头”
的策略时,玩家A得1分、玩家B得-1分的概率为0.25(A出石头的概率×B出剪刀的概率),与之相反,玩家A得-1分、玩家B得1分的概率也是0.25。
双方各得0分的概率是0.5(A出石头的概率×B出石头的概率+A出剪刀的概率×B出剪刀的概率)。
在这种情况下,如果不明确规定如何计算玩家的得分,就无法实施具体分析。
因此,冯·诺依曼和奥斯卡·摩根斯特恩就决定运用第二章中提到的期望值(概率的平均值)来解决实际问题。
比如针对前面的例子,经过计算后,每位玩家的得分都是1×0.25+(-1)×0.25+0×0.5=0。
顺便提一下,在实际运用“不出布,分别按照0.5的概率出剪刀和石头”
的策略组合时,其本身是不均衡的。
这是因为当玩家A使用这一策略时,如果玩家B选择“只出石头”
的策略,那么玩家A面对的结果“除了输就是平”
,其得分的期望值就是负数。
这样一来,A的保底值就变成了负数,而不是0。
在猜拳游戏中按照固定套路出招是非常不利的
冯·诺依曼和奥斯卡·摩根斯特恩提出这一概率组合行为的理论,证明了无论哪种形式的两人零和博弈,最终都存在一个均衡状态。
比如在猜拳游戏中,如果两位玩家都采用“按照各13的概率,选择出石头、剪刀、布”
的策略,那么双方就处于均衡状态了。
这是因为玩家A选择这种策略后,不管玩家B选择怎样的概率组合,A的期望值始终是0。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!