第三章洞察充满不确定性的未知世界的决策方法最大最小准则（第6页）

天才一秒记住【梧桐文学】地址：https://www.wtwx.net

冯·诺依曼和奥斯卡·摩根斯特恩提倡的博弈结果（均衡）就是这种最大最小值与最小最大值一致的行为组合。

按照混合概率选择行为

如上文所述，在冯·诺依曼和奥斯卡·摩根斯特恩提出的零和博弈的均衡状态下，博弈双方所选行为实现了各自的最大保底值。

但是，这里存在着一个不容忽视的问题——这种均衡并不是一种常态。

比如在“石头剪刀布”

的游戏中，假设获胜方得1分，失利方得-1分，不分胜负（打平）时双方各得0分。

在这种情况下，玩家A无论出剪刀、布、石头中的哪一个，其保底值都是-1分。

因此，保底水平的最大值就是-1分。

与之相对，玩家B的保底值就是1分。

由此可见，双方的保底值是无法达成一致的（最大最小值=最小最大值）。

这是因为一方失利，就意味着另一方取胜。

针对这种情况，冯·诺依曼和奥斯卡·摩根斯特恩提出了“按照混合概率选择行为”

的理念。

也就是说，玩家在选择时，并不仅限于单纯选择“石头”

“剪刀”

“布”

，而是可以按照不同的概率组合选择出招的策略。

比如采用“按照各0.5的概率选择出剪刀和石头”

或者“按照0.6、0.3和0.1的概率组合，选择出石头、剪刀和布”

等策略出招。

在使用这种混合概率出招时，玩家的得分自然也就不同了。

比如玩家A和B都选择“不出布，分别按照0.5的概率出剪刀和石头”

的策略时，玩家A得1分、玩家B得-1分的概率为0.25（A出石头的概率×B出剪刀的概率），与之相反，玩家A得-1分、玩家B得1分的概率也是0.25。

双方各得0分的概率是0.5（A出石头的概率×B出石头的概率+A出剪刀的概率×B出剪刀的概率）。

在这种情况下，如果不明确规定如何计算玩家的得分，就无法实施具体分析。

因此，冯·诺依曼和奥斯卡·摩根斯特恩就决定运用第二章中提到的期望值（概率的平均值）来解决实际问题。

比如针对前面的例子，经过计算后，每位玩家的得分都是1×0.25+（-1）×0.25+0×0.5=0。

顺便提一下，在实际运用“不出布，分别按照0.5的概率出剪刀和石头”

的策略组合时，其本身是不均衡的。

这是因为当玩家A使用这一策略时，如果玩家B选择“只出石头”

的策略，那么玩家A面对的结果“除了输就是平”

，其得分的期望值就是负数。

这样一来，A的保底值就变成了负数，而不是0。

在猜拳游戏中按照固定套路出招是非常不利的

冯·诺依曼和奥斯卡·摩根斯特恩提出这一概率组合行为的理论，证明了无论哪种形式的两人零和博弈，最终都存在一个均衡状态。

比如在猜拳游戏中，如果两位玩家都采用“按照各13的概率，选择出石头、剪刀、布”

的策略，那么双方就处于均衡状态了。

这是因为玩家A选择这种策略后，不管玩家B选择怎样的概率组合，A的期望值始终是0。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第三章 洞察充满不确定性的未知世界的决策方法 最大最小准则（第6页）