天才一秒记住【梧桐文学】地址:https://www.wtwx.net
虽然这一得分比队伍1能够得到的最高得分4分少1分,但是在这种局面下,也属于上上之选了。
然而,队伍2也可能会猜到队伍1这种“以退为进”
的策略,从而有针对性地选择策略d。
就这样双方不停地斗智斗勇,最终会陷入无休止博弈的死循环。
那么,冯·诺依曼和奥斯卡·摩根斯特恩是如何摆脱这个陷阱束缚的呢?
冯·诺依曼和奥斯卡·摩根斯特恩是这样认为的
为了避免出现上文中提到的陷阱,陷入无休止博弈的死循环,冯·诺依曼和奥斯卡·摩根斯特恩提出了下述思维方式。
由于博弈双方无法确切地掌握对方最终会采用哪种策略,因此应该放弃去猜测对方的选择。
在这一前提的基础上,博弈双方决定所选策略的关键在于保底值,即选择某一行为时,最低能保证多少收益。
也就是说,两支队伍应该使用最大最小准则作为选择策略的标准。
下面,我将结合前文中提到的两支队伍的比赛进行具体说明,如表3-2所示。
首先,我们试着从队伍1的立场出发思考问题,探讨队伍1是否应该选择策略a。
在这种情况下,队伍1的分数自然会受到队伍2所选策略的影响。
队伍2选择策略d、e、f时,队伍1选择策略a的得分分别为4分、-1分和2分,其中最低得分是-2分。
因此,-2分就是队伍1选择策略a时的保底值,也就是保底分数。
同样,当队伍1选择策略b时,保底值是-3分;选择策略c时,保底值是1分。
在三个保底值中,最大的是1分。
因此,对于队伍1而言,“选择策略c时,最差也能得1分”
。
换言之,队伍1“如果想达到1分的保底值,就应该选择策略c”
。
其次,我们试着从队伍2的立场出发思考问题。
对于队伍2而言,将表中数字的正负号颠倒过来,就是队伍2所得到的分数。
因此,队伍2希望表中的数字越小越好。
如果队伍2选择了策略d,那么队伍1选择策略a、b、c时,队伍2的得分就分别是4分、-3分和3分的相反值,即-4分、3分和-3分,其中最大失分就是4分。
也就是说,不会有比-4分更少的分数。
有鉴于此,4分就是队伍2选择策略d时的保底值。
同样,在选择策略e、f时,队伍2的保底值分别是1分和3分。
因此,希望从表中选出的数字越小越好的队伍2,肯定会选择策略e。
换言之,队伍2将不得不选择1分的失分(也就是-1分的得分)作为保底值,从而选择策略e。
在这种情况下,队伍1的目标是拿到保底值1分,队伍2的目标是拿到最少失分,也就是得-1分。
可以说,双方的想法达成了一致。
因此,当队伍1选择策略c、队伍2选择策略e时,双方都拿到了自己想要的1分和-1分,这种状况就是冯·诺依曼和奥斯卡·摩根斯特恩所提倡的博弈的结果,也就是所谓的均衡状态。
在这一分析过程中,作为比赛对手的两支队伍并没有只选择对于自己而言最有利的策略,而是将对方的利益得失纳入计算范围,并在此基础上做出了决策。
另一方面,如果太在意对方的行为,自己的选择总是随着对方而改变,就会陷入无限循环的陷阱,影响最终的决策。
如果两支队伍都能秉承“设想最差局面,并在这一条件下谋求最大利益”
的理念,就可以避免出现无限博弈的死循环。
在这种情况下,我们将队伍1的保底值的最大值1称为最大最小值,将队伍2的失分保底值的最小值1称为最小最大值。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!