梧桐文学

第三章 洞察充满不确定性的未知世界的决策方法 最大最小准则(第5页)

天才一秒记住【梧桐文学】地址:https://www.wtwx.net

虽然这一得分比队伍1能够得到的最高得分4分少1分,但是在这种局面下,也属于上上之选了。

然而,队伍2也可能会猜到队伍1这种“以退为进”

的策略,从而有针对性地选择策略d。

就这样双方不停地斗智斗勇,最终会陷入无休止博弈的死循环。

那么,冯·诺依曼和奥斯卡·摩根斯特恩是如何摆脱这个陷阱束缚的呢?

冯·诺依曼和奥斯卡·摩根斯特恩是这样认为的

为了避免出现上文中提到的陷阱,陷入无休止博弈的死循环,冯·诺依曼和奥斯卡·摩根斯特恩提出了下述思维方式。

由于博弈双方无法确切地掌握对方最终会采用哪种策略,因此应该放弃去猜测对方的选择。

在这一前提的基础上,博弈双方决定所选策略的关键在于保底值,即选择某一行为时,最低能保证多少收益。

也就是说,两支队伍应该使用最大最小准则作为选择策略的标准。

下面,我将结合前文中提到的两支队伍的比赛进行具体说明,如表3-2所示。

首先,我们试着从队伍1的立场出发思考问题,探讨队伍1是否应该选择策略a。

在这种情况下,队伍1的分数自然会受到队伍2所选策略的影响。

队伍2选择策略d、e、f时,队伍1选择策略a的得分分别为4分、-1分和2分,其中最低得分是-2分。

因此,-2分就是队伍1选择策略a时的保底值,也就是保底分数。

同样,当队伍1选择策略b时,保底值是-3分;选择策略c时,保底值是1分。

在三个保底值中,最大的是1分。

因此,对于队伍1而言,“选择策略c时,最差也能得1分”

换言之,队伍1“如果想达到1分的保底值,就应该选择策略c”

其次,我们试着从队伍2的立场出发思考问题。

对于队伍2而言,将表中数字的正负号颠倒过来,就是队伍2所得到的分数。

因此,队伍2希望表中的数字越小越好。

如果队伍2选择了策略d,那么队伍1选择策略a、b、c时,队伍2的得分就分别是4分、-3分和3分的相反值,即-4分、3分和-3分,其中最大失分就是4分。

也就是说,不会有比-4分更少的分数。

有鉴于此,4分就是队伍2选择策略d时的保底值。

同样,在选择策略e、f时,队伍2的保底值分别是1分和3分。

因此,希望从表中选出的数字越小越好的队伍2,肯定会选择策略e。

换言之,队伍2将不得不选择1分的失分(也就是-1分的得分)作为保底值,从而选择策略e。

在这种情况下,队伍1的目标是拿到保底值1分,队伍2的目标是拿到最少失分,也就是得-1分。

可以说,双方的想法达成了一致。

因此,当队伍1选择策略c、队伍2选择策略e时,双方都拿到了自己想要的1分和-1分,这种状况就是冯·诺依曼和奥斯卡·摩根斯特恩所提倡的博弈的结果,也就是所谓的均衡状态。

在这一分析过程中,作为比赛对手的两支队伍并没有只选择对于自己而言最有利的策略,而是将对方的利益得失纳入计算范围,并在此基础上做出了决策。

另一方面,如果太在意对方的行为,自己的选择总是随着对方而改变,就会陷入无限循环的陷阱,影响最终的决策。

如果两支队伍都能秉承“设想最差局面,并在这一条件下谋求最大利益”

的理念,就可以避免出现无限博弈的死循环。

在这种情况下,我们将队伍1的保底值的最大值1称为最大最小值,将队伍2的失分保底值的最小值1称为最小最大值。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

魔兽使徒重生98,崛起从敲微软竹杠开始教有灵魂伴侣的龙傲天修男德[快穿]穿成女主的反派姑姑也许我就无法拥有正常的青春人渣反派自救系统文娱从自媒体开始重生之资本帝国穿到乱世搞基建(女穿男)穿成三个反派崽崽的锦鲤娘轮回大劫主重生美人咸鱼且难哄永夜支配者喵系帝少和薄荷管家的生存游戏红色警戒之战争之王好运的九零年代穿成男配他前妻[穿书]我,元芳?自君别后亚索的英雄联盟一品婚爱:独溺娇妻穿成炮灰求善终,太子却非要娶我小良药神秘酷宝:爹地,大佬妈咪飒爆了团宠之蒋家小女会仙法