解说
如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
若对方沉默、背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。
一般形式
整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例:
有两个参与者和一个庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性1。然后,庄家翻开两个参与者卡片,根据以下规则支付利益:
一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。
二人都合作:各得3分(合作报酬)。
二人都背叛:各得1分(背叛惩罚)。
用支付矩阵表格展示支付如下(以红和蓝分别表示二参与者):
一般形式囚徒困境的支付矩阵合作背叛
合作3,30,5
背叛5,01,1
以“T、R、P、S”符号表示合作背叛
合作R,RS,T
背叛T,SP,P
以“胜-负”术语表示合作背叛
合作胜-胜大负-大胜
背叛大胜-大负负-负
简单博弈获得的点数可以得出一些一般化的结论。
T、R、P、S符号表
符号分数英文中文(非术语)解释
T5Temptation背叛诱惑单独背叛成功所得。
R3Reward合作报酬共同合作所得
P1Punishment背叛惩罚共同背叛所得
S0Suckers受骗支付被单独背叛所获
若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分而言,可得出以下不等式。
T>R>P>S
(解:从5>3>1>0获得以上不等式)
若以整体获分而言,将得出以下不等式。
2R>T+S或2R>2P
(解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高。合作在团体而言是支配性策略。)
而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特创建的。
|