企业增值网

解说

如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：

若对方沉默、背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

一般形式

整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例：

有两个参与者和一个庄家。参与者每人有一式两张卡片，各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下，放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性1。然后，庄家翻开两个参与者卡片，根据以下规则支付利益：

一人背叛、一人合作：背叛者得5分（背叛诱惑），合作者0分（受骗支付）。

二人都合作：各得3分（合作报酬）。

二人都背叛：各得1分（背叛惩罚）。

用支付矩阵表格展示支付如下（以红和蓝分别表示二参与者）：

一般形式囚徒困境的支付矩阵合作背叛

合作3,30,5

背叛5,01,1

以“T、R、P、S”符号表示合作背叛

合作R,RS,T

背叛T,SP,P

以“胜－负”术语表示合作背叛

合作胜-胜大负-大胜

背叛大胜-大负负-负

简单博弈获得的点数可以得出一些一般化的结论。

T、R、P、S符号表

符号分数英文中文（非术语）解释

T5Temptation背叛诱惑单独背叛成功所得。

R3Reward合作报酬共同合作所得

P1Punishment背叛惩罚共同背叛所得

S0Suckers受骗支付被单独背叛所获

若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式。

T>R>P>S

（解：从5>3>1>0获得以上不等式）

若以整体获分而言，将得出以下不等式。

2R>T+S或2R>2P

（解：2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。合作在团体而言是支配性策略。）

而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特创建的。