第九章 博弈论初步

一、博弈论的几个基本概念

博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学。在策略性环境中,每一个人进行的决策和采取的行动都会对其他人产生影响。因此,每个人在进行策略性决策和采取策略性行动时,要根据其他人的可能反应来决定自己的决策和行动。

1.博弈参与人

参与人或称局中人,是指博弈中的决策主体,即在博弈中进行决策的个体。参与人既可以是个人,也可以是团体(企业或国家)。每个参与人的目标是通过选择行动使自己的效用最大化。

2.策略

策略是指参与人选择行为的规则,也就是指参与人应该在什么条件下选择什么样的行动,以保证自身利益最大化。

3.支付函数

支付函数也称为效用函数,表明了博弈的参与人采取的每种策略组合的结果或收益,它是所有参与人策略或行动的函数,是每个参与人真正关心的东西。

4.支付矩阵

参与博弈的多个参与人的收益可以用一个矩阵或框图表示,这样的矩阵或框图称之为支付矩阵,也称之为博弈矩阵或收益矩阵。

其中,博弈参与人、参与人的策略和参与人的支付构成了博弈须具有的三个基本要素。表9-1即为一个支付矩阵。

表9-1  支付矩阵

说明: 未命名

二、同时博弈:纯策略均衡

“同时博弈”是参与人同时进行决策或行动的博弈。在同时博弈中,在给定其他参与人的策略时,某个参与人的最优策略称之为该参与人的条件优势策略(简称条件策略),而包括该参与人的条件策略以及这些条件在内的所有参与人的策略组合称之为该参与人的条件优势策略组合(简称条件策略组合)。

1.占优策略

在一些特殊的博弈中,一个参与人的最优策略可能并不依赖于其他人的选择。也就是说,无论其他参与人采取什么策略,该参与人的最优策略是惟一的,这样的策略称之为占优策略。如表9-2所示,通过对支付矩阵的分析可以看出,如果A、B两厂商都是理性的,则这个博弈的结果是两厂商都做广告,即不管一个厂商如何决定,另外一个厂商都会选择做广告。这种策略均衡称之为占优策略均衡(equilibrium in dominant strategies)。

表9-2  广告博弈的支付矩阵

说明: HWOCRTEMP_ROC00

2.纳什均衡

并不是每个博弈的各个参与人都有一个占优策略。如表9-3所示,通过对支付矩阵的分析可以看出,现在厂商A没有占优策略,它的最优决策取决于厂商B的选择。如果厂商B做广告,则厂商A最好也做广告;但如果厂商B不做广告,厂商A不做广告又是最好的选择。这种均衡就是纳什均衡(Nash equilibrium)。所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处。即如果在一个策略组合中,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。

表9-3  广告博弈的支付矩阵

说明: HWOCRTEMP_ROC10

3.纳什均衡与占优策略均衡的区别

每一个占优策略均衡一定是纳什均衡,但并非每一个纳什均衡都是占优策略均衡。占优策略均衡是有条件的纳什均衡。

一个博弈可能存在一个以上的纳什均衡,但是一个博弈也可能不存在纯策略纳什均衡,如表9-4所示。

表9-4  没有纳什均衡的同时博弈

说明: HWOCRTEMP_ROC40

4.寻找纳什均衡的方法——条件策略下划线法

对于一个简单的“二人同时博弈”,可以用一个以二元数组为元素的支付矩阵来表示,并用“条件策略下划线法”来确定它的纳什均衡。具体步骤如下:

(1)把整个博弈的支付矩阵分解为两个参与人的支付矩阵。

(2)在第一个(即位于整个博弈矩阵左方的)参与人的支付矩阵中,找出每一列的最大者,并在其下画线。

(3)在第二个(即位于整个博弈矩阵上方的)参与人的支付矩阵中,找出每一行的最大者,并在其下画线。

(4)将已经画好线的两个参与人的支付矩阵再合并起来,得到带有下划线的整个博弈的支付矩阵。

(5)在带有下划线的整个的支付矩阵中,找到两个数字之下均画有线的支付组合。由该支付组合代表的策略组合就是博弈的纳什均衡。

5.囚徒困境

囚徒困境的博弈模型的假设条件是:甲、乙两个被怀疑为合谋偷窃的嫌疑犯被警方抓获,但警方对他们偷窃的证据并不充分。他们每一个人都被单独囚禁,并单独进行审讯,即双方无法互通信息。警方向这两个嫌疑犯交待的量刑原则是:如果一方坦白,另一方不坦白,则坦白者从宽处理,判刑1年;不坦白者从重处理,判刑7年。如果两人都坦白,则每人都各判刑5年。如果两个都不坦白,则警方由于证据不足,只能对每个人各判刑2年。表9-5的支付矩阵描述了这一博弈。表中的报酬均为负数,以表示判刑的年数。

表9-5  囚徒困境

说明: 未命名

通过分析可以看出,囚徒困境的博弈有一个占优策略均衡(坦白、坦白)。但是,如果两人都是选择不坦白(即合作),则都可以获得最好的结局。很清楚,囚徒困境的占优策略均衡反映了一个矛盾:即个人理性和团体理性的冲突。

三、同时博弈:混合策略均衡

并不是所有的博弈都存在纳什均衡。比如,如表9-6所示。这博弈就不存在纯策略纳什均衡,但却存在混合策略纳什均衡。混合策略纳什均衡是这样一种均衡,在这种均衡下,给定其他参与人的策略选择概率,每个参与人都为自己确定了选择每一种策略的最优概率。

表9-6  社会福利博弈

说明: 未命名

所有参与人的混合策略的组合构成“混合策略组合”。混合策略组合与参与人的支付的乘积之和为参与人的期望支付。当其他参与人的混合策略确定之后,某个参与人选择的可以使自己的期望支付达到最大的混合策略是该参与人的条件混合策略(其几何表示为“条件混合策略曲线”)。不同参与人的条件混合策略曲线的“交点”就是混合策略条件下的纳什均衡。可以证明,混合策略均衡总是存在的。

四、序贯博弈

“序贯博弈”是参与人的决策和行动有先有后的博弈。描述序贯博弈的更加方便也更加自然的工具是“博弈树”。博弈树由“点”(包括“起点”、“中间点”、“终点”)、连接点的“线段”以及标在这些点和线段旁边的文字和数字组成。在博弈树中,一个纳什均衡代表一条均衡的路径。在该均衡路径上,没有哪个参与人愿意单独改变自己的策略。

说明: 未命名

图9-1  博弈树

在序贯博弈中,可能存在多个纳什均衡的情况。在多个纳什均衡中,有些可能并不合理。所谓对纳什均衡的“精炼”,就是要从众多的纳什均衡中进一步确定“更好”的纳什均衡。纳什均衡的精炼方法通常是使用所谓的“逆向归纳法”,具体包括以下两个步骤:

第一步,先从博弈的最后阶段的每一个决策点开始,确定相应参与人此时所选择的策略,并把参与人所放弃的其他策略删除,从而得到原博弈的一个简化博弈。

第二步,再对简化博弈重复步骤一的程序,直到最后,得到原博弈的一个最简博弈。这个最简博弈,就是原博弈的解;而在存在多重纳什均衡时,它就是对纳什均衡的精炼。