首页资料文库正文

博弈论的局限性十篇

时间：2023-08-20 15:07:21

博弈论的局限性篇1

【摘要】在Fudenberg 和 Tirole(1991，2002)相应的工作基础(技术性说明) 上，提出并证明连续博弈混合策略集上相似于有限博弈中混合策略中的一些基本和重要性质，同样利用预备知识中的方法说明了混合策略纳什均衡的存在性。

【关键词】连续博弈; 混合策略; 均衡

1 序言

博弈论可定义为是对有理性的局中人之间冲突和合作的数学模型的研究。个人理性强调局中人在博弈中会自始至终以追求个人(期望)支付(或效用)最大化为目标来决策。博弈论主要研究局中人相互影响对方策略所形成或实现的策略组合，是决策理论对两个或两个以上局中人情形的推广，或者是决策论在本质上的逻辑完备。

在博弈论的形成与发展过程中，混合策略或随机策略概念的引进和应用起到了重大的作用。因为在不确定环境或具有风险的情况下，所假定的理性局中人总会追求他的支付的数学期望最大，而数学期望又完全由随机变量分布所确定。用混合策略来分析博弈是重要的手段，引入混合策略可以保证纳什均衡的存在。根据贝叶斯决策理论，用策略集上的概率分布可定量表示局中人选择策略的信念，反映局中人的隐密性。

在实际经济活动中，局中人(经济人)的策略集通常是无限的，在对无限博弈中连续博弈的均衡存在性的研究中，最早的和注重理论与实效的也是混合策略均衡存在性。关于现有的连续博弈的均衡存在性的研究可概括为：在连续博弈中有关混合策略纳什均衡的存在性的纳什均衡存在定理(Glicksgerg，1952)和连续博弈中有关纯策略纳什均衡存在定理;后者是前者的特例。在求解连续博弈的均衡中几乎采用的都是反应函数法，尽可能避开用局中人的反应集去求集映的不动点即博弈的均衡。

因此，本研究在Fudenberg 和 Tirole(1991，2002)相应的工作基础(技术性说明) 上，主要对连续博弈混合策略的性质，连续博弈的混合策略纳什均衡存在定理的证明进行了讨论。

2 连续博弈的混合策略性质、混合策略纳什均衡存在定理

2.1 连续博弈中的混合策略及其性质

在有限策略型博弈G={Si，ui }i∈N 中，混合策略是用纯策略集上的概率分布列来表示的，混合策略的变化本质上反映的是概率分布的变化。现在策略集Si(i∈N) 是不可数的无限集，局中人i以概率选择策略时，在维持隐蔽性下，这种随机选择可以看成是定义在概率空间Ωi={Si，Fi ，Pi}上的一个随机变量ξi ，其中 Fi为Si 上的σ代数，Fi的元素AiSi 是Borel可测子集，Pi 是Fi上的概率测度。且根据概率分布与分布函数的关系，用ξi 的概率分布函数Fi(si)(si∈R) 来表示。

定义1 概率空间Ωi={Si，Fi ，Pi}，上任意分布函数Fi(si) 组成的集合称为策略型博弈G={Si，ui }i∈N中局中人i∈N 的混合策略集，记为Δi ;分布函数Fi∈Δi 称为局中人i的一个混合策略。即对Fi∈Δi，当且仅当A∈ Fi 时Fi(Ai)=Pi(Ai)=Pi(ξi(si)∈Ai)=∫Aidf(SI)≥0 ，Fi(Si)=1且对Fi的两两不相交的子集族{Aki }∞i)，都有Fi(∪∞k=1Aki)=∞k=1Fi(Aki)。

我们在Δi 上定义距离ρ:Δi×ΔiR 为ρ(Fi，F0i)=Fi-F0i=supsi∈si|Fi(si)-F0i(si)|， Fi，F0i∈Δi， i∈N用C(Si) 表示Si上一切连续函数(这时的连续函数是有界的)的集合，它是Banach空间，其范数为c=supsi∈Si|c(si)| 。定义2 设{Fki}∞k=1是Δi 中一个混合策略序列，Fi∈Δi ，如果对c∈C(Si)都有limk∞∫si∈Sic(si)dFki(si)=∫si∈Sic(si)dFi(si) (1)则称{Fki}∞k=1 弱收敛于Fi ，记为FkiwFi 或limk∞Fki=Fi(w) 。由定义1有FkiwFi ;反之若FkiwFi ，则对c∈C(Si) 有(1)式成立，即这两个条件是等价的。显然，Δi中任一序列必有收敛子序列收敛到Δi 中的一个混合策略，这时Δi 是列紧的、闭集，从而它是一个紧集。利用两个分布函数的加权平均是分布函数，即对Fi(si)，F0i(si)∈Δi， λ∈[0，1]，必有λFi(si)+(1-λ)F0i(si)∈Δi ;可知Δi 是凸的。因此类似于性质1有：命题1 对每个i∈N ，Δi是非空的紧凸集。令F=(F1，…Fi… ，Fn) ，Fi∈Δi， i∈N，称为连续博弈G的一个混合策略组合或混合局势;且所有混合局势全体是Δ1，…，Δi，…，Δn 的直积，记为:Δ=i∈NΔi={F=(F1，…，Fi，…，Fn):Fi∈Δi， i∈N}称为G的混合策略组合集。

利用对每个i∈N ，Δi 是非空的紧凸集，类似类似于性质2 有：命题2 Δ是非空的紧凸集。　注意，Fi∈Δi(i∈N) 是局中人i 独立选择的随机策略，(s1，s2，…，sn)S 时，有ui(s1，s2，…，sn)=0 ，所以局中人i∈N 的期望支付可定义为函数vi:ΔR ，即对F∈Δ，i∈Nvi(F)=∫s1∈S1∫s2∈S2…∫sn∈Snui(s1，s2，…，sn)dF1(s1)dF2(s2)…dFn(sn)(2)同样，分布函数Fi(si)∈Δi表示局中人i∈N 的混合策略，局中人i 的纯策略集Si 可扩充为混合策略集Δi (局中人i 采用si∈Si ，即以概率1选定si )。为方便，博弈={Δi，vi}i∈N也称为连续博弈G={Si，ui }i∈N的混合扩充博弈。类似，我们引入记号(Fi，F0i)=(F1，…，Fi-1，F0i，Fi+1，…，Fn)，其中F0i∈Δi，F-1=(F1，…，Fi-1，Fi+1，…，Fn)∈Δ-ij≠iΔj。

同样有(Fi，F-i)=F ，且vi(F)=vi(Fi，F-i) 。利用{Fk=(Fk1，Fk2，…，Fkn)}∞k=1， Fk∈Δ，Fki∈Δi ，F=(F1，…，Fi，…，Fn)∈Δ ，Fi∈Δi ，则limk∞Fk=F，(w)limk∞Fki=Fi，(w)，i∈N ;且利用(4)式就有:limk∞vi(Fk)=limk∞∫s1∈S1∫s2∈S2…∫sn∈Snui(s1，s2，…，sn)dFk1(s1)dFk2(s2)…dFkn(sn)=∫s1∈S2∫s2∈S2…∫sn∈Snui(s1，s2，…，sn)dFk1(s1)dFk2(s2)…dFkn(sn)=vi(F)其中在Δ上定义距离ρ:Δ×ΔR为：ρ(F1，F2)=maxi∈N supsi∈Si|F1i(si)-F2i(si)|，F1，F2∈Δ

再利用函数极限与点列极限关系，得到类似于性质3的命题。命题3 vi(F) 是Δ上的连续函数;且vi(Fi，F-1是Fi∈Δi 的连续函数，i∈N 。从而结合命题1，可知连续博弈G={Si，ui}i∈N的混合扩充={Δi，vi}i∈N是连续博弈。此外，利用(5)式、命题3、积分的运算性质，对θ∈[0，1]，以及对j∈N ，F1j ，F2j∈Δj 时，有：viθ(F1，…，θF1j+(1-θ)F2j，…，Fn)=θvi(F1，…，F1j，…，Fn)+(1-θ)(F1，…，F2j，…，Fn)即vi(F)(i∈N)有如下特性：命题4 对F∈Δ ，vi(F)(i∈N)具有n重线性性。定义3 连续博弈G={Si，ui}i∈N的混合扩充={Δi，vi}i∈N 中，对i∈N ，F∈Δ，F*i∈Δi 称为局中人i∈N在F下的最优混合策略，如果vi(F*i，F-i)={max{vi(F0i，F-i):F0i∈Δi}

且 Vi(F)={F*i∈Δi: vi(F*i，F-i)=max{vi(F0i，F-i):F0i∈Δi}称为局中人i∈N 对其他局中人混合局势F-i∈Δ-i的反应集，即Vi:ΔΔi 是反应集映;而F*=(F*1，…，F*i，…，F*n) 称为G 的一个混合策略纳什均衡或混合均衡，如果对每个i∈N ，vi(F*1，F*-i)=max{vi(Fi，F*-i):Fi∈Δi}因此，由上述定义类似命题2，可知：F*是连续博弈G 的一个混合策略纳什均衡，当且仅当F*∈V1(F*)×…×Vi(F*)×…×Vn(F*)=i∈NVi(F*)即F* 是(反应)集映V=V1×V2×…×Vn:ΔΔ的一个不动点。

利用两个分布函数的加权平均是分布函数和命题4，得到：命题5 Vi(F)(i∈N)以及i∈NVi(F*) 都是非空的凸集。从而G的混合均衡的凸组合都是混合均衡。命题7也类似于性质5，即Vi(p)(i∈N)是非空的凸集的结果。

2.2 连续博弈中混合策略纳什均衡存在定理

因为命题3至7和在预备知识中证明有限策略型博弈的纳什均衡存在定理时所应用的那些性质1至5是一致的，且概念也基本相似，命题2类似在连续博弈中成立，因此同样的证明得到了：混合策略纳什均衡存在定理 (I.Glicksberg，1952)G={Si，ui}i∈N是连续博弈，则G 至少存在一个混合策略纳什均衡。

转贴于

2.3 二人常和连续博弈G={S1，S2，u1，u2}

虽然我们介绍了反应函数方程组、反应函数法来解无限博弈、连续博弈，但是对二人常和连续博弈还是可以利用由鞍点定理表明的最小最大原理来求其混合均衡，即有如下命题(以下的证明约去，可参见武康平，2001)：命题6 (F*1，F*2 )是二人常和连续博弈G={S1，S2，u1，u2} 的混合策略纳什均衡，当且仅当v1 (F*1，F*2 )=maxF1∈Δ1 minF2∈Δ2v1(F1，F2)

=minF2∈Δ2 maxF1∈Δ1v1(F1，F2)其中G的混合扩充是={Δ1，Δ2，V1，V2} ，(F1，F2)∈Δ1×Δ2 ，　v1(F1，F2)=∫s1∈S1∫s2∈S2ui(s1，s2)dF1(s1)dF2(s2) 。　此外，也有如下命题：命题7 博弈 G是二人常和连续博弈，当且仅当它的“混合扩充”是常和博弈;且混合扩充保持G 的支付总和不变。同时，期望支付函数v1(F1，F2)的鞍点也具有无差异性和可交换性。

3 结语

本研究主要讨论连续博弈中的混合策略性质和它的均衡，连续博弈G={Si，ui}i∈N 是否存在纯策略纳什均衡的问题，还在于要对它的局中人的支付函数作出其在策略集上是作者简介：姚红梅，荆楚理工学院医学院，硕士研究生，主要从事心肌保护的研究。

* 武汉大学中南医院心内科

拟凹的规定。也指出连续博弈G={Si，ui}i∈N的混合扩充={Δi，vi}i∈N是一个连续博弈，从而完全信息博弈策略型博弈的混合扩充博弈都是连续博弈。这样一来，完全信息博弈策略型博弈至少存在一个纳什均衡(或更准确的是混合策略纳什均)，那么，对完全信息博弈策略型博弈的混合扩充博弈本身来说，它就至少存在一个纯策略纳什均衡。此外，完全信息的有限策略型博弈和连续博弈中混合策略上的性质实际上它们混合扩充博弈中关于策略集和(期望)支付函数的性质。

【参考文献】

1 Von Neumann J， Morgenstern O. Theory of Games and Economic Behavior. Princeton: Princeton University Press， Second Ed， 1947.

2 Weirich P. 均衡与理性(1998). 黄涛，译. 北京: 经济科学出版社，2000.

3 谢识予. 经济博弈论.第2版. 上海:复旦大学出版社，2002.

4 张维迎. 博弈论与信息经济学. 上海: 上海三联书店、上海人民出版社，1996.

5 Binmore K G. 博弈论基础，1991;经济理论的进展. [法]JJ.拉丰编，王国成，等译，北京:中国社会科学出版社，2001.

6 Fan K. Fixedpoint and Minimax Theorem in Locally Convex Topological Linear Space.Proc. Nat. Acad. Sci. U.S.A.1952，38:121～126.

7 Fudenberg D，Tirole J. 博弈论.姚洋，校，黄涛、郭凯等，译.北京: 中国人民大学出版社，2002.

博弈论的局限性篇2

引言

一、两个简单的例子

1.1 老鹰（Hawk）与鸽子(Dove)博弈

1.2 系统选择博弈

二、进化博弈理论的产生及其发展

2.1 理性的由来及其缺陷

2.2 心理学研究成果及有限理性概念的提出

2.3 进化博弈理论的产生及其发展

三、进化博弈理论的基本内容

3.1 进化博弈理论基本模型分类

3.2 进化博弈理论基本均衡概念-----进化稳定策略

3.3 进化博弈理论基本动态概念----模仿者动态

四、进化博弈理论的应用

五、传统方法的缺陷及进化博弈理论研究方法的现实性

5.1 新古典经济学均衡分析法的缺陷

5.2 经典博弈理论的策略互动分析法及其缺陷

5.3 进化博弈理论局部动态分析方法的现实性

5.3.1 局部动态分析法的均衡观

5.3.2 局部动态法的时间观

5.3.3 局部动态法的均衡选择观

5.3.4 局部动态法的特殊性

六、结论

参考文献

摘要

本文从两个简单的博弈例子出发，以通俗的语言全面介绍了进化博弈理论的理性基础及其形成、发展、基本内容和部分应用，在此基础上文章进一步比较了新古典经济学、经典博弈理论 ①及进化博弈理论在研究方法上的不同之处，并特别强调了进化博弈理论局部动态法的均衡观、时间观、均衡选择观及方法上的特殊性。进化博弈理论的局部动态分析方法既是经济学研究方法的一次创新又是经济学直面现实的有力武器。

关键词：沉默互动；社会互动；进化稳定策略；模仿者动态；均衡分析法；局部动态法

引言

为什么同样一项经济制度在某个地方对经济发展有积极的推动作用而在另一个地方对经济发展却起着消极的阻碍作用？为什么能够有效降低交易费用的中介在一些地方会出现而在另一些地方却不能出现？为什么同样的管理方法在一个地方显示出高效率而在另一地方却不具有效率？诸如此类的问题，新古典经济学利用均衡分析法都无法给出令人满意的答案。均衡分析法的最大缺陷是把经济系统中参与人看作是互不联系的单个人（仅研究单个生产者或消费者的行为），不能把其所考察的问题放在一定的环境中去，该方法完全忽略了制度环境、社会环境及人文环境等对参与人行为的影响，单纯考察某个条件与结果之间的一一对应关系。因而，无法对现实中出现的诸多现象给予合理的解释。博弈理论尽管把参与人之间行为互动关系纳入到了模型之中，但依然没能跳出新古典均衡分析法的基本框架，并且由于其对理性赋予更强的假定，使得该理论更加脱离现实。进化博弈理论则一反常规，从一种全新的视角来考察经济及社会问题，它所提供的局部动态研究方法是从更现实的社会人出发，把其所考察的问题都置于一定的环境中进行更全面的分析，因而，其结论更接近于现实且具有较强的说服力。进化博弈理论属于经济学的前沿理论，该理论从其理论框架建立到现在仅仅只有近三十年的历史，但其在经济学、社会学、生态学等领域却得到了广泛的应用，近年来已经成为主流经济的研究方法之一。在我国由于历史原因，对经济学的研究起步较晚，特别对进化博弈这样的前沿理论更是知者甚少，本文的主要目的是以通俗的语言介绍进化博弈理论的相关内容及其应用，让读者对该理论有一个全面的了解。

本文的结构如下：第一部分给出进化博弈理论的两个典型的例子；第二部分对进化博弈理论的产生及其发展进行阐述；第三部分对进化博弈理论的基本内容进行简要的介绍；第四部分概述进化博弈理论的有关应用；第五部分论述传统的经济学研究方法的缺陷及进化博弈理论研究方法的现实性；第六部分对进化博弈理论的发展及理论前景进行简要的说明。

一、两个简单的例子

为了下文说明的方便，本文先给出进化博弈理论中两个具有代表性的例子，在此基础上再进一步给出该理论的基本内容及其研究方法的基本特点。

1.1 老鹰（Hawk）与鸽子(Dove)博弈

假定一个生态环境中有老鹰与鸽子两种动物，它们为了生存需要争夺有限的资源（如食物或生存空间等）而竞争。老鹰一般比较凶悍，必要时在斗争中直到重伤。鸽子一般比较温驯，竞争时在强敌面前常常退缩。竞争中获胜者得到了生存资源就可以更好地繁衍后代，重伤者则不利于其后代生长，即会减少其后代的数量。如果群体中老鹰与鸽子相遇并竞争资源，那么老鹰就会轻而易举地获得全部资源，而鸽子由于害怕强敌退出争夺，从而不能获得任何资源（当然不会受伤）；如果群体中两个鸽子相遇并竞争生存资源，由于它们均胆小怕事不愿意战斗，结果平分资源；如果群体中两个老鹰相遇并竞争有限的生存资源，由于它们都非常勇猛而相互残杀，直到双方受到重伤而精疲力竭，结果虽然双方都获得部分生存资源但损失惨重，入不敷出。假定竞争中得到全部资源为50个单位（该数字也可以表示为生物的适应度、繁殖成活率或后代数量）；得不到资源则表示其适应度为零；双方重伤则用来表示。于是老鹰、鸽子两种动物进行的资源竞争可以用一个对称博弈来描述，博弈的支付矩阵如下：

操作依赖于该群体的初始状态。如果初始时，该宿舍有多于4人使用操作系统，那么该宿舍所有学生最终都会使用该操作系统；否则所有学生最终会使用操作系统。

二、进化博弈理论的产生及其发展

进化博弈理论是经济学研究方法的一次创新，该理论从否定传统理论赖以成立的基础----理性人假定出发而建立起来一个新的分析框架，它结合了生态学、社会学、心理学及经济学的最新发展成果，从有限理性的社会人出发来分析参与人的资源配置行为。

2.1 理性的由来及其缺陷

经济学自从古希腊哲学中分离出来并成为一门系统的学问，是在亚当•斯密1776年发表《国富论》之后。以斯密为代表的古典经济学关注的核心是资源的稀缺程度如何能被人类经济活动所减少，他们关注的重点不是资源配置问题而是国民财富的增长及国别差异的原因。1890年马歇尔《经济学原理》的出版，标志着新古典经济学的成形，马歇尔之后，新古典经济学关注的核心逐渐转向在给定稀缺程度下资源的最优配置问题。稀缺资源的配置是需要人的参与，也就是说经济学研究的问题演变为关于经济中参与人如何把稀缺的资源配置到效率最高地方去的问题，强调个体行为在资源配置中的作用。经济中参与人的决策行为是通过高度复杂的思维活动作出的，为了更好地从微观个体行为来解释资源配置问题，新古典经济学借用了哲学中“理性”概念对复杂的人类行为过程进行了抽象的假定。然而，理性一词用于经济学时却对其含义的理解与哲学中对其含义的理解已经有了明显的区别。哲学中的理性是指人类所特有的用以探索自然和社会奥秘的认知能力，当代伟大的哲学家康德在其著作《纯理性批判》一书中指出，人类理性即认知能力并不是万能的，而是有限的。经济学中的理性则是指一种行为方式，具体地说即是经济中参与人对其所处世界的各种状态及不同状态对自己支付的意义都具有完全信息，并且在既定的条件下每个参与人都具有选择使自己获得最大效用或最大利润的能力。

经济学家认为理性是至高无上的，人们凭借理性就可以完全地认识自然与社会。经济学中对理性的含义经过这样的处理以后，就使得经济学能够充分运用数学理论发展的成果来进行分析。为了应用数学工具并更好地处理经济问题，传统经济学家们从偏好，信念及理性三个方面来界定经济主体的特征，其中信念就是个体认为不同结果将会出现的基于个体所获信息之上的条件概率。偏好则是基于不同结果的信念之上的序。理性是根据上述偏好及信念，个体获得最优决策的程度以及个体根据已经获得的信息来修正其信念的能力。这三个特征使得经济学研究的对象由现实人转向了理想化的对象，经济学越来越偏离了现实。

由理性概念而引致的缺陷首先表现在理性人具有无限的信息收集及处理能力的均衡观，认为经济系统常常处于均衡状态，非均衡只是一种暂时的现象，当受到外生因素扰动而使系统偏离均衡状态时，系统会以线性的方式回归均衡，这种机械式线性反应的均衡观来源于牛顿力学，由此而得出的比较静态分析法完全忽视了系统受到非线性扰动及连续因素的影响。其次表现在由全知全能的理性人而引致的均衡跳跃观，认为经济系统达到均衡或者从一个均衡到另一个均衡是不需要时间的，认为时间是可逆的，即经济变量与物理学的变量一样，只要条件相同系统的均衡也就相同，市场和经济对于过去的记忆是短暂的或者是没有的。这种应用经典牛顿力学分析方法来分析高度复杂的参与人经济行为使得其预测效果大打折扣。最后表现在其比较静态分析方法上，传统经济学的最基本分析方法----比较静态分析法赖以成立的基础是假定经济系统只受到外界一个个相互独立、互不重叠的冲击的影响，或者当一个因素的影响消除之后，下一因素才开始对经济系统产生影响。我们知道现实世界是普遍联系的，各种因素之间不可能相互独立，系统中任何一个因素的变动都会引起其他因素的变动，这些因素之间相互作用的时间可能很短也可能很长，各因素对最终目标会产生不同程度的影响。比较静态法却只见局部不见整体，企图通过比较不同均衡来找出系统达到均衡的条件，因此得不出符合现实的结论，其研究方法上的局限性大大降低了其理论的现实意义。

2.2 心理学研究成果及有限理性概念的提出

随着经济学家对理论研究的深入，特别近来实验经济学的迅速发展，主流经济学赖以成立的基础“理性人”假定及其基本的比较静态均衡分析法越来越受到了人们的质疑。相继出现了许多其他的研究方法，其中在经济学中影响最大的就是心理学的研究方法。心理学应用于经济分析有着非常曲折的历史。事实上，斯密、马歇尔、庇古、费雪尔和凯恩斯等一批古典经济学家都仔细地分析了偏好和信念的心理学基础。但从1940’s开始，一方面受到萨缪尔森及希克斯等新一派基于理性假定经济学家的影响，心理分析在经济学中的地位慢慢地被降低了；另一方面理性模型也遇到了许多如Allais(1952)悖论等难以给出合理解释的经济现象。于是1960’s开始，许多微观经济学家再次运用心理学研究方法来解释现实中的异常现象，宏观经济学也把经验法则和适应性预期纳入到其模型之中，正是在这一时期心理学家Simon(1957)提出了其著名的“有限理性”概念。然而，1970’s初随着Robert Lucas等人提出的理性预期理论、Selten、Kreps等倡导的强调正确信念及贝叶斯修正的博弈理论及Stiglitz、Spence等研究的信息经济学理论相继成为主流经济学的一部分，经济学界再一次掀起了排除渗透在经济学领域中心理学研究方法的热潮，心理的研究方法在经济学界几乎无立足之地，严格理性假定席卷整个经济学界。行为经济学的发起者Amos Tversky在经济学界根本找不到志趣相投者。1970’s末期，随着心理学家Amos Tversky与Kahneman合作发表了一系列应用心理分析方法来研究经济学问题的原创性文章，如1974年他们在Science发表的Judgment under uncertainty: Heuristics and biases，1979年他们合作在Econometrica发表Prospect theory: An analysis of decision under risk，慢慢消除了经济学界中存在的对心理学分析方法的偏见，此后应用心理分析方法来解释经济现象的文献见诸于各种经济学期刊之中，心理分析方法也渐渐地成为了主流经济学的研究方法之一。

进入1980’s，随着经典博弈理论、生态理论及心理学理论研究的深入发展，特别是心理学家西蒙把其在心理学领域研究的成果直接应用经济分析并因此获得了诺贝尔经济学奖，极大地激励着经济及社会学家从现实人行为出发来解释经济及社会现象。心理学研究表明人类认知过程首先表现为人们通过一种“感知秩序”进行学习活动，并形成分散的非同质的知识，其中“感知秩序”是指人的理解力、知识和人类行动之间的关系；其次表现为个体通过学习所达到的理性程度的有限性，组织学习个体学习行为的整合而形成的多层次“理性结构”，个体理性便会在一个累积性的组织或制度环境中得到塑造和提高并发挥作用，在这个过程中，个体学习行为总会受到组织、习惯和文化等制度性的限制和影响。西蒙认为人类并不是完全理性而是有限理性的，因为人类认知能力有着心理的临界极限，人类进行推理活动需要消耗大量的能量，推理也是一种相对稀缺的资源，另外决策者决策时需要大量的信息，而这些信息是不可能免费获得的，获得决策所需要的信息是需要大量成本的。考虑到参与人有限的知识水平、有限的推理能力、有限的信息收集及处理能力，经济主体的决策行为并非总是最大化的结果，其决策受到参与人所处的社会环境、过去的经验、日常惯例及其他人相似情形下的行为选择等因素的影响。在有限理性条件下，由于参与人无法免费获得决策所需要的全部信息，并且参与人即使获得了决策所需要的全部信息也可能由于有限的计算能力而无法得出最优决策。因此，参与人只能采取模仿、学习等简单的直观决策方法或一些固定的常规来进行决策。人类的决策结果受到复杂的认知过程的影响，不同的人或者同一个人在不同时间即使给出相同的条件也可能会得出不同的决策结果，即决策结果受到认知过程的路径影响。

2002年诺贝尔经济学奖得主之一心理学家丹尼尔·卡内曼(Daniel Kahneman)将源于心理学的综合洞察力应用于研究在不确定条件下参与人的决策过程及行为结果并展示了人为决策是如何异于标准经济理论预测的结果。在1979年，他与有着深厚数学及哲学背景的心理学家特韦尔斯基（Tversky）提出了震撼经济学界的“前景理论”(Prospect theory)。他们的发现激励了新一代经济学研究人员运用认知心理学来研究经济学，使经济学的理论更加丰富。一个理论获得诺贝尔经济学奖不仅是对获奖者过去成就的肯定，更主要说明了获奖理论将会成为主流经济学未来的发展方向。2002年诺贝尔经济学奖授予给丹尼尔·卡内曼标志着经济学的研究对象从传统的“经济人”转向现实的“社会人”，经济学直面现实。如何从有限理性出发来研究参与人的行为，许多经济学家对之进行了广泛而深入的研究并提出了许多理论，在这些理论之中影响最大且受到了经济学界普遍接受的理论即进化博弈理论。

2.3 进化博弈理论的产生及其发展

进化博弈理论源于对生态现象的解释，1960年代生态学家Lewontin就开始运用进化博弈理论的思想来研究生态问题。生态学家从动植物进化的研究中发现，动植物进化结果在多数情况下都可以用博弈论的纳什均衡概念来解释。然而，博弈论是研究完全理性的人类互动行为时提出来的，为什么能够解释根本无理性可言的动植物的进化现象呢？我们知道动植物的进化遵循达尔文“优胜劣汰”生物进化理论，生态演化的结果却能够利用博弈理论来给予合理的解释，这种巧合意味着我们可以去掉经典博弈理论中理性人假定的要求。另外，1960年代生态学理论研究取得突破性的进展，非合作博弈理论研究成果也不断涌现并日趋成熟，进化博弈理论具备了产生的现实及理论基础。

进化博弈理论应用于研究经济学问题在学术界曾经引起极大的争议，争论的焦点在于理性假定。当时由于理性概念在经济学界已经根深蒂固。多数人认为利用研究生态演化的进化博弈理论来研究参与人的行为是不合适的。因为动植物行为是完全由其基因所决定的，而经济问题则涉及到具有逻辑思维及学习、模仿能力的理性参与人的行为，因此，借助于进化博弈理论来研究远比动植物复杂的人类行为显然是行不通的。但随着心理学研究的发展及有限理性概念的提出，越来越多的经济学家应用进化博弈理论来解释经济现象并获得了巨大的成功，利用进化博弈理论来研究并解释经济现象的文献大量出现于各种经济学期刊了。尽管如此，利用进化博弈理论来解释经济现象还是需要对该理论的基本分析框架作出相应的调整。如果去掉参与人偏好、信念及理性假定等条件，那么参与人是如何作出决策的呢？进化博弈理论在处理有限理性参与人决策问题时，常常假定参与人遵循某种比贝叶斯法则更简单的行为规则，这种行为规则应该告诉如何采取行动及如何根据经验来改变行为选择，这样参与人只要知道什么会发生，而不必知道为什么会发生。

1970年代，生态学家Maynard Smith and Price（1973）结合生物进化论与经典博弈理论在研究生态演化现象的基础上而提出了进化博弈理论的基本均衡概念----进化稳定策略（Evolutionarily stable stragegy ESS），目前学术界普遍认为进化稳定策略概念的提出标志着进化博弈理论的诞生。此后，生态学家Taylor and Jonker（1978）在考察生态演化现象时首次提出了进化博弈理论的基本动态概念----模仿者动态（Replicator Dynamics）。至此，进化博弈理论有了明确的研究目标。

1980年代以后，随着新古典经济学及博弈论固有的缺陷逐渐被人们所认识，有限理性概念得到了学术界的普遍认可，加之进化博弈理论在解释生态现象时获得的巨大成功，特别是经济学界于1992年在康奈尔大学召开的进化博弈理论学术会议，正式确立了该理论的学术地位。一大批如Larry Sameulson、Ken Binmore、Peyton Young等经济学家从不同的角度对传统的进化博弈理论分析框架进行拓展，并使之逐渐转化为描述经济行为的理论。目前，进化博弈理论的基本理论体系虽然已经形成但还是相当粗糙。因此，它仍然处于不断发展和完善的阶段，但该理论提供了比传统理论更具现实性且能够更准确地解释并预测参与人行为的研究方法，从而得到了越来越多的经济学家、社会学家、生态学家的重视，我们有理由相信该理论成为主流经济学的一部分已经为时不远。

三、进化博弈理论的基本内容

进化博弈理论结合经典博弈理论及生态理论研究成果，并以有限理性的参与人群体为研究对象，利用动态分析方法把影响参与人行为的各种因素纳入其模型之中，并以系统论的观点来考察群体行为的演化趋势。

进化生态学与博弈论的结合至少已有三十几年的历史，初看起来使人觉得奇怪，因为博弈论常常假定参与人是完全理性的，而基因和其他的演化载体常常被假定是以一种完全机械的方式运动。然而一旦用参与人群体来代替博弈论中的参与者个人，用群体中选择不同纯策略的个体占群体中个体总数的百分比来代替博弈论中的混合策略，那么这两种理论就达到了形式上的统一。尽管这两种理论在形式上达到了统一，但进化博弈理论与经典博弈理论还是存在本质区别。在进化博弈理论中每个参与人都是随机地从群体中抽取并进行重复、匿名博弈，他们没有特定的博弈对手 ④。在这种情况下，参与人既可以通过自己的经验直接获得决策信息，也可以通过观察在相似环境中其他参与人的决策并模仿而间接地获得决策信息，还可以通过观察博弈的历史而从群体分布中获得决策信息。对参与人来说，观察群体行为的历史即估算群体分布是非常重要的，首先，群体分布包含了对手如何选择策略的信息。其次，通过观察群体分布也有助于参与人知道什么是好的策略什么是不好的策略。参与人常常会模仿好的策略⑤ 而不好的策略则会在进化过程中淘汰，模仿是学习过程中的一个重要组成部分，成功的行为不仅以说教的形式传递下来，而且也容易被模仿。参与人由于受到理性的约束而其行为是幼稚的（Naive），其决策不是通过迅速的最优化计算得到，而是需要经历一个适应性的调整过程，在此过程中参与人会受到其所处环境中各种确定性或随机性因素影响。因此，系统均衡是达到均衡过程的函数，要更准确地描述参与人行为就必须考察经济系统的动态调整过程，动态均衡概念及动态模型在进化博弈理论中占有相当重要的地位。

3.1 进化博弈理论基本模型分类

进化博弈理论的基本模型按其所考察的群体数目可分为单群体模型(Monomorphic Population Model)与多群体模型(Polymorphic Populations Model)。单群体模型直接来源生态学的研究，在研究生态现象时，生态学家常常把同一个生态环境中所有种群看作一个大群体，由于生物的行为是由其基因唯一确定的，因而可以把生态环境中每一个种群都程式化为一个特定的纯策略。经过这样处理以后，整个群体就相当于一个选择不同纯策略（纯策略集的数目就相当于群体中的种群数）的个体。群体中随机抽取的个体两两进行的都是对称博弈，有些文献中称这类模型为对称模型（Symmetry model）。严格地说，单群体时个体进行的并不是真正意义上的博弈，博弈是在个体与群体分布所代表的虚拟参与人之间进行。如第一部分的老鹰----鸽子博弈，该生态环境中有两个种群老鹰与鸽子，它们代表两个不同的纯策略，用进化方法进行处理时认为该生态群体中每个个体都有两种可供选择策略即老鹰策略与鸽子策略，此时的博弈并不是在随机抽取的两个个体之间进行，而是每个个体都观察群体状态（选择老鹰策略与鸽子策略个体数在群体中所占的比例），给定此状态它就可以计算自己选择不同策略所得的期望支付（严格地说这并不是期望支付，但为了说明的方便本文仍然借用该概念）进而确定选择哪一个策略不选择哪一个策略，对物种而言这就意味着种群数量的增加或减少。

多群体模型是由Selten (1980)首次提出并进行研究的，他在传统单群体生态进化模型中通过引入角色限制行为（Role Conditioned Behavior）而把对称模型变为了非对称模型。在非对称博弈个体之间有角色区分，此时可以从大群体中区分出不同的小群体，群体中随机抽取的个体之间进行真正意义上的两两配对重复、匿名非对称博弈，有时又称之为非对称模型（Asymmetry model）。如果我们把系统选择博弈中的宿舍变成学校（整个学校相当于一个大群体）而把十个人变成十个班（每一个班看成是一个小群体，且同一班的同学无角色区分即与单群体情形一样），每个班的学生都有多种选择，此时该校学生所进行的计算机系统选择博弈就是非对称博弈。非对称博弈模型并不是对单群体博弈模型的简单改进，由单群体到多群体涉及到一系列的如均衡及稳定性等问题的变化。Selten(1980)证明了“在多群体博弈中进化稳定均衡都是严格纳什均衡⑥ ”的结论，这就说明在多群体博弈中，传统的进化稳定均衡概念就显示出其局限性了。同时，在模仿者动态下，同一博弈在单群体与多群体时也会有不同的进化稳定均衡。

按照群体在演化过程中所受到的影响因素是确定性的还是随机性的，进化博弈模型可分为确定性动态模型和随机性动态模型。确定性模型一般比较简单并且能够较好地描述系统的演化趋势，因而，理论界对之进行较多的研究。随机性模型需要考虑许多随机因素对动态系统的影响，一般比较复杂，但该类模型却能够更准确地描述系统的行为，近年来理论界对之也进行广泛的探讨[对随机动态的详细讨论可以参阅这方面的经典文献Foster, D., and P. Young.(1990), Fudenberg, D. and C. Harris (1992), Kandori, M. G. Mailath, and R. Rob(1993)]。

3.2 进化博弈理论基本均衡概念-----进化稳定策略

进化博弈理论的基本均衡概念---进化稳定策略⑦ [文献2、5有详细介绍]是由Maynard Smith and Price（1973）及Maynard Smith(1974)在研究生态演化问题时提出来的，其直观思想是：如果一个群体（原群体）的行为模式能够消除任何小的突变群体，那么这种行为模式一定能够获得比突变群体高的支付，随着时间的演化突变者群体最后会从原群体中消失，原群体所选择的策略就是进化稳定策略。系统选择进化稳定策略时所处的状态即是进化稳定状态，此时的均衡就是进化稳定均衡。下面给出Maynard Smith and Price（1973）对进化稳定策略的定义（此后本文称之为原初定义），用符号表示如下：

说是进化稳定策略，如果，存在一个<，不等式对任意都成立。其中A是群体中个体博弈时的支付矩阵；y表示突变策略；是一个与突变策略y有关的常数，称之为侵入边界（Invasion Barriers）；表示选择进化稳定策略群体与选择突变策略群体所组成的混合群体。实际上相当于该吸引子对应吸引域的半径，也就说进化稳定策略考察的是系统落于该均衡的吸引域范围之内的动态性质，而落于吸引域范围之外是不考虑的，所以说它只能够描述系统的局部动态性质。至于系统是如何进入吸引域的原初的进化稳定策略定义所没有给予足够的重视。

要准确地理解进化稳定策略概念就必须正确理解突变者和侵入边界的含义。我们可借助于前面的两个例子来理解。在老鹰、鸽子博弈中，当该生态环境中只有老鹰（或只有鸽子）时，这时系统已经处于均衡状态，但它们都是不稳定的均衡，因为这两个均衡都可以被突变者侵入。开始时，假定该生态环境处于老鹰均衡，如果由于某种原因而进入鸽子时，那么随着时间的演化，整个生态系统最终就会稳定于一半为老鹰一半为鸽子的状态，即混合策略纳什均衡是进化稳定的。这说明该博弈中两个纯策略纳什均衡是不稳定的。因为，当系统处于纯策略所表示的状态时，只要存在突变者系统就会离开这种状态，所以它们都不是进化稳定的。相反混合策略纳什均衡却不一样，即当系统处于一半是老鹰一半是鸽子时，如果由于某种因素使得系统偏离该状态，那么系统会自动恢复到原来状态。另外，在系统选择博弈中突变者、侵入边界就更为明显，所谓突变者即是指选择进化稳定策略以外的策略者，且侵入边界与不同的均衡有关。该博弈有两个纯策略纳什均衡和一个混合策略纳什均衡（），前一个均衡所对应的侵入边界就是，也就是说如果选择操作系统的学生数占群体总数的比例大于（即学生数大于4），那么选择操作系统的突变者就不可能侵入到该群体中，如果选择操作系统的学生数占群体总的比例小于（即学生数小于4），那么选择操作系统的突变者就会侵入到该群体中而原来选择操作系统的学生会转而学习操作系统。

最初进化稳定策略定义有比较苛刻的条件限制，如单群体、群体中个体数目无限大、系统只受到不连续且互不重叠冲击的影响等。这些条件大大地限制该定义的应用，随着学术界对进化博弈理论研究的深入，许多理论家们从不同的角度对最初定义进行了拓展，如Selten 1980首次给出了适应于描述多群体均衡的定义；Schaffer 1988首次给出了适应于描述有限规模群体的均衡定义；Foster and Young（1990）首次给出了适应于描述连续随机系统的均衡定义等等（有关对进化稳定策略进行拓展的讨论见文献[5]）。最初定义是在解释生态现象时提出来的，如果进行经济分析，时需要进行相应的改变。在分析生态现象时，把每一个种群的行为都程式化为一个策略，因此进化的结果将会是突变种群的消失（消失的原因在于生物的行为是由其遗传基因唯一确定的）。如果用于经济分析，那么进化的结果将是那些选择突变策略的个体最终会改变策略而选择进化稳定策略（因为人类可以通过学习、模仿等来改变自己所选择的策略）。

经典博弈理论中的核心概念纳什均衡即是指一种策略组合，在该策略组合下任何个人单独偏离都不会变得比不偏离好。纳什均衡是一个静态概念，不能描述系统的动态性质，用数学语言来说它是动态系统的不动点，纳什的成功就是在于他应用拓扑学的不动点定理证明了纳什均衡的存在性。进化稳定策略必定是纳什均衡策略，它是纳什均衡的精练，文献[3]对此有详细的介绍。在进化稳定策略的定义中引入突变者及侵入边界使之能够更好地描述系统的局部动态性质。第一部分的两个例子中，按照纳什均衡的概念是无法得知两个系统最终会选择哪一个均衡，但利用进化稳定策略却可以说明系统最终会稳定哪一个均衡并可以分析系统达到不同均衡的条件，在某种程度上，较好地解决了多重均衡选择问题。

3.3 进化博弈理论基本动态概念----模仿者动态

进化博弈理论来源于生态学的研究，该理论基本上从“优胜劣汰”的进化论观点来看待群体行为的调整过程。一般的进化过程都包括两个可能的行为演化机制：选择机制(Selection Mechanism)和突变机制（Mutation mechanism）。选择机制是指本期中能够获得较高支付的策略，在下期被更多参与者选择；突变是指参与者以随机（无目的性）的方式选择策略，因此突变策略可能获得较高支付也可能获得较低支付，突变一般很少发生。新的突变也必须经过选择，并且只有获得较高支付的策略才能生存（Survive）下来。进化博弈理论需要解决的关键问题就是如何描述群体行为的这种选择机制和突变机制。博弈理论家对群体行为调整过程进行了广泛而深入的研究，由于他们考虑问题的角度不同，对群体行为调整过程的研究重点也就不同，因而提出了不同的动态模型，如Weibull(1995) 提出的模仿动态（Imitation Dynamics）模型，认为人们常常模仿其他人的行为尤其是能够产生较高支付的行为；Börgers and Sarin(1995，1997)等提出并应用强化动态（Reinforcement Dynamics）来研究现实中参与人的学习过程；Skyrms (1986) 引入了意向动态（Deliberational Dynamics）模型对哲学中的理性问题进行了讨论；Swinkels(1993)提出了近似调整动态（Myopic Adjustment Dynamics）；Borgers and Sarin(1995)提出了刺激—反应动态（Stimulus-Response Dynamics）等等。到目前为止，在进化博弈理论中应用得最多的还是由Taylor and Jonker(1978)在对生态现象进行解释时首次提出描述单群体动态调整过程的模仿者动态（Replicator Dynamics）。所谓模仿者动态是指使用某一策略人数的增长率等于使用该策略时所得的支付与平均支付之差。下面就给出Taylor and Jonker（1978）提出的模仿者动态的微分形式：

化的而且因素之间的互动作用也是需要时间的。因此，均衡只是一种暂时现象或者在多数情况下，系统根本不可能达到的现象，要更准确地考察参与人的行为就必须运用系统论的观点，把行为互动性、因素互动性及时间因素纳入到其模型之中。

5.2 经典博弈理论的策略互动分析法及其缺陷

考虑到新古典经济学没有把参与人行为之间的互动关系纳入到其模型之中，经典博弈理论则在理性人假定的基础上把参与人行为的互动关系纳入到其模型之中进一步考察了参与人的决策问题。在我国，对人类互动行为的研究至少可以追溯到三国时期田赛马的故事，但作为一种正式理论提出来，一般认为是始于冯·诺意曼和摩根斯藤（Von Neumann and O. Morgenstern, 1944）出版的《博弈论与经济行为》一书，直到纳什（Nash 1950）在研究非合作博弈的基础上提出著名的纳什均衡（Nash Equilibrium）概念才使得博弈论成为一门完整的理论。经过近五十年的发展，终于在1994年，三位杰出的博弈论大师：纳什（John F. Nash）、泽尔藤（Rechard Selten）和海萨尼(John C. Harsanyi)获得了经济学的最高荣誉——诺贝尔经济学奖，在全球经济学界再次掀起了对博弈论的研究热潮。经典博弈论为社会科学提供了一个新的研究视角，使我们能够以全新的方法来处理各种冲突与合作的问题。博弈论作为一种理论工具，其应用相当广泛。在信息经济学中得到了充分的应用，1996年诺奖得主Mirrlees等、2001年诺奖得主Akerlof等都对信息经济学研究作出了卓越的贡献。这充分说明了博弈论在经济学的地位可见一斑。

经典博弈理论的核心概念----纳什均衡就是由普林斯顿大学数学家纳什在研究非合作博弈时提出来的。纳什均衡即是指给定其他参与人选择的情况下，每一个人单独偏离均衡都不会变得比不偏离好，显然纳什均衡是一个静态均衡概念。经典博弈理论尽管把参与人的互动行为引入到其模型之中，并认为现实中参与人不是孤立地作出自己的决策，每一个参与人的决策不仅依赖于其自身所面临的条件及其所拥有的信息，而且也依赖于其他参与人的决策选择。但该理论却面临着其自身无法克服的缺点。首先，博弈论中的互动是一种“沉默互动⑨ ”，这种互动不允许参与人之间存在任何形式的交流，即假定参与人都是一个个只会理性计算的孤立经济人而非社会人，一旦引入社会互动，许多博弈都无法进行分析，也就是说经典博弈理论中的互动并不“社会互动”而是孤立的“沉默互动”。其次，博弈论的基本均衡概念纳什均衡要求博弈各方都是理性的，并且理性是共同知识，博弈时如果某一方选择了非理，那么博弈就无法进行下去。特别地该理论在利用后向归纳法（Backward Induction）对纳什均衡进行精练时，不但要求参与人完全理性，而且还要求参与人的行为满足序贯理性（Sequential Rationality）要求。这一比理性更强的要求使得博弈论更加远离现实人。再次，在处理参与人所面临的不确定性时，不仅要求各参与人知道世界的各种状态，而且要求参与人知道每一种状态所出现的概率，并且给定一个先念信念，当出现任何新信息时，每个参与人都能够应用贝叶斯法则修正自己的先念信念，也就是说参与人不但具有很强的计算、推理能力，而且能够在一个大的状态空间上应用贝叶斯法则解决相当复杂的问题。现实中多数情况下，参与人并不都具有这种计算、推理能力。最后，博弈论碰到了其最棘手的问题就是多重均衡的处理，当博弈出现多重均衡特别是多重严格纳什均衡时，尽管许多理论家提出了一些方法（Selten（1965）提出的子博弈精炼纳什均衡概念，Selten（1975）提出的颤抖手精练纳什均衡，Kerps—wilson(1982)提出的序贯均衡，Schelling（1960）提出的聚点均衡等）来处理多重均衡问题，但始终没能获得一致认可的结论。

与新古典经济学相比，经典博弈理论虽然在其模型中纳入了行为的“沉默互动”关系，但该理论给出的研究方法仍然没能跳出新古典经济学的均衡分析框架，这种只注重结果而忽略达到结果的过程的分析方法依然把对经济系统的影响因素都看作为一个个孤立因素，依然认为影响因素与决策结果是一一对应的关系，依然没能把参与人所处社会环境等因素纳入到其模型之中，因而不能准确地描述现实中人的决策行为，其结论也仅仅具有理论意义而缺乏政策含义。

5.3 进化博弈理论局部动态分析方法的现实性

进化博弈理论利用达尔文“优胜劣汰”的生物进化论、经典博弈理论并结合心理学的研究成果，从西蒙提出有限理性（Bounded Rationality）的参与人群体出发，通过对群体行为的研究进一步得出参与人个体的行为。进化博弈理论跨越了完全理性的“经济人”与有限理性的“社会人”的鸿沟，实现了经济学研究方法革命性的突破。与传统均衡分析法相比，进化博弈理论的局部动态分析方法在以下几个方面独具特色。

5.3.1 局部动态分析法的均衡观

传统的均衡分析方法认为完全理性参与人能够对环境的任何变化作出迅速的最优反应，因而，经济系统是常常处于均衡状态的，分析参与人的行为只需要研究均衡结果，并以此来预测经济人的行为，通过比较不同均衡结果来寻找系统达到均衡的条件。这种处理方法为了数学上处理的方便而撇开现实中“因素互动”而分别考察单个因素对均衡的影响，使得理论更加缺乏现实基础。进化博弈理论则完全摒弃传统理论中非现实的“理性人”假定，直接从有限理性参与人群体出发而提出的一种全新的研究方法----局部动态法。局部动态法把经济系统达到均衡结果的过程纳入到其模型之中，认为经济系统达到均衡需要一个长期的渐进过程，均衡结果依赖于达到均衡的过程，也就是说任何一个结果都是路径依赖的，它与混沌经济学完全动态的研究方法具有某种程度的相似之处。

5.3.2 局部动态法的时间观

传统的均衡分析法并没有纳入因素互动关系并且理性计算是不需要时间的，所以得出经济系统常常是均衡的结论。进化博弈理论的局部动态法一个显著特征就是把参与人的决策过程时间及因素互动的时间纳入到其基本模型之中，强调系统达到均衡的过程，并认为经济系统由于受到各种互动行为及互动因素的影响，有些系统达到均衡可能只需要很短的时间，有些系统达到均衡可能需要很长的时间，有些系统可能无法达到均衡。时间因素对经济学研究有着非常重要的意义，如均衡分析法无法考虑宏观经济政策中“时滞”使得许多实施时有效的政策在发生作用时却出现了与原意相反的结果。时间是度量政策效率的一个很重要的因素，如果不考虑时间因素有些政策可能很有效率，但纳入时间因素，一些需要太长时间才能使系统达到意愿均衡的政策可能根本就没有效率。进化博弈理论把时间纳入到模型分析中并充分应用数学中的相图来描述经济系统达到均衡的路径，这样有利于决策者控制经济系统使之朝向既定的目标前进，也有利于决策者寻找能够最大限度地促进系统向意愿均衡转化的因素，使系统尽快达到有效率的均衡。

5.3.3 局部动态法的均衡选择观

新古典经济学研究的逻辑有理性就有均衡，然后在既定均衡下通过对不同均衡的比较来寻找系统达到不同均衡的条件，即比较静态法，最后结合条件找出希望达到的均衡，因此，该理论不存在真正意义的均衡选择问题。经典博弈理论提供的分析方法在多数情况下都存在其自身所无法处理的多重均衡问题。如老鹰与鸽子博弈及系统选择博弈中多重均衡问题。进化博弈理论的局部动态法引入突变因素就能够较好地解决了多重均衡的选择问题，在老鹰与鸽子博弈中，尽管全是老鹰（全是鸽子）都是均衡的，但这两个均衡都极不稳定即都不是进化稳定均衡，一旦有鸽子（老鹰）突变者进入该系统就会使系统偏离，随着时间的推移而使得系统趋向于混合策略进化稳定均衡即一半鸽子一半老鹰（该均衡是一个全局吸引子）；在系统选择博弈中经典博弈理论无法解释系统最终会趋于哪一个均衡，局部动态法引入了突变因素就能够很好地解决了均衡选择问题，即系统最终会趋于哪一个均衡依赖于系统的初始状态即路径依赖。进化博弈理论的基本均衡概念----进化稳定均衡描述的是当经济系统一旦进入到某一均衡的吸引域内时，系统就会对其他的突变策略具有一定程度（即在突变边界内）的抵抗力。

5.3.4 局部动态法的特殊性

新古典经济学与经典博弈理论均衡分析法都是以单个消费者、单个生产者、单个市场为研究对象来考察参与人的最优决策行为，并由此研究整个社会的资源配置问题。然而它们却碰到了如何由个体行为转化到群体行为的困难，因为这种转化过程涉及到各种互动因素的影响。一个明显的例子是经典博弈理论中囚徒困境博弈，在该博弈中两个囚徒都从个体理性出发，但得到了集体非理性均衡的结论。也就是说，均衡分析法根本无法实现从个体行为向集体行为的过渡，在此框架内寻找宏观经济的微观基础的困难是非常大的。进化博弈理论的局部动态法则从人的社会性出发，利用系统论的处理方法来看待参与人的决策行为。该理论直接以参与人的群体为其研究的逻辑起点，在考虑到影响参与人行为的社会因素、文化因素、民族习俗及个体生活习惯等因素的基础上进一步考察群体中有限理性个体的行为互动关系，很巧妙地避开由个体行为向集体行为转化问题，因而能够更加真实地反应现实人的决策过程及其决策结果。

六、结论

进化博弈理论是经济学领域的前沿理论，它来源于对生态现象的研究，虽然该理论应用于经济分析的时间不长，但它为经济学研究提供了一个全新的分析方法，较好地克服了新古典经济学及经典博弈理论中理性假定及多重均衡的困难。并且，应用进化博弈理论来研究经济系统能够获得比传统理论更准确的结果，能够更加现实地解释经济现象，因而在短期内为多数经济学家所接受。从某种意义上说引入进化博弈理论局部动态法来分析经济中参与人的行为是经济学研究方法的一次创新。

注释： ①本文把源于冯·诺意曼和摩根斯藤经纳什发展而成的博弈理论称之为经典博弈理论。 ②即无性生殖，这样假定的意思就是说后代继承其母体的策略，并且永远不改变，当然用于研究人类的行为时，需要作相应的调整。 ③所谓近视调整即是指参与人不管未来怎么样，只知道使当前的支付最大化 ④ 经典博弈理论中每一个参与人都有特定的博弈对象，并且，在重复动态博弈中，后行动者通过观察先行动者的理而利用贝叶斯法则来修正自己的先念信念，然后，在此信念下选择使自己获得最大支付的策略。 ⑤好的策略即是指能够获得较高支付的策略。 ⑥所谓严格纳什均衡即是严格占优纳什均衡。给定对手选择的情况下，每个人都通过选择严占优的策略而组成的纳什均衡。 ⑦事实上，这与Selten提出的颤抖手均衡概念具有相似性，所谓颤抖手均衡是指一个战略组合，只有当它在允许所有参与人都可能犯错误时仍是每一个参与人的最优战略的组合时才是一个均衡，其严格定义可以参阅张维迎的《博弈论与信息经济学》。其中的颤抖或者犯错误与进化稳定策略中的突变因素有差不多的含义，但它们之间存在本质上的不同。 ⑧由模仿者动态方程进行支付变换，可得。 ⑨这一点我们可以从博弈论一个著名的捐款----回赠实验中看出，募捐者要求每一个人都自愿捐款，最终募捐者以3倍于捐款总额的钱平均分派给每个捐款者，为了使得博弈能够分析下去，募捐者要求自愿捐款时每个人都不得与其他人讨论，否则该博弈就无法进行下去，因此，本文称博弈论中的互动是一种沉默互动而非社会互动。这个实验充分体现了古典经济学及博弈论研究对象上的一致性，即它们都是研究单个个体的行为而排除了人的一个重要特征----社会性。参考文献

[1] 王则柯（1999）：《博弈论平话》，中国经济出版社。

[2] 张维迎（1999）：《博弈论与信息经济学》，上海三联出版社。

[3] 张良桥，冯从文（2001）：《进化稳定均衡与纳什均衡：兼谈进化博弈理论的发展》，《经济科学》，3，103-111。

[4] 张良桥（2001）：《理性与有限理性：论经典博弈理论与进化博弈理论之关系》，《世界经济》，8，74-78。

[5] 张良桥（2003）：《论进化稳定策略》，《经济评论》，2，70-74。

[6] 张良桥，郭立国（2003）：《论模仿者动态》，《中山大学学报自然科学版》，3。

[7] 杨小凯（2000）：《新兴古典经济学和超边际分析》，中国人民大学出版社。

[8] 青木昌彦, 奥野正宽(1999):《经济体制的比较制度分析》, 魏加宁等译, 北京: 中国发展出版社.

[9] Allais, M., (1952): The foundations of a positive theory of choice involving risk and a criticism of the postulates and axioms of the American school, in expected utility hypotheses and the Allais Paradox, edited by M. Allais and O. Hagen, Dordrecht: Teidel.

[10] Börgers, T. and R. Sarin (1997): Learning Through Reinforcement and Replicator Dynamics, Journal of Economic Theory, 77, 1-14.

[11] Börgers, T. and R. Sarin, (1995): “Learning through Reinforcement and Replicator dynamics”, Mimeo University College London.

[12] Conlisk, J.(1980): Costly Optimizers Versus Cheap Imitators, Journal of Economic Behavior and Organization, 1980, (1): 275-293.

[13] Cowen , Tyler, and Randall Kroszner, The Development of the New Monetary Economics, Journal of Political Economy , 1987, (95): 567-590.

[14] Crawford, Vincent, P. (1989): “An Evolutionary explanation of Van Huyck. Battalio, and Beil’s Experimental Results on Coordination,”Manuscript, Department of Economics, University of California, San Diego.

[15] Daniel Kahneman and Amos Tversky (1979):Prospect theory: An analysis of decision under risk, Econometrica, 1979, (47), 263-291.

[16] Foster, D., and P. Young.(1990) Stochastic Evolutionary Game Dynamics, Theoretical Population biology, (38): 219-232.

[17] Fudenberg, D. and C. Harris (1992): Evolutionary Dynamics with Aggregate Shocks, Journal of Economic Theory, 1992, (57): 420-441.

[18] Jones, R.. The Origin and Development of Media of Exchange, Journal of Political Economy, 1976, (84): 757-775.

[19] Kahneman, D. and A. Tversky(1974) : judgment under uncertainty: heuristics and biases, Science, 185, 1124-1131.

[20] Kahneman, D. and A. Tversky(1979) : Prospect theory: An analysis of decision under risk, Econometrica, 47, 263-291.

[21] Kandori, M. G. Mailath, and R. Rob (1993): Learning, Mutation, and Long-run Equilibria in Games, Econometrica, 61, 29-56.

[22] Kreps. D., and Wilson,(1982): Signaling Games and Stable equilibrium, Econometrica, 50, 863-894.

[23] Lewontin, R. C. (1960): Evolution and the Theory of Games. Journal of Theoretical. Biology. 1, 382-403.

[24] Maynard Smith, J. and G. R. Price.(1973): “The Logic of Animal Conflicts”, Nature, , (246): 15-18.

[25] Nash, Jr. John F.(1950), The Bargaining Problem. Econometrica.

[26] Nash, Jr. John F.(1951), Noncooperative games, Annals Mathematics 54.

[27] Schelling, T. (1960): The Strategy of Conflict, Harvard University Press, Cambridge, MA.

[28] Schelling, Thomas(1960), Strategy of Conflict, Harvard U. Press.

[29] Selten, P. (1978): The chain store paradox,Theory and decision 9, 127-159.

[30] Selten, R. (1980): A Note on Evolutionarily Stable Strategies in Asymmetric Games Conflicts, Journal of Theoretical. Biology. 84, 93-101.

[31] Selten, R.(1975), Reexamination of the Perfectness Concept for Equilibrium Points in Extensive Games, International Journal of Game Theory, 4, 25-55.

[32] Selten, R., (1965): Spieltheoretische Behandlung Eines Pligopolmodells mit Nachfagetragheit, Zeitschrift fur die gesamte Staatswissenschaft, 12, 301-324.

[33] Simon, H. A., (1955): A behavioral model of rational choice, Quarterly Journal of Economics, 69,99-118.

[34] Skyrms, Brian (1986): Deliberational Equilibria, Topoi, 5, 59-67.

[35] Smith, V. L. (1979): Indirect revelation of the demand for public goods: An overview and critique, Scottish Journal of political economy, 25, 183-189.

[36] Swinkels, J. (1993): Adjustment Dynamics and rational Play in Games, Games and Economic Behavior, .5, 455-484.

[37] Taylor, P. D. and L. B. Jonker.(1973): Evolutionarily Stable Strategy and Game Dynamics, Mathematical Social. Science (40): 145-156.

[38] Tversky, A. and D. kahneman(1992): Advances in prospect theory: cumulative representation under uncertainty, Journal of risk and uncertainty, 5, 297-323.

[39] Von Neumann, John and Oskar Morgenstern(1944), Theory of Games and Economic Behavior, Princeton U Press.

[40] Weitzman, Martin(1984): The Share Economy.Cambridge, Harvard University Press.

博弈论的局限性篇3

【关键词】初步博弈论，基本理论，日常应用

前言

博弈论是二人在平等的对局中为达到取胜的目的而各自利用对方的策略变换自己的对抗策略的思想。博弈论思想古已有之，我国古代的《孙子兵法》就是最早的一部博弈论著作。最初主要研究象棋、中的胜负问题，人们对博弈局势的把握只停留在经验上，没有向理论化发展。1928年，冯·诺依曼证明了博弈论的基本原理，从而宣告了博弈论的正式诞生。1944年，冯·诺依曼和摩根斯坦共著的《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域，奠定了这一学科的基础和理论体系。此外，塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的学科。

一、博弈论的概念

博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学。这里，策略性环境是指，每一个人进行的决策和采取的行动都会对其他人产生影响；策略性决策和策略性行动是指，每个要根据其他人的可能反应来决定自己的决策和行动。

二、博弈论的类型

博弈论有两种基本的类型，即“同时博弈”和“序贯博弈”。前者是参与人同时进行决策或行动的博弈，后者是参与人的决策和行动有先有后的博弈。这里，所谓的“同时”或“先后”主要是看参与人在决策时是否知道其他参与人的决策，而并不一定取决于物理意义上的时间。当然，除了上述两种基本的类型，还有其他不同的分类方式。

三、博弈的要素

博弈的目的是利益，利益形成博弈的基础。经济学中最基本的假设就是经济人或理性人的目的在于使收益最大化。参与博弈者正是为了自身收益的最大化而相互竞争。也就是说，参与博弈的各方形成相互竞争、相互对抗的关系，以争得利益的多少来决定胜负，一定的外部条件又决定了竞争和对抗的具体形式，这就形成了博弈。博弈的要素大致上可以包含以下四点：⑴2个或2个以上的参与者；⑵要有参与各方争夺的资源或收益；⑶参与者有自己能够选择的策略；⑷参与者拥有一定量的信息。

四、日常生活中的博弈策略

正如王春元在其编著的《博弈论的诡计》中所言“博弈论的目的在于巧妙的策略，而不是解法”。学习博弈论的目的，不是为了享受博弈分析的过程，而在于赢得更好的结局。博弈的思想既然来自现实生活，它就既可以用数学工具来高度抽象地表述，又可以用日常事例来具体说明并运用。博弈时时存在，它就在你的身边。

在博弈论中，一个著名例子就是塔克给出的“囚徒困境”模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设警察怀疑甲乙两人作案，但他们手中并没有掌握确凿证据，于是警方将两人分别置于不同的两个房间内进行审讯，并分别告知两名犯罪嫌疑人：对他们犯罪事实的认定及相应的量刑完全取决于他们自己的供认。

两名囚徒面临的选择及带来的后果组合可以查看下表。

从上表中可以知道：每个犯罪嫌疑人都有两种可供选择的策略：供认或不供认。而且，每个犯罪嫌疑人选择的最优策略不依赖于同伙的策略选择。基于人是理性的这一前提，由于犯罪嫌疑人不知道对方的想法，最理性的博弈策略，就是选择供认。这时的策略，可称之为占优策略。不管甲乙两人谁供认，都将得到减轻惩罚的结果。显然，这一策略一定是所有其他参与人选择某一特定策略时该参与者的占优策略。但值得注意的一个问题是，采用优势策略得到的最坏结果，并不一定比采用另外一个策略得到的最佳结果要好。

除了上例，博弈论在生活中的应用还有很多，譬如：重复博弈的应用。以我国俗语“以牙还牙，以眼还眼”来说，在没有法律和道德的约束下，对自己最有利的一种策略是一报还一报。重复的博弈理论导致了合作的产生，但是谁也不能保证合作的继续，因为合作的代价是建立在损害个人利益基础之上的。如果个人放弃未来收益或背叛当前收益大于未来收益则背叛风险将仍然存在。

五、博弈论的局限性

“任何一个理论体系必定是不完全的，任何理论都包含了既不能证明为真也不能证明为假的命题，对这个世界的最好描述可能只有其本身。”博弈论也是如此，其基本假设之一就是人是理性的。所谓理性的人是指行动者具有推理能力，在具体策略选择时的目的是使自己的利益最大化。而现实生活中，人们在做决策时往往是有限理性的。因为人类的精力和时间是有限的，人不可能具备完全理性，不可能掌握所有知识和信息。花费大量的时间、财力、物力去寻求所有信息，企图做出最优决策，有时反而是最不理性的举动。

六、博弈论的意义

从理论上讲，博弈论是研究理性的行动者相互作用的形式理论，而实际上正深入到经济学、政治学、社会学等并被各社会科学所应用。

博弈论代表着一种全新的分析方法和全新的思想。诺贝尔经济学奖获得者保罗·萨缪尔逊如是说“要想在现代社会做个有价值的人，你就必须对博弈论有个大致的了解”，也可以这样说，要想赢得生意，不可不学博弈论；要想赢得生活，同样不可不学博弈论。

参考文献：

[1]王春永（2007.1）.博弈论的诡计.北京.中国发展出版社[M]

博弈论的局限性篇4

关键词网络营销；纳什均衡；博弈分析；合作；关系营销

我们的社会是人与人之间的互动体，一个人做决策的时候，不仅要考虑自己有些什么选择，而且必须考虑他人有些什么选择，因为没有任何人的行为是给定的，每个人得到什么是所有人选择的结果。不仅个人如此，企业、政府、国家等所有组织都如此。而博弈论是研究和预测互动情况下个人和组织的行为以及这些游戏规则的形成和演变的学科。纳什均衡是很实用的博弈论工具，因为它会指出结果在何时会稳定，并指出没有人想要改变自己策略的结果。纳什均衡是所有参与人的最优战略组合：给定其他人的选择之后，没有人对自己的策略感到后悔。寻求稳定的自利结果，里面就有纳什均衡。纳什均衡可以用于营销预测。

营销是个人或群体通过创造，提供并同他人交换有价值的产品，以满足各自的需要和欲望的一种社会活动和管理过程。即：了解客户自发表达的或被诱发出来的需要；推出客户所需产品或服务；让潜在客户了解该产品或服务；让潜在客户产生购买该产品或服务的欲望；最后将该产品或服务出售给他们。

网络营销就是以国际互联网为基础，利用数字化的信息和网络媒体的交互性来辅助营销目标实现的一种新型的市场营销方式。

世界货币基金组织在2008年10月份和2009年1月份分别对于全球经济和全球各国家的经济做了一些预测。预测的结果是经济危机将更加普遍，09年1月份全球各国都下调了经济发展的速度，营销费用的缩减，在一季度有一个很大的体现。在此情况下，正是相对低成本的网络营销发挥作用的机会。

网络经济规模不断增长，艾瑞的《艾瑞网络经济2008年度报告及热点分析》显示，中国网络整体规模达到了801亿，相比去年增长了38.7%，预计未来几年的增长速度都不会低于30%。所以，未来的互联网将会保持很高的增长速度，给国内的网络营销带来信心。

在国内外环境促成网络营销机遇的时候，如何更好地发挥网络营销的作用呢？下面我们先对网络营销做一个简单博弈分析：

一、纳什均衡

纳什均衡要求理性共识和一致预期，基于网络的一系列便利属性，使网络营销各参与方的理性共识和一致预期的条件更有可能达成。

互联网充当沟通的媒介，不管身处何方，志同道合的人可以聚集在一起，进行商业合作。技术方便了人们进行实时的沟通，分享信息。

互联网全球化，开辟了新的市场，人们可以在全球范围内合作，员工可以跨国协调，销售人员也能进行远程信息交换；互联网延伸，提供了自动化沟通的便利，企业可以扩展市场，消费者可以在第一时间告知他人自己的品牌感受；互联网跨时空，消费者对企业的沟通效率抱有更大的期望，希望企业的工作流程能更快一些；互联网信息对等，企业可以对信息进行规模定制，使消费者对产品和价格等信息有更多更快的了解；互联网信息存储的可扩容性，企业可以根据需要租用数据库空间和服务空间；互联网标准公开，为实行流畅的供应链管理和客户关系管理，企业可以相互获取对方的数据库信息，在这方面，大小企业是平等的。

二、重复博弈

消费者是商家的客户，商家是供应商的客户。重复博弈是指同样结构的博弈重复多次，其中每次博弈被称为阶段博弈。网络营销过程具有重复博弈的特征。即：网络营销过程前一阶段的博弈不改变后一阶段的结构；网络的便利，让所有参与人观察到营销博弈过去的历史；参与人的总支付（报酬）是所有阶段博弈支付的贴现之和。

囚徒困境是一种类型的纳什均衡，在囚徒困境中，所有局中人在毫不留情的自利驱使下，是彼此的利益同归于尽。博弈理论告诉我们，在囚徒困境中，一次博弈的唯一均衡是不合作，但如果博弈无限重复，合作就有可能出现。

囚徒困境的一般表示是：

满足：R>T>P>S；S+R

那么，均衡结果是合作的条件是：δ≥（R-T）÷（R-P）

其中：δ表示未来收益的重要程度；（R-T）表示不合作的诱惑；（R-P）表示合作的剩余（利益）

具体解释如下：给定未来的重要程度，不合作的一次性诱惑（R-T）相对于合作带来的利益（R-P）越小，合作的可能性越大；给定不合作的一次性诱惑（R-T）和合作带来的利益（R-P），未来越重要，合作的可能性越大。

对网络营销交易关系的博弈分析如下：

假设有如下两个交易关系，那么：在交易关系Ⅰ中，合作要求δ≥（4-3）÷（4-0）=0.25；在交易关系Ⅱ中，合作要求δ≥（9-5）÷（9-4）=0.8；如果两种交易在同样两个人之间进行，只要δ≥0.25两种交易中都会合作。

再假设，实际的δ=0.6，

如果以上两种交易发生在不同两人之间，合作只会出现在市场Ⅰ中，不会出现在市场Ⅱ中；如果以上两种交易发生在相同两人之间，在市场Ⅰ中和市场Ⅱ中合作都会出现在。

另一种假设，在交易关系Ⅱ中的当事人双方还存在另外的社会关系，这一社会关系对每一方的现值是V，如果交易中出现欺骗，这一价值就不存在。

那么，合作条件为：δ≥（4-V）÷（5-V）

一般情况是，市场交易常常镶嵌在复杂的社会关系中，这种关系可以提高交易的合作程度，这也正是人们愿意发展社会关系的原因。所以，网络营销应以关系营销为基础，建立长期关系，创造未来重要的条件。

Morgan和Hunt(1994)认为“关系营销是指所有的旨在建立、发展和保持成功的关系的一切活动”。而关系营销恰好是把一次易转变成多次重复的关系交易的过程。

重复博弈理论告诉我们，在完全信息博弈中，只要未来足够重要，合作行为可以是无限次重复博弈的精炼纳什均衡。所以创造未来足够重要的条件，可以促使合作形成。通过建立长期关系是创造未来重要性的条件。如上下游企业之间的博弈是就是通过合作,建设企业的供应链，建立长期稳定的关系，实现共赢。

重复博弈理论还告诉我们，如果参与人的类型是不完全信息，只要博弈进行的足够长，合作在有限次重复博弈中仍然可能出现。如商家与消费者之间的博弈：每个消费者一般只购买一次，而商家重复出售产品给众多消费者，这时，只要消费者足够多，并且每个消费者能观察到前一个消费者购买的产品的质量，合作仍有可能出现。如淘宝店的购买者评价，就可以让每个消费者能观察到前一个消费者购买的产品的质量，从而为后续交易提供参考信息，并为后续合作的创造条件。

产品质量博弈：如果δ≥0.5，构成一个纳什均衡从战略组合是：商家，开始生产高质量产品，继续生产高质量产品除非生产过低质量产品；如果上一期生产了低质量产品，之后永远生产高低量产品；消费者，第一个消费者购买，只要低质量事件没有发生过，之后的消费者继续购买；一旦发现低质量，之后的消费者不再购买；结果是：（购买，高质量），所以，网络营销需要以高质量的产品和服务为基础。

价格博弈：有很多家公司在卖相同的产品时，限制价格竞争几乎是不可能的事，只要一般的价格高于生产成本，各家公司就会试图把价格降得比对手稍微低一点，以便抢占个多的市场。不幸的是当每个人都这么做的时候，价格就会下跌到成本附近，使产品无路可图。这种零售价格的竞争同样会危及供应商。

假设一家高级运动鞋制造商，以每双150元的价格批发给零售店，零售店以300元的价格卖给顾客。顾客在零售店购买运动鞋时，一定先试穿体验。如果网上有一家店，以250元的价格卖这种运动鞋，可是网上零售店不能为顾客提供试穿服务。聪明的顾客可能会先去实体商店试穿，如果喜欢，就到网上商店购买。如果有很多顾客使用这种方法，实体商店肯定会停卖这种运动鞋。因此，网上商店的低价可能会使这种运动鞋的总销售量下跌。所以，博弈论认为，可以采用可置信的威胁停止价格竞争或用复杂的价格减少价格竞争是维持销量和利润。

从以上的网络营销交易博弈分析结果看，在重复的囚徒困境博弈中，不合作会伤害到各参与方，携手合作则对对方比较有利，也就是局中人可能有办法靠合作而获得一个好的结局。但如果博弈只进行一次，那么，自利会迫使各方都不合作。网络营销中，很多博弈并没有最后一次，只要存在囚徒困境的博弈一直继续重复，局中人就可能会顺理成章地一直合作，直到对方不合作为止；如果各局中人都采取这种策略，大家就可以在每一次都得到很好的结果。所以遵守承诺，减少不可置信行动，制定规范，各方共同从均衡结果中受益，进而提高信誉，保证产品和服务质量，是做好网络营销的基础。

三、从固定和博弈还是可变和博弈的角度看，网络营销的博弈大多是可变和博弈

变和博弈是相对于固定和博弈而言的，固定和博弈中，一方得到多少，另一方就会损失多少，从数学角度看，固定和博弈中，每个局中人的支付加起来，总和是固定的。固定和博弈以外的博弈就是变和博弈，变和博弈的局中人可以通过合作获利。如果把博弈比作一张饼，局中人的策略决定了饼的大小以及每个局中人得到多大块饼。在变和博弈中，饼的大小会变化，局中人既会为了尽量把饼做大而携手合作，又会为了争取最大份额的饼而互相竞争。

随着技术与经济的发展，各个行业都发生着变化，更为有效的营销模式、更为精准的服务定位，新业务整合的需求都变的更为迫切，随着媒体、媒介零碎化，需求个性化的发展会不断的深化。网络营销的新工具和新方法不断产生，网络营销机遇也在随时涌现。因而网络营销的博弈大多是变和博弈。

综上所述，网络营销无论从博弈过程还是博弈属性看，都是选择合作策略最佳。正如博弈论告诉我们的，网络营销规则是一个纳什均衡，遵守规则是每个人的利益所在。

参考文献

博弈论的局限性篇5

论文摘要：“囚徒困境”是非合作博弈的均衡即“纳什均衡”的最经典的例子。从这个例子，我们能知道“纳什均衡”的精要所在。本文从“囚徒困境”案例出发，总结出“纳什均衡”的原理，并由此去探寻日常生活中的非合作博弈。

1950年和 1951年纳什的两篇关于非合作博弈的重要论文，彻底改变了人们对竞争和市场的看法。他证明了非合作博弈极其均衡解，并证明了均衡解的存在性，即著名的“纳什均衡”，从而揭示了博弈均衡与经济均衡的内在联系奠定了现代非合作博弈论的基石。

要了解纳什均衡，首先要知道什么是非合作博弈问题。“囚徒困境”是该问题最经典的例子，我们也从该例为切入点进行探讨：

首先，一个完整的博弈应当包括五个方面的内容：第一，博弈的参加者，即博弈过程中独立决策、独立承担后果的个人和组织；第二，博弈信息，即博弈者所掌握的对选择策略有帮助的情报资料；第三，博弈方可选择的全部行为或策略的集合；第四，博弈的次序，即博弈参加者做出策略选择的先后；第五，博弈方的收益，即各博弈方做出决策选择后的所得和所失。

“囚徒困境”：两个嫌疑犯(A和 B)作案后被警察抓住，隔离审讯；警方的政策是“坦白从宽，抗拒从严”，如果两人都坦白则各判8年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判 1O年；如果都不坦白则因证据不足各判1年。

在这个例子里，博弈的参加者就是两个嫌疑犯 A和 B，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：A和 B均坦白或均不坦白、A坦白 B不坦白或者 B坦白A不坦白，是博弈的结果。在此，两个嫌疑犯 A和 B面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖，结果是大家都只被判 1年。但由于两人处于隔离情况下无法串供。所以，按照亚当·斯密的理论，每一个人都是从利己的目的出发，他们选择坦白交代是最佳策略。因为坦白交代可以期望得到最好的解决办法——释放，但前提是同伙抵赖，显然要比自己抵赖要坐 1O年牢好得多。这种策略是损人利己的策略。不仅如此，坦白还有更多的好处。如果对方坦白了而自己抵赖了，那自己就得坐 1O年牢。太不划算了!因此，在这种情况下还是应该选择坦白交代，即使两人同时坦白，至多也只判 8年，总比被判 10年好。结果，两人合理的选择是坦白，原本对双方都有利的策略(抵赖)和结局(各被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判 8年的结局被称为“纳什均衡”，也叫非合作均衡因为，每一方在选择策略时都没有“共谋”(串供)，他们只是选择对自己最有利的策略，而不考虑社会福利或任何其他对手的利益。也就是说，这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变有着广泛而深刻的意义。个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己，这样他们必然要服长的刑期。只有当他们都首先替对方着想时，或者相互合谋(串供)时，才可以得到最短时间的监禁结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。不妨让我们重温一下这位经济学圣人在《国富论》中的名言：“通过追求(个人的)自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说，“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此，从“纳什均衡”中我们还可以悟出一条真理：合作是有利的“利己策略”。但它必须符合以下黄金律：按照你愿意别人对你的方式来对别人，但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次，“纳什均衡”是一种非合作博弈均衡，在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展，甚至可以说是一场革命。

从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象：

(1)电信价格竞争

根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商 A与B，他们在电信某一领域展开竞争，一开始的价格都是 PoA(中国电信)是老牌企业，实力雄厚，占据了绝大多数的市场份额；B(中国联通)则刚成立不久，翅膀还没长硬，是政府为了打破垄断鼓励竞争而筹建起来的。

正因为 B是政府扶植起来鼓励竞争的，所以 B得到了政府的一些优惠，其中就有 B的价格可以比Po低 10％。这一举动，还不会对 A产生多大的影响，因为 A的根基实在是太牢固了。在这样的市场分配下，A、B可以达到平衡，但由于 B在价格方面的优势，市场份额逐步壮大，到了一定程度对 A造成了影响。这时候，A该怎么做?不妨假定：

A降价而B维持，则A获利 15，B损失5，整体获利10；

A维持且B也维持，则 A获利5，B获利10，整体获利15；

A维持而 B降价，则 A损失 10，B获利 15，整体获利5；

A降价且 B也降价，则 A损失 5，B损失 5，整体损失10。

从 A角度看，显然降价要比维持好，降价至少可以保证比 B好，在概率均等的情况下，A降价的收益为 15 x50％一5 x 50％ =5，维持的收益为 5 x 50％一10 x 50％ =一2．5，为了自身利益的最大化，A就不可避免地选择了降价。从 B角度看，效果也一样，降价同样比维持好，其降价收益为 5，维持收益为2．5，它也同样会选择降价。在这轮博弈中，A、B都将降价作为策略，因此各损失 5，整体损失 10，整体收益是最差的。这就是此博弈最终所出现的纳什均衡。我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象，各个局部都寻求利益的最大化，而整体利益却不是最优，甚至是最差。

许多其他行业的价格竞争都是典型的囚徒困境现象，如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。

(2)OPEC组织成员国之间的合作与背叛

“囚徒困境”告诉我们，个人理性和集体理性之间存在矛盾，基于个人理性的正确选择会降低大家的福利，也就是说，基于个人利益最大化的前提下，帕累托改进得不到进行，帕累托最优得不到实现。

上述我们在对电信价格竞争的博弈分析中，只是一次性的“囚徒困境”博弈，因此得到了互相降价的纳什均衡。而在现实生活当中，信任与合作很少达到如此两难的境地，无论在自然界还是在人类社会，“合作”都是一种随处可见的现象。比如中东石油输出国组织(Organization of PetroleumExporting Countries简称 OPEC)的成立，本身就是要限制各石油生产国的产量，以保持石油价格，以便获取利润，是合作的产物。OPEC之所以能够成立，各组织成员国之间之所以能够合作，是因为囚徒困境如果是一次性博弈的话，基于个人利益最大化，得到纳什均衡解，但如果是多次博弈，人们就有了合作的可能性，囚徒困境就有可能破解，合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解。这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。

但合作的可能性不是必然性。博弈论的研究表明，要想使合作成为多次博弈的均衡解，博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺(Credible commit．r em)，向另一方表示合作的善意，努力把这个善意表达清楚，并传达出去。如果该困境同时涉及多个对手，则要在博弈对手中形成声誉，并用心地维护这个声誉。这里“可信的承诺”是一个很牵强的翻译，“Credible commitment”并不是什么空口诺言，而是实实在在的付出。所以合作是非常困难的。所以 OPEC组织经常会有成员国不遵守组织的协定私自增加石油产量。每个成员国都这样想，只要他们不增加产量，我增加一点点产量对价格没什么影响，结果每个国家都增加产量，造成石油价格下跌，大家的利润都受到损失。当然，一些产量增加较少的国家损失更多，于是也更加大量生产，造成价格进一步下降——结果，陷入一个困境大家都增加产量，价格下跌，大家再增加产量，价格再下跌理论上，几乎所有的卡特尔都会遭到失败，原因就在于卡特尔的协定(类似囚犯的攻守同盟 )不是一个纳什均衡没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了?理论上，如果是无限期的合作，双方考虑长远利益他们的合作是会成功的。但只要是有限次的合作，合作就不会成功。比如合作 10次，那么在第九次博弈参与人就会采取不合作态度，因为大家都想趁最后一次机会捞一把，反正以后我也不会跟你合作了。但是大家料到第九次会出现不合作，那么就很可能在第八次就采取不合作的态度。第八次不合作会使大家在第七次就不合作……一直到，从第一次开始大家都不会采取合作态度。还存在其他一些“非合作博议”的情况：

(1)污染博弈

假如市场经济中存在着污染，但政府并没有管制的环境，企业为了追求利润的最大化，宁愿以牺牲环境为代价也绝不会主动增加环保设备投资。按照看不见的手的原理，所有企业都会从利己的目的出发，采取不顾环境的策略，从而进入“纳什均衡”状态。如果一个企业从利他的目的出发，投资治理污染，而其他企业仍然不顾环境污染，那么这个企业的生产成本就会增加，价格就要提高，它的产品就没有竞争力，甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到 20世纪 90年代中期，中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时，企业才会采取低污染的策略组合。企业在这种情况下，获得与高污染同样的利润，但环境将更好。

(2)贸易自由与壁垒

这个问题对于刚刚加入 WTO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题，也是一个“纳什均衡”，这个均衡是贸易双方采取不合作博弈的策略，结果使双方因贸易战受到损害。x国试图对 Y国进行进口贸易限制，比如提高关税，则 Y国必然会进行反击，也提高关税，结果谁也没有捞到好处。反之，如 x和 Y能达成合作性均衡，即从互惠互利的原则出发，双方都减少关税限制，结果大家都从贸易自由中获得了最大利益，而且全球贸易的总收益也增加了。

以上是运用博弈论中的经典案例“囚徒困境”对现实经济生活的一些简单的理论上的分析，虽然在现实生活当中影响人们决策和态度的因素很多，但是，博弈论作为现代经济学的前沿领域，始终是一个强有力的分析工具。

参考文献

[1]张维迎．博弈论与信息经济学[M]．上海：上海人民出版社。1996．

博弈论的局限性篇6

一博弈理论简介

（一）博弈论的名称

博弈论，英文名称为Game theory是研究各方策略相互影响的条件下，理性决策人的决策行为的一种理论。博弈论刚被介绍至我国时，曾有过多种译法。有的学者根据其英文名称，直译为游戏理论；有的学者则从该理论本身的研究对象出发，转译为对策论或对策运筹论。近年来，学术界越来越多地接受了博弈论这一名称。这除了由于博弈这个带有文言味的词本身的学究气浓郁而给人的第一印象较为深刻外，更重要的是博弈一词能更准确、全面地体现策略选择、依策而动以及最终结果三者的统一。

（二）博弈的要素

一个完整的博弈应包含如下四项要素：1，博弈的参加者（player）。也称局中人或博弈方。是指博弈中能独立决策、独立行动并承担决策结果的个人或组织。小到一个人，大到一个跨国公司乃至一个国家，只要能独立决策和行动，都可视作一个博弈方。比如柯达与富士公司的竞争，就可看作一个有二个博弈方的博弈。一般说来，博弈的参加者越多，情况就越复杂，结果越难预料。2，策略空间（strategy space）。是指各博弈方可选择策略的集合。strategy直译应为战略，不过战略一词对大多数博弈来讲显然过于抽象和宽泛了。每一个策略都对应一个相应的结果。因此每个博弈方可选的策略数量越多，博弈就越复杂。3，进行博弈的次序（the order of play）。博弈中各博弈方行动的顺序对于博弈的结果是非常重要的。同样的博弈方、同样的策略空间，先后决策并行动和同时决策行动，其结果是大相径庭的。 4，博弈的信息（information）。知己知彼、百战不殆。可见信息对博弈的重要性古人早已知之。博弈中最重要的信息是有关对手策略以及各博弈方得益的信息。例如，在各博弈方同时决策的博弈中，必须保证不能让对手知道自己采取何种策略，否则自己将永远是博弈的输家。得益（play off），也称支付，是指博弈方策略实施后的结果。有关得益的信息是促使某博弈方选择某种策略的关键参考值。理性的博弈方总是选择能使自己获得最大得益的策略。一旦确定了以上四要素，一个博弈也就随之确定了。值得注意的是，博弈论特别强调“理性人”的前提假定，即参加博弈的各博弈方始终以自身利益最大化为惟一目标。除非为了实现自身最大利益的需要，否则不会考虑其他博弈方或社会利益。

（三）博弈论的结构

由于一个完整的博弈需具备上述四要素，因此博弈可以从不同的角度划分成不同类别：1，按博弈方划分，可分为单人博弈和多人博弈。单人博弈因为只有一个博弈方，所以它已退化为一般的最优化问题。经济学中常见的求最优问题，实际上是博弈的特例。多个博弈方的博弈较单人博弈复杂，而且两人以上的博弈会出现合作博弈问题。这样，多方博弈又将分为合作博弈与非合作博弈。因为在社会与经济关系中，竞争与不合作是基本方面。所以当前的博弈论主要研究的是非合作博弈。1994年诺贝尔经济学奖三位得主的主要贡献，即在非合作博弈方面。2，按策略空间划分，可分为有限策略博弈和无限策略博弈。因为每一种策略都相应地对应一个得益结果，所以从理论上讲，有限策略博弈的结果必然是有限的，而无限策略博弈的结果则有无穷多种可能。3，按进行博弈的次序划分，可分为静态博弈和动态博弈。各博弈方可同时决策并行动的博弈称为静态博弈。当然，严格讲各博弈方在非常精确的同一时点同时决策是不可能的。因此，同时决策是指可近似地看作同时作决定的过程，如乒乓球团体赛的出场顺序，虽双方决策可能有早有晚，但一旦敲定便谁也不许变更，因而可看作同时决策。各博弈方不是同时决策，而是先后、依次决策、行动的博弈叫动态博弈。弈棋就是一种典型的动态博弈，双方的每一步都将取决于前面的情势。4，按信息划分，如按得益信息分类，可分为完全信息博弈与不完全信息博弈。完全（complete）信息，是指各方对自己每种策略的得益情况完全清楚，否则是不完全信息；在动态博弈中，如按博弈进程信息分类，可分为完美信息动态博弈与不完美信息动态博弈。完美（perfect）信息，是指博弈方在决策前对其他博弈方的行为完全了解，否则是不完美信息。5，按得益情况划分，可分为零和博弈、常和博弈和变和博弈。一方收益必来自另一方的损失，这样的博弈叫零和博弈，零和博弈的博弈方始终是对立关系；各方都会有收益，但收益总和是一固定常数，这样的博弈为常和博弈；各方不同的策略组合会有不同的收益，这样的博弈称变和博弈。显然，零和博弈是常和博弈的特例，常和博弈是变和博弈的特例。6，综合分类。综合分类是将博弈次序与博弈信息结合起来的一种分类方法。按这两个标准，可将博弈分为：完全信息静态博弈、不完全信息静态博弈、完全且完美信息动态博弈、不完全但完美信息动态博弈、完全不完美信息动态博弈以及不完全不完美信息动态博弈。这种分类方式有助于针对不同特性的博弈进行研究和求解。

博弈论（Game Theory），是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。因此，博弈论又称为“对策论”，也就是说当一个主体，比如一个人或一个企业的选择受到其他人、其他企业选择的影响，而且反过来影响到其他的人、其他企业的决策问题和均衡问题。正是在这个意义上，博弈理论又译为“决策理论”。博弈论创立于20世纪40年代，到50年代博弈论的研究达到了顶峰。博弈论研究的决策不仅包括经济学领域，而妾包括政治学、军事、外交、国际关系、公共选择等各个领域，因而博弈论又被称之为方法论。本文拟将这种方法引入到反垄断法领域，具体分析反垄断法规则的制定过程。

二、反垄断法的博弈分析

（一）政府和企业之间的博弈分析

1，政府和企业博弈的根源

企业，作为市场运行主体，在市场经济中具有强烈的追求利润的理性意识；企业的理性就是实现利润的最大化。企业一切经济活动的出发点和归宿都要以这个目标为指导。在利润最大化目标的指导下，企业必须研究市场上其他主体的战略并确定自己的战略，从而市场上各个经济主体都是企业博弈的对象。企业决策往往具有局部性、个体性和短期性的特点。与之相对，政府作为市场运行的监管主体，是社会理性的当然代表，其决策往往带有全局性、整体性和长远性。由于政府制定的各种市场运行规则客观上限制了企业理性的发挥；尤其是当社会理性和企业理性发生冲突时，作为被管理者的企业只能寻求“次优方案”。当然，企业也并非只是一味地妥协，也可以与政府进行博弈从而影响相应的法律、法规的制定。由政府所代表的社会理性和企业理性的冲突及其在现实经济生活中的具体表现——政府所代表的社会利益与企业追求自身利润最大化的矛盾，决定了二者都将对方视作自己的博弈对象，从而使具体的法律、法规，尤其是反垄断法的制定过程，表现为政府和企业的博弈过程。

2，政府和企业参与博弈的目的

企业，作为盈利性的经济组织，是以实现利润最大化为其根本宗旨的；并且在这一根本宗旨的指导下组织各种经济活动。只要能够降低企业的生产成本，提高企业的利润，企业都不惜一试，包括采取垄断的方式。但是，垄断的存在，不仅侵害了广大的消费者的利益（具体表现是通过垄断价格，将相当大的一部分消费者剩余转化为超额利润。），而且凭借其“市场势力”阻碍了有效的竞争，打破了市场竞争的均衡状态。政府，作为社会利益的代表，具有保护消费者的合法权益和维护市场有效的竞争秩序的当然职能；其可通过制定法律影响着企业决策的“可选择集”，即企业只能在法律许可的范围内进行选择。显然，“可选择集”越大，对企业越有利；而决定企业“可选择集”大小的恰恰就是政府。因为政府通过确定其产业政策和竞争政策的具体内容和相互关系，影响认定垄断的界限，并通过反垄断立法决定了企业可选择范围的大小，从而间接地决定了企业的盈利空间。企业参与博弈的目的就是通过影响政府的反垄断法规，实现对企业行为的有效规制，进而最大限度地保护社会公众的利益。

3，反垄断法的博弈分析

反垄断法指的是国家为了保护竞争，针对一些限制竞争行为所规定的法律规范的总称。其目的就是政府通过法律的手段限制企业有碍于竞争的经济行为。政府在决定是否将一种企业的经济行为列入受限制之列前，政府要作如下的博弈分析：保持企业退出

政府面对一种限制竞争行为有两种选择：干预，即将其限制于合理的范围之内；或者放任自流。政府要进行干预需要支出相应的费用，设费用为5，占总收益10的一半，那么经政府干预给社会带来的净收益是5（总收益10减去干预费用5）。此时，企业针对政府的干预政策有两种策略：其一是保持原有的状态不变，继续从事具有垄断性质的经济活动。但是，由于法律的强制性，如果企业采取此策略无异于自取灭亡。此时，企业不但不会盈利，相反还会被强制清除出场。其二是企业选择退出。此时，企业只需要付出沉淀成本，设其为收益的一半为5；在这种情况下，企业的收益为-5.政府还有另外一种选择，就是放任自流。这样，如果企业保持原来的垄断状态，就将获得全部的利润所得，社会公共利益为0；如果企业选择退出，那么全部利润将自动流向政府所代表的社会公众，此时，企业还要支付相应的沉淀成本。由于政府干预经济的目的就是为了将“垄断利润”返还给广大的消费者，（0，10）所代表的状态正是政府介入的原因，并且是政府所要竭力改善的初始状态。（10，-5）所代表的是企业自动放弃高额的垄断利润，并且还要为此承担相应的前期投入，即沉淀成本。这是不符合企业追求利润最大化的理性目标的，因而是不现实的。由此，政府只能选择干预策略。企业根据其对政府选择的分析判断政府介入的可能性，然后在（5，-10）、（5，-5）和（0，10）三种状态中进行选择。由于（5，-10）的高成本和（0，10）的不现实性及由此决定的高风险性，迫使理性的厂商选择（5，-5）所代表策略。这样，可以将损失降低到最低。政府经过上述博弈分析，最终决定将该经济行为纳入禁止之列；而企业也会选择放弃该垄断行为。至此，反垄断法的目的得以实现。

4 对反垄断法进行经济分析的意义。

对反垄断法进行博弈分析的意义在于揭示反垄断法的制定过程从某种意义上讲就是政府和企业的博弈的过程，反垄断法律规范的具体规范则是政府和企业的博弈结果在法律上的认定。所以，在反垄断法的制定过程中，应该站在企业的立场上考虑企业可能做出的策略选择，然后再确定法律是否对该行为进行规制及如何规制。这样，才能保证制定出的法律能有效地规制企业的行为，有效地保证竞争。

（二）企业间通过价格等垄断协议的博弈分析

在寡头市场上，当寡头数量很少时，从理论上说，他们很容易通过谈判实行勾结定价，即像一个垄断者那样用高价格来宰消费者。这样做，交易费用（寡头进行价格勾结谈判达成协议所需要的费用）并不高，而勾结定价可以为参与者带来共同的利益。但为什么这种勾结定价在现实中成功的很少呢？尽管许多国家“反垄断法”中有禁止勾结定价的条款，但实际上这个条款的作用极为有限，因为寡头之间可以采用不易被发现的隐蔽性勾结——默契。我们可以用博弈论的分析来说明现实中的勾结定价难以成功的原因。

我们假设某地牛奶市场由两家寡头瓜分，这是寡头中最简单的寡头——双头，也是最容易达成价格勾结协议的寡头市场。如果这两家寡头（A与B）之间没有任何勾结，各自按成本最低时产量进行生产，各生产3000磅牛奶，成本为每磅6元。这时，市场总供给量为6000磅牛奶，价格为6元。各家都没有经济利润（经济利润为零）。

现在这两家寡头达成价格勾结。要实现高价必须减少产量。现实中寡头之间的价格勾结总是以限产为前提的（以后要谈到的欧佩克就是这样）。如果这两家寡头把产量确定为 2000磅牛奶，这时成本为每磅8元。市场总供给量减少为4000磅牛奶，需求并没有变，价格上升至每磅9元。在这种价格时，每家寡头可获得经济利润 2000元。当然，勾结起来对双方都是有利好的。

如果达成协议方有一方违约会有什么结果呢？如果一方违约，生产3000磅牛奶，它的每磅牛奶成本约为6元，另一方守约生产2000磅牛，每磅牛奶成本为8元。这时市场总供给量为5000磅牛奶，价格为7.5元。市场价格只有一个，是整个市场的供求总量决定的。违约的一方，成本仅6元，价格为7.5元，每磅牛奶的利润为 1.5元，总计经济利润为4500元。守约的一方，成本为8元，价格也是7.5元，每磅牛奶亏损0.5元，2000磅牛奶共亏损1000元。

这两个寡头的价格勾结协议的实施并没有法律保障，因为这种协议是非法的。守约的一方无法对违约的一方提出诉讼，即缺乏有效的惩罚。是否守约完全取决于各自的意愿。他们是否会守约呢？一方守约与否的结果还取决于对方是否守约，协议并没有保证对方守约的硬约束，因此，各方都有守约与违约两种选择，而对方到底会选择什么，无法确定，这时就可以用博弈论来分析各自的决策了。

我们来看A的决策过程。A要分析在B不同的选择下，自己的选择会有什么结果。A先假设B是守约的，这时A选择守约可以赚2000元，如果选择不守约可以赚4500元。两者相比，A守约时，B的占优战略是不守约。A再假设B不守约，这时A选择守约要亏损1000元，如果选择不守约可以不赔不赚（经济利润为零）。两者相比，A不守约时，B的占优越略也是不守约。A的结论是，无论B守约还是违约，对自己最有利的还是不守约。B的分析方法和结论与A完全一样。结果A、B都选择了不守约，价格协议成了一张废纸。

在这种情况下，A、B如何才能实现勾结呢？研究者发现，如果就是这两个寡头，同样的博弈会多次进行。双方最终会发现，达成勾结的条件是采用一报还一报的策略，即对方这次守约，我下次也守约，如果对方这次不守约，我下次也不守约。这种情况下，双方会发现，从多次博弈的结果看，违约是不利的，从而自觉守约。这种一报还一报就成为有效的惩罚。但在现实中这种情况极为罕见——只有两个寡头，而且多次重复同样的博弈。在常见的多头博弈，而且同样的博弈很少反复进行的情况下，价格勾结就难以成功了。

这种分析与现实一致吗？一个最常用的例子就是欧佩克（石油输出国组织）的价格勾结。欧佩克是一个限制产量并提高石油价格的寡头价格联盟（又称“卡特尔”）。他们在70 年代的成功更多的是共同的政治动机。但经济利益在长期中是高于政治的。随着时间流逝，博弈论分析的情况就出现了。各成员国都想，无论其他国家是否守约，我违约对自己是有利的，于是纷纷打破限产规定，增加生产，结果到80年代，石油价格就大幅度下跌了。以后的石油价格上升不是价格协议起作用，而是供求关系变动的结果

在任何一种市场上，决定价格的最基本因素还是供求关系。在供大于求的情况下，任何价格勾结都不能长远地提高价格。在供小于求的情况下，无需价格勾结，价格也会上升。在价格决定中，价格勾结是无用的。过去我国出现过的汽车行业自律价和民航的禁折令等形式的价格勾结，哪一个实现了？人为的价格勾结当然阻挡不了供求决定价格的客观规律。博弈论分析的结论与现实是一致的。企业还是不要玩这种小权术，老老实实提高自己的市场竞争。

三、小结

本文通过对反垄断法的制定过程进行简要的博弈分析，旨在说明法律的制定不仅是立法机构的单方行为，还是一个规制者与被规制者——政府和企业相互博弈的互动的过程。如果在法律的制定过程中忽略了这一点，就很容易导致法律对于现实生活的无效和“无能为力”，从而不能有效地实现其价值。

参考文献

[1]张维迎。博弈论与信息经济学[M].上海人民出版社，1996。

[2]冯涛。程瑜。微观经济学[Z].西北大学出版社，1998。

博弈论的局限性篇7

1994年中国联通公司成立标志着由邮电部独家垄断中国电信市场的局面开始改变。之后随着中国移动通信从中国电信中分离并在香港成功上市，经历了改革与重组、拆分与合并的国内移动通信市场目前已形成了中国移动与中国联通双寡头垄断的市场格局，即中国移动和中国联通。中国移动和中国联通分别提供差异化、个性化的语音和数据业务；在市场中通过价格、业务、品牌、技术、广告展开全面竞争。由此可见，中国的移动通信市场是有差别和独立行动的双寡头垄断市场。这两家服务商所提供的服务具有一定的替代性，价格便成为他们争夺消费者最主要的手段。目前，中国政府对移动通信许可牌照的发放相当严格，移动通信市场的进出壁垒相当大，并且消费者与生产者之间的信息可获性是不均等的。由于移动通信属于自然垄断性的行业，而这两家公司均有相当大的业务量能够形成规模效益；两家公司在基础设施的配备方面拥有不同程度的控制力；政府的政策扶持使这种双寡头垄断的局面得以存在和延续。根据以上分析，可以看出我国的移动通信市场符合西方经济学中的双寡头垄断市场结构。

本文旨在通过对我国移动通信业之间价格竞争的博弈分析，论证各通信商在价格竞争问题上有选择合作的必要性和可能性，从而为通信运营商处理好竞争与合作的关系，为我国移动通信业的良性发展提供依据。

一、我国移动通信业价格竞争结构

1994年中国联通的成立标志着中国电信独家垄断时代的结束，从此我国通信业发生了重大的变化，通信市场由垄断逐步走向竞争。1999年2月原中国电信被拆分为中国电信、中国移动和中国卫通，随后，政府又给网通公司、铁通公司和吉通公司颁发了牌照。2001年底中国电信被分割为南北两部分：南部保留原“中国电信集团公司”名称，北方与中国网通、中国吉通重组为“中国网络通信集团公司”。至此，我国的通信运营市场形成了多家企业共同竞争的局面，移动通信市场的双寡头垄断市场初步形成。其中，中国移动占有较大市场份额，即领导厂商。两家运营商之间的竞争常常表现为价格战，运营商之间的竞争也日趋激烈。国内外学者对我国移动通信市场进行了广泛而深入的调查研究，学者们一致认为，目前我国通信运营商已经陷入了价格竞争的“囚徒困境”，这一困境使得运营商们把降价作为其竞争的主要手段，虽然降价扩大了通信业的整体市场，但由于ARPU（用户每月平均消费值）的降低，运营商的总收入并没有上升。针对这一问题，我认为在“囚徒困境”的博弈中，价格竞争并不是一定非合作状态，在一定条件下，合作也是可能的。合作的结果显然胜过不合作的结果，运营商之间应该合作。

二、价格竞争的博弈模型分析

“囚徒困境”是博弈论的经典案例，反映了个人理性和集体理性的矛盾。下面我将以“囚徒困境”模型分析我国移动通信业的价格竞争。根据一般看法，市场份额高的领导厂商由于销量大，生产规模就大，平均生产成本可能更低，因此在竞争中会处于有利的、主动的地位，甚至可以以低价格将竞争者挤出市场。但中国移动通讯服务市场的价格战却与一般看法正好相反：处于弱势地位的中国联通往往主动降价，而中国移动则处于守势，价格战也因此呈现出“联通挑起，移动跟进”的特征。虽然随着移动通信市场的快速发展，中国移动和中国联通的用户数都呈快速增长的势头，但双方用户市场份额的差距却不断缩小。运用博弈论方法可以对中国移动通信双寡头垄断服务市场运营商之间存在的价格相互关联性和依存性进行研究。博弈论起源于应用数学，它主要研究人们的行为发生相互作用时的决策以及这种决策均衡问题，是一种关于决策和策略的理论。博弈论在商业领域中有着广泛的应用，商业运作是和平的另一中表象，商业中的和与战是合二为一的。单纯的竞争只会破坏市场，只有通过竞争与合作，才会实现双赢的效果。博弈论为双方提供了崭新的游戏策略。当人们的利益相互依赖时，博弈论就会通过系统的方式解决策略问题。策略和行为的博弈可以是不合作行为，也可以是合作行为。非合作型博弈行为表现为各自的独立行动，而合作行为的具体表现是形成价格合谋。

1、不合作竞争模型。图1支付矩阵中的数据是根据两公司的市场占有比例虚拟形成的。在此，我们采用划线法，可以得到，（降价，降价）是一个占优均衡，即对于中国移动和中国联通来说，无论对方采用什么策略，降价都是其最优选择。由于本博弈是一个非合作博弈问题，且两博弈方会按照个体行为理性原则决策，因此虽然双方采用降价策略的均衡对两个博弈方来说都不是理想的结果，但因为两博弈方都无法信任对方，都必须防备对方利用自己的信任谋取利益，所以双方都会是无法实现的。即使两寡头都完全清楚上述利害关系和响应的效率意义，也无法改变这种结局。中国移动和中国联通正如两个没有条件串供的囚徒一样，双方都清楚地明白，如果双方达成一致，形成协议定价，共同瓜分市场，在目前双寡头的市场形势下，必将获得最大的经济利益。但是，这种协议注定是脆弱的，即使能够达成，一旦有一家或几家分公司在做决策时出于自身利益最大化的考虑而破坏协议，就会形成连锁反应，“君子协议”必将荡然无存。

2、合作竞争模型。从支付矩阵可以看出，如果中国移动和中国联通能够合作，采用（不降价，不降价）策略，两个运营商的收益都比恶性的价格战高。其中，移动得到8000，联通得到4000，这样的结果应该是二者更好的选择，合作的结果明显优于不合作的结果，理性的企业应该选择合作。但是，在现实生活中，运营商之间恶意的价格战频频发生，在造成国有资产流失的同时，也阻碍了行业的健康发展。因此，我认为运营商应该正确认识竞争与合作的关系，意识到合作的必要性和重要性。但是，两者实现合作是否有可能呢？下面我们来探讨他们实现合作的可能性。

从理论上说，只要满足以下三个条件，“囚徒困境”的博弈就可以实现合作：第一，无限次重复博弈。在无穷多次博弈中，选择背叛者即使在第一次的投机行为中获得利益，他也将会在以后的博弈中受到对方的报复。第二，参与博弈的人数少而稳定，每个参与者所感觉的风险减少，并在不断的合作中将风险减少至最小。第三，有严格的外部约束机制，惩罚博弈中的违规者，如在“囚徒博弈”中，两名嫌疑犯均受到威胁，如果选择坦白，他们将会被判刑，那么两个囚徒就有选择合作的可能。

参与博弈的两大运营商选择合作能够从中获得极大的好处，反之，背叛将会招致打击报复，他们谁也没有勇气去脱离这种合作的关系，因此，在无限次重复博弈情况下，合作是有可能实现的。对于中国移动和中国联通的意义就在于，两者合作的可能性是存在的。第一，在可预见期内，中国移动和中国联通之间的竞争关系要一直维持下去，而且，这种竞争基本等同于无限次重复博弈。因此，从双方的长远利益考虑，他们更愿意在博弈中选择合作。第二，在移动通信业内只存在两家运营商，他们相互之间容易达成一致的协议。第三，政府可以干预或限制运营商之间的恶性价格竞争。

三、小结与启示

1、中国移动与中国联通之间强劲的较量和施展竞争策略给我国移动通信市场撒了一把催化剂，使得这个市场的火焰已经燃烧到白炽化的状态。价格战没有赢家，其最终后果往往是两败俱伤甚至伤害整个行业。无序的价格战除了会使运营商的利润下降和发展减缓外，还带来了畸形的市场发展和扭曲的竞争心态。

2、根据“无限次重复博弈可能产生合作行为”可知，只要“囚徒困境”重复的次数足够多，博弈双方有共同的利益基础，在一定条件下就可以选择合作来获取更大的利益。目前，我国的移动通信市场已经从数量型竞争向数量与质量并重的利润型竞争转化，市场已渐趋成熟，在这样的寡头垄断市场中，任何试图单方面对市场重新变价洗牌的行动都是不现实的。对市场份额的争夺是一种零和博弈，有一个成功者就会有一个失败者，而对利润的追求则是正和博弈，可以通过合作达到双赢。对我国的移动通信运营商来说，应该转变竞争战略，摆脱价格战的泥潭，在价值链的某些环节上创造显著的竞争优势。

3、对我国移动通信运营商来说，构造差异化经营方式，注重品牌向导，进行品牌竞争，在品牌竞争中取得先机，更为上策。中国移动推出“动感地带”、“全球通”、“神州行”三大品牌，进行品牌推广，把竞争从价格战的泥潭引领到品牌竞争的高层次，也为我国移动通信市场勾画了一个值得借鉴的模板：发展品牌，做移动通信专家。而中国联通也不甘示弱，大力推行“CDMA”、“新时空”等业务，创建属于自己的品牌业务。同时，中国联通开辟了电信企业聘请明星做代言人的先河，与姚明联姻，聘请他做联通“CDMA”的品牌代言人。

博弈论的局限性篇8

一、资本市场是典型的博弈竞局

从博弈论角度看，资本市场具备了一般博弈的全部要素，是典型的博弈竞局。

1、资本市场的博弈主体。资本市场作为证券交易和资本融通的场所，其博弈主体主要有股份公司、投资者、交易所、券商、证监会等。这些主体之间实际上都是博弈关系：股份公司和投资者之间是一种是否（以某一价格）发行股票和是否提供资金的博弈；投资者与投资者之间是一种是否买进股票和卖出股票的博弈关系；券商和公司之间是一种是否愿意承销股票的关系；证监会与其他市场参与者之间是一种约束与遵守、监管与反监管的博弈关系。这些参与者构成了资本市场的博弈主体。

2、资本市场博弈的目标函数。资本市场博弈者都是理性的“经济人”，具有明确的目标函数。股份公司的目标是在发行费用最低的前提下，以较高的价格发行股票，筹集最多的资金；投资者买卖证券的目的就是获得股息分红或低买高卖，赚取价差，实现投资收益最大化；券商在证券发行时的目标是赚取更多的承销费，在证券经纪时则希望交易量越大越好，以获得更多的佣金收入；交易所在股市低迷时希望庄家炒作，活跃股市，在股市过热时则希望投资者理性行动，防止过度泡沫化；庄家炒作时希望散户（中小投资者）跟风，以便进出；散户交易时希望跟庄又不希望被套，赚钱而又规避风险；证监会的目标则是希望资本市场活跃而规范，希望高效运行而又持续发展等。因此，博弈者都有明确的目标函数，资本市场实际上就是博弈者单独决策、追求利益最大化的场所。

3、资本市场博弈者的相互影响和对抗。传统的技术分析理论把资本市场看成是一个不受博弈者自身行为影响的客观系统，没有考虑到人的操作行为对市场的影响。实际上，资本市场博弈者之间不是孤立的，而是直接作用、相互影响的，每个主体的决策不仅影响自己的行为，而且影响他人的行为，进而影响整个资本市场的运动，特别是当资金量大时对市场的影响更大。博弈论把资本市场看作一个竞局，市场参与者处于博弈对抗中，投资决策就是一个博弈计算过程。博弈计算过程必须要有对手意识，考虑对手的存在，考虑到对手的多种可能的选择，同时还要考虑到对手决策时也会考虑到我的存在和我的多种选择的可能等。从博弈论角度分析资本市场，更注重博弈者之间的这种相互影响和对抗。

4、资本市场的博弈“规则”。资本市场的博弈并不是杂乱无章的，而是在一定规则约束下运行的。这些规则就是“博弈规则”，博弈规则的集合就是经济学上所说的“制度”。资本市场上的规则是多种多样的，包括有关法律、法规、规章、条例、章程、政策等。从结构上讲可以分为组织制度、发行制度、上市制度、交易制度、监管制度、信息披露制度等主要方面。具体来说，宏观上包括《公司法》、《证券法》、《信托法》、《基金法》等大法，微观上还有各种有关发行、上市、交易的规则和条例等。博弈规则对资本市场博弈者来说，是一种“共同知识”，是一种公开信息，是博弈者行动决策的依据。博弈规则是资本市场正常运行的制度保障，资本市场监管当局的主要职责就是通过博弈规则的制定和市场制度的完善而求得资本市场的公平交易和安全运行，否则，没有“博弈规则”和相应制度，资本市场就无异于完全投机的“赌局”，只能是一片混乱，不会持久地存在和发展下去。

显然，从博弈论角度看，资本市场是一个典型的博弈竞局，把资本市场看作博弈竞局更接近于资本市场的实际状态。

二、资本市场博弈的信息问题

资本市场博弈中信息是一个重要因素，更是博弈胜负的关键。我认为资本市场是信息最重要、信息最集中、信息最不对称、信息时效性最强、信息价值体现最充分的市场。

1、信息是资本市场的“轴心”和“生命”。首先，信息是决定证券价格的基本因素，不同的资本市场上价格对信息的反映程度是不同的，据此资本市场可以相应地划分为弱式、半强式、强式市场三种类型，三种类型市场的效率和成熟程度是不同的。而且，信息是资本市场有效运行的内在要素，它是市场参与者进行证券交易、进而实现资本融通的决策基础；市场参与者既是信息需求者，同时又是信息供给者，它们的交易活动既需要信息，又会产生和显示信息；资本市场既是资本交换的场所，又是信息交换的场所，正是从这个角度讲，可以说现代资本市场也是一个信息市场。

2、资本市场博弈的信息是不完全的。这是因为资本市场有两个方面的不确定性：第一，资本市场外部环境状态的不确定性。包括国家的经济政策、市场监管当局的监管政策、实物市场的状况和上市公司的经营状况等，这些因素是资本市场博弈竞局外部的力量，硬性影响着竞局的发展，市场博弈者只能接受而没有能力改变它。这些外部信息对资本市场博弈者来说是“不完全”的。第二，资本市场内部的不确定性。资本市场本身信息也是不完全的，例如投资者对其他投资者的市场操作行为和状态缺乏了解，即对市场博弈状态缺乏了解。通过行情报价人们只能看到股价的涨涨跌跌，而不可能知道这股价涨跌背后是谁在推动，每个人的行为都隐藏在背后，博弈过程信息极不完备。而且退一步讲，即使获取了这些微观信息也不能直接指导操作，因为没有办法直接计算这么多人各自采取行动对市场的影响，而只能用统计的方法分析，但统计方法本身必然带来随机误差，所以这种不确定性是内生的不可避免的。不管是外部信息还是内部信息，对于每一个博弈者而言都是不完全的，因此资本市场是一种不完全信息博弈竞局。

3、资本市场博弈信息也是最不对称的。在资本市场博弈中，信息不仅是不完全的，而且是不对称的。表现在：（1）有些人能通过特殊的信息渠道获取其他人所不具有的信息，例如上市公司的内幕消息、庄家持仓情况的信息等；（2）有些人掌握了比较快捷的信息传递通道，能更快地获得市场公开信息。（3）即使是获取信息方面是平等的，不同人掌握的信息分析方法和分析工具不同，从原始信息中加工和提取有价值信息的情况也不同。（4）庄家至少了解自己的仓位情况，获取信息的能力更强，因而在市场博弈信息方面天生就比散户更具优势。（5）广大散户在信息占有方面处于最底层，多数人不仅不能得到优于他人的信息，即使公开信息都无法有效利用，甚至对许多公开信息都不知道。这样，现实资本市场上，信息的分布是不对称的，总有一些市场博弈者必其他博弈者占有更多的信息。无疑，具有较多信息的博弈者在竞局中处于优势地位，而信息少的博弈者则处于不利地位。现实资本市场博弈中庄家之所以常常战胜散户，主要就是信息不对称造成的。

4、资本市场信息的不完全和不对称，不仅直接影响着博弈者的经济利益的差别，而且会引起“劣股驱逐良股”的逆向选择和道德风险等效应，更为严重的是会引起市场交易的不公平，降低市场运行效率，引起市场萎缩甚至市场失败。

信息在资本市场的重要性要求我们在资本市场运行、管理和制度设计中给予信息因素以足够的重视，建立完善的强制性信息披露制度，以减缓资本市场信息不对称程度，实现资本市场的公平交易和有序运行。三、资本市场博弈的“零和”性

博弈按照收益分配结果可以分为零和博弈和非零和博弈两种类型。零和博弈指的是博弈各方收益的和正好为零，即博弈中一方博弈者所得到的收益恰好是另一方博弈者的损失。非零和博弈是指所有的博弈者的收益（支付）的和不为零，是一种变和博弈。变和博弈又包括正和博弈和负和博弈两种情况。一般来看，资本市场应该是一种变和博弈：在这里，市场交易费用如交易税、佣金等是一种负的因素，从市场上抽走资金；上市公司利润分配如现金派息是一种正的因素，它向市场注入资金。两种因素同时存在、共同作用的结果，资本市场应该是一种变和博弈；到底是一种负和博弈，还是一种正和博弈，就看正负两种因素那一方力量大。总的来说，资本市场基本上是一个负和博弈或是总和很小的正和博弈，近似地都可以看作是零和博弈（杨新宇，2000）。中国资本市场目前的情况是交易费用（税收和佣金）较高，而分红派息比例很低，所以是显著的“负和博弈”。

资本市场总体上的“零和博弈”特征，可以帮助我们理解人们通常的一个疑惑：为什么投资者总是“输多赢少”。（1）作为一种零和竞局，甚至是更严酷的负和竞局，考虑到交易费用的支出，股市实际的平均线不是不赚不赔而是输，结果处于平均线附近的投资者实际上都是赔钱的。（2）输赢的分布也是不平均的，庄家由于资本、信息、技术、人才等方面的优势，一般为赢家，而中小投资者（散户）多为输家。可见，资本市场“零和博弈”甚至“负和博弈”的特征是决定投资者“输多赢少”的根本原因。

四、资本市场博弈的现实性

现代博弈论研究的是理想博弈。理想博弈是理论上的，一般假设博弈者是理性的人，以自身利益最大化为目标，有足够的智力做出正确的计算和决策。理想博弈排除了人的行为不确定性对博弈的影响，其演化方向仅仅取决于博弈规则，带有很强的必然性。理想博弈有自己稳定的最优解，当博弈达到均衡状态时，任何一方若离开这一均衡点都会利益受损，因而没有积极性改变策略。理想博弈是从各种现实博弈中抽象出来的，是对复杂的现实博弈的简化和“理想化”。

资本市场显然不是理想博弈。资本市场的参与者都是现实的人，不可能达到理性人的境界，他们的类型多种多样，智力有高有低，分析能力有限，在市场中的决策和计算不可能完全正确，而且经常出现错误，在现实中参与者的一个错误就可能完全改变博弈竞局的态势。这些因素决定了资本市场不可能是理想博弈，而是现实博弈。

资本市场博弈的现实性并不否认博弈论对资本市场研究的指导作用。由于理想博弈毕竟来源于现实博弈，因而博弈论对现实博弈具有启发性意义。（1）虽然现实资本市场博弈中对单个投资者的行为很难把握，但是，所有投资者的整体行为还是可以研究和分析的，资本市场整体的运动还是有一定规律的，博弈论可以从整体上对资本市场博弈进行分析和研究，发挥其理论指导作用。（2）资本市场作为信息不完全、多方参与的现实博弈竞局，传统理论是很难分析的，但我们可以运用博弈论中“海萨尼转换”原理，将资本市场的不完全信息博弈转换成“完全但不完美信息博弈”，从而使股市变得可分析。（3）资本市场又是一种“概率性”博弈，也就是说，投资者的行为虽然是不确定的，但根据由大量统计得出的主观概率判断进行决策，可以提高决策的科学性，避免盲目性，从而有利于在现实博弈中取胜。

五、结论

总结以上分析，我们的结论是：（1）资本市场是众多投资者参与的、相互作用、利益争夺的博弈场所，是一种典型的博弈竞局；（2）资本市场博弈是在严格的“规则”约束下运行的，规则的集合就是“制度”，缺乏“制度”约束的股市无异于“”，制度建设是资本市场管理的头等大事；（3）在这种博弈中，信息是至关重要的，可以说是信息不完全且最不对称的博弈竞局；（4）资本市场博弈具有“零和博弈”甚至是“负和博弈”的特征，总是表现为投资者“输多赢少”的结果；（5）资本市场不是一种理想博弈，而是一种“真刀实枪”的现实博弈，具有极强的对抗性和残酷性。显然，资本市场的博弈性是其有生俱来的特征，是资本市场真实状态的反映。

参考文献

张维迎，1996：博弈论与信息经济学[M]，上海三联书店、上海人民出版社。

博弈论的局限性篇9

关键词：认知；演化；制度分析

中图分类号：F011　文献标识码：A　文章编号：1004－0544(2012)08－0136－05

一、引言

经济活动的实质是对自然和社会范围内稀缺资源的获取和配置。在获取和配置资源的过程中，人类构建出各种形式的制度加诸经济活动之上。形成了蔚为壮观的经济社会现象。随着新制度经济学逐渐融入主流经济学(其领军人物先后获得诺贝尔奖)，制度，这一一向被视为经济活动的约束条件的外生变量也开始内部化，成为决定经济绩效、解释经济演化的重要内生变量。然而，如何认识和理解制度的本质特征。并进而理解制度的均衡和演化现象，当下占据主流的博弈论制度分析并未取得共识。更为重要的是，基于博弈论的分析范式还存在着较强的局限性。因此，能否跳出博弈论制度分析的框架，选择一个更加适当的切入点对制度进行剖析是制度理论发展的一个新方向。

从系统论的角度看，制度是一个复杂的高维系统，包含成千上万个变量和参量，它们之间相互联系、相互作用，构成了一幅非线性的图像。要对这样多的变量和参量进行分析和计算，不仅在实际上行不通，而且其计算结果也难以检验，所以一个好的经济理论或模型通常是将实际的经济社会制度投影到一个恰当的子空间上去。这个子空间具有较低的维数，但反映了所讨论的制度问题的本质特征。近年来，从个体认知这一制度现象的子空间出发来探讨制度发育及演化的文献大量涌现，诺斯(North)等学者也承继哈耶克的理论思路，从信念、学习等角度重新诠释制度内涵。展现出制度分析新的发展方向。本文的立意即在于拓展这一方向的理论进路，以个体认知调整和共同知识演化为基点，讨论制度的发育、均衡及演化问题，以对相关理论上的争论作出回应。

二、几类典型的博弈制度观

由于博弈论分析工具的引入，近30年来，以个体策略互动为核心的博弈论制度分析取得了极大的进展。大量文献运用重复博弈理论和演化博弈理论对诸如声誉机制、交易制度、自组织体系等自发扩展制度进行建模分析，取得了一大批富有洞见的研究成果。归纳相关文献的理论脉络，博弈论制度分析分别将自发扩展制度看做是博弈的参与人、博弈规则和博弈过程中参与人的均衡策略。纳尔逊(Nelson)明确将自发扩展制度等同于博弈的特定参与人，他声称诸如“行业协会、技术协会、大学、法庭、政府机构、司法等等”都是经济社会制度的组成部分。这一观点与人们日常生活中对制度的看法相似，但问题在于，将制度等同于组织忽略了二者之间的重要差异，以致无法对自发扩展制度展开真正有效的分析。诺斯早期将制度定义为正式或非正式的博弈规则，认为，制度是“人类设计的制约人们相互行为的约束条件”。赫尔维茨(Hurwicz)对这一定义做了更为技术性的处理，从博弈的三要素(参与者、策略空间、支付函数)出发对制度的博弈规则观进行细化。这一定义抓住了自发扩展制度的表象，但仍未触及制度的本质内涵。容易理解，经济博弈中正式规则的确立必须先于博弈过程，而这立刻面临两个问题：谁有激励来制定博弈规则，而谁又有激励来监督规则的实施?因此，仅仅将制度视为博弈规则是无法对经济社会系统中大量的自发秩序作出有效解释的。第三种观点是将自发扩展制度视为博弈均衡。肖特是这一观点的始作俑者，随后诸多学者从两个方向拓展了制度的博弈均衡观。萨金(Sugden)、扬(Young)和鲍尔斯(Bowles)从演化博弈论的角度讨论制度的发育和变迁，他们认为，个体的行为习惯可以自我形成，不需要第三方实施或人为设计。当惯例演化时，个体在进化选择的压力下，倾向于发现某些适应性更强的特征(如认知、偏好、技能等)。这样，习俗惯例与个体特征将共同演化。格雷夫(Greif)、米尔格罗姆(Milgrom)、诺斯和温加斯特(Weingast)则从重复博弈论的角度来讨论制度，把制度看作是重复性囚徒困境博弈下的子博弈精炼均衡。作为子博弈精炼均衡的制度为每个博弈参与人界定了一种行为策略，该策略是在所有可能的博弈状态下行动决策的完备计划，简单地说，制度为个体提供了场景条件下的行动“脚本”。

演化博弈的制度观明显赞成制度乃自组织系统。但是它没有进一步说明该自组织系统得以建立及运作的根源，而是仅仅停留在对它的描述上。重复博弈的制度观假定个体具有完备的演绎推理能力。然而个体如何能够在多重均衡的情况下联合选择相互一致的策略?重复博弈又如何解释制度演化历时结构的多样性?正如青木所指出的，“子博弈精炼均衡理论根本无法解释某种制度出现在此地而非别的地方的原因”。因此，尽管博弈论制度分析接近一般均衡理论，但正是这一看似优点之处也是它在制度分析上的软肋。

如果把自发扩展的制度视为众多参与个体通过行为互动而达成的一个能够自我实施的激励相容的博弈均衡的话，那么关键的问题就是，参与人相互之间如何形成关于博弈的共同认知，并且参与人关于博弈的共同认知与其基于这些共同认知做出选择所导致的实际后果之间的一致性究竟是怎样建立的呢?若这种一致性被打破，制度的变迁方向和演化路径又将如何?这些问题乍看起来像是一个常规的系统均衡的稳定性问题，但其实这些问题比系统均衡的稳定性更为根本，不能简单对待。回答这些问题，将对制度的内涵本质、制度的路径依赖性及突变有更深入的理解，也将对传统的制度博弈均衡观做出重大修正。而这些需要提出一个新的切入点来解剖制度的内涵及其演化机制。

博弈论的局限性篇10

关键词：纳什均衡；博弈；煤矿；安全投资；行为

中图分类号：X915.4 F406.1文献标识码：A文章编号：16721101（2016）05003007

煤矿安全是社会高度关注的话题。煤矿安全所涉及中央政府、地方政府、煤矿、煤矿员工四个参与方的行为、目标各不相同。

用博弈论研究煤矿安全监管的国外文献很少，国内文献比较丰富。使用博弈方法主要有静态博弈、动态博弈和进化博弈三类。静态博弈和动态博弈分析的目的是预测博弈的均衡和分析博弈的结果。静态博弈和动态博弈可以根据信息对称的情况分为完全信息和非完全信息。

一、文献回顾

完全信息静态博弈假定参与方同时行动，参与人对其他参与人的特征、行动空间、支付水平等都完全清楚，不完全信息静态博弈不一定知道其他参与人的特征、行动空间、支付水平等。这类静态模型如于国强[1]（2015）、余吉安[2]等（2014）、肖兴志[3]（2007）、宋艳[4]（2011）、凤亚红、马静[5]（2011）等。研究结论上，张相成[6]（2008）给出了控制事故隐瞒的对策，设计了以信息技术、生物识别为基础的煤矿安监体系，解决事故隐瞒现象；方世建、丁守和[7]（2009）建立了监管部门、小煤矿及矿工之间的两两博弈模型。董江爱、徐朝卫[8]（2015）从制度角度分析了三个参与方在煤矿生产上的博弈。

动态博弈假定参与人的行动顺序有先后。冯群等[9]（2013）建立不完全信息动态博弈模型，分析给定后验信念的贝叶斯均衡和分离的均衡策略，得出只有当安全生产带来的收益高于不安全生产的收益时，煤矿才会主动遵守制度；许晚晴等[10]（2013）认为政府的策略选择非常重要；张国兴[11]（2013）运用委托理论分析不完全信息条件下政府与企业之间建立契约激励机制的可能性和有效性，建立博弈模型来解决企业的逆向选择问题。

进化博弈理论是生物进化论和博弈相互影响的理论，假定参与人是有限理性的，参与人遵循某种比贝叶斯法则更简单的行为规则来采取和改变行动，参与人只要知道什么会发生，而不必知道为什么，决策由“基因”决定，这种博弈分析的目的是寻找博弈的稳定态―所有参与人都会选择的策略，并分析稳定态的影响因素。杨腾九[12]（2009）运用进化博弈分析了存在腐败的煤矿安全监察模型，确定了煤矿安全监察的稳定态的影响因素。李娟[13]等（2013）运用系统动力学和演化博弈模型证明不存在演化稳定均衡；李新春[14-15]（2015a，b）也用演化博弈和系统动力学证明不存在演化稳定策略。不存在演化稳定策略难以提出政策建议和办法，因而，本文不采用进化博弈模型。

为了弥补对煤矿安全投资的博弈研究局限于某几个管理环节或部分参与人之间的博弈这个缺陷，全面分析煤矿安全投资博弈各参与方的行为，需要建立完备的安全管理博弈模型，穷尽各参与方的行为，分析各参与方收益的影响因素，求解纳什均衡和精炼纳什均衡，预测最可能出现的均衡和改进均衡的策略。

二、煤矿安全水平及影响因素

煤矿安全水应了煤矿的生产状态，安全水平高说明事故和（或）损失低于预期；安全水平低说明事故和（或）损失超过预期；介于二者之间的安全水平可以称为正常安全水平的，表示基于煤矿行业的特性，符合预期的事故和（或）损失；这个预期是基于煤矿自身条件、煤炭开采科技水平（与安全投资有关）、煤矿员工业务素质（与安全投资有关）等因素，结合历年事故和损失统计得出。

在影响煤矿安全水平的因素中，煤矿自身条件是自然因素，改变的可能性非常小；煤炭开采科技水平和煤矿员工业务素质是可控因素，这个两个因素的有效配合可以提升安全水平，故安全投资可以提高安全水平。安全投资主要是由煤矿决定的，但是，煤矿员工、地方政府和中央政府可以通过自己的行为影响煤矿的安全投资行为。安全投资的具体方向决策已经比较明确，根据梅强[16]（1999），安全投资主要包括安全技术措施费、工业卫生措施费、安全教育费用、劳动保护费用和日常安全管理费用，通过其对某化工企业（该企业未列日常安全管理费）的研究表明，对提升安全水平重要性降序排列榘踩教育费用、安全技术措施费、劳动保护费用、工业卫生措施费。煤矿历来比较重视安全技术措施投资和安全教育投资，因为这样可以提高安全水平，这两部分占总投资的比重也最高。

三、煤矿安全的各参与方行为分析

煤矿安全涉及中央政府、地方政府、煤矿、煤矿员工四方，有文献将新闻媒体列为参与方，毋庸置疑，新闻媒体在煤矿安全生产方面的作用，但是一般局限于发生事故后的调查处理情况报道，可以间接提升煤矿安全水平，对于没有上市交易的煤矿企业没有直接影响，不会改变煤矿的安全水平和安全投资决策，因而，在研究直接决定安全水平的各方时，可以不考虑新闻媒体。

（一）中央政府

我国代表中央政府行使煤矿安全监管职能的是国家煤矿安全监察局（与国家安全生产监督管理总局）。中央政府从全局的高度看煤矿安全问题，希望煤矿安全水平高到没有伤亡事故。为了达到这个目标，建立各级安全监督管理机构，真正切切的监督、彻查、问责、处理。中央政府的行为可以简化为最严格监察和严格监察两种，其监察的对象是煤矿和地方政府。

（二）地方政府

代表地方政府的是各级地方安全生产监督管理机构。地方政府从地区和同级别地区比较看安全生产问题，希望煤矿生产既能满足中央政府对地方政府的监督考核，又能满足地方经济发展的需要。地方政府的行为主要在监督煤矿采取合适的安全投资，保障安全水平在合适范围。地方政府与煤矿的利益有一致性，也有矛盾。一致性的一面体现在二者均要接受监察并共享煤矿生产的成果，煤矿获得利润，地方政府获得部分税收。矛盾的一面体现在地方政府要和同级别地区的安全水平作参考要求煤矿达到，而煤矿则会综合经济效益考虑安全投资的问题。

地方政府的行为可以简化为严格监管和监管两种，假定没有监管懈怠的现象，其监管察的对象为煤矿。严格监管为多次（超过基本规定的次数）到现场（井下），能查出安全问题，监管为能查出明显的安全问题，前者的监管力度大于后者。

（三）煤矿

煤矿主要从社会可接收的安全水平和综合经济效益来考虑安全投资问题。作为企业，煤矿的经济效益是其必须考虑的，但是安全事故频发可能会导致煤矿在中央和地方政府的要求下关闭，因此煤矿企业追求经济效益和合适的安全水平。

安全水平与安全投资高度正相关，煤矿的行为可以简化为安全投资高、安全投资正常和安全投资不足，分别对应煤矿的安全水平高、安全水平正常和安全水平低。这里安全投资高，应该比正常投资高一个较大百分比（比如10%），安全投资不足应该比正常投资低一个较大百分比（比如10%）。

（四）煤矿员工

煤矿员工希望安全水平达到足够高，其目标是在保障安全的情况下最大化自己的收入。煤矿员工与煤矿博弈的行为可以简化为完全遵守安全规程、部分遵守安全规程、不遵守安全规程，与监察管理机构（中央政府和地方政府）博弈时的行为可以简化为主动揭发安全事故及隐患、保持沉默、隐瞒安全事故及隐患。

四、煤矿的安全投资博弈模型及分析

（一）博弈的基本假设

从博弈角度出发，在分析煤矿安全生产参与人的行为时，为了使模型比较简洁，同时又能基本反映煤矿安全管理的实际情况，提出以下假设。

假设1：煤矿安全水平与安全投资正相关，安全投资越大，安全水平越高；

假设2：煤矿追求自身经济利益最大化，在此目标下选择合适的安全水平；

假设3：地方政府追求经济利益（主要是税收）和正常的安全水平；

假设4：煤矿员工追求自身收益最大化，其收益与收入和安全水平正相关；

假设5：中央政府监管地方政府，地方政府监管煤矿，煤矿监管员工，中央政府一般不直接监管煤矿，仅在有安全风险或发生事故时从煤矿员工处获取信息；

假设6：中央政府追求正常安全水平或高的安全水平；

假设7：完全信息假设，各参与方对对方的行动和收益完全了解。

假设8：同时行动假设，各参与方同时决定自己的行动。

（二）完全信息静态博弈模型构建与分析

煤矿安全水平是多方参与的结果，如上所述四个参与方均通过自己的行为和目标影响煤矿安全水平（安全投资）。根据排列组合（4个中取2个），四个参与方共6个博弈模型，去除不够合理的（见下文）模型，可建立如下四个完全信息静态博弈模型（完全信息静态博弈假定各参与方在选择行动时对对方的行动和各自的收益都清楚，并同时行动，煤矿安全管理和监督实际情况基本满足这个假定）。

1.煤矿与煤矿员工的博弈。表1中M和W分别代表煤矿和煤矿员工，mij代表M采取行动mi （mi同时表示安全投资的大小）而W采取行动wj时M的收益，由公式（1）决定；wji代表W采取行动wj而M采取行动mi时煤矿员工的收益，由公式（2）决定。

安全投资高 m1m11，w11 m12，w21 m13，w31 安全投资正常m2 m21，w12 m22，w22 m23，w32 安全投资不足m3 m31，w13 m32，w23 m33，w33首先来分析煤矿的选择。当W采取w1时，综合影响M收益的各种因素来分析m11、m21和m31的大小。根据事故理论，人的行为是安全水平的关键因素，在煤矿事故损失为0时（即不发生事故，煤矿正常运营，大概率事件），根据公式（1），因为m1 >m2>m3，所以m11

当W采取w2时，分析m12、m22和m32的大小。在煤矿事故损失为0时（即不l生事故，煤矿正常运营，概率较小），根据公式（1），因为m1 >m2>m3，所以m12

当W采取w3时，分析m13、m23和m33的大小，此时发生事故概率很大，事故损失将显著上升，事故损失占煤矿收益的比例将显著上升，安全投资越高，事故损失相对越低，根据公式（1），m13>m23>m33。即煤矿选择m1。

其次来分析煤矿员工的选择。当M采取m1时，安全投资高，安全水平也高，安全设备、劳保用品、安全投资等投入到位，根据公式（2）：wji=C2 - 选择wj策略付出的代价 - yj，可得w11和w21均高于w31，因为w31里面一定有罚款，w21可能有罚款，w11里面包含的完全遵守安全规程的付出的代价很高，所以w21>w11。综合得w21>w11>w31。即煤矿员工选择部分遵守安全规程w2。

当M采取m2时，安全投资正常，安全水平正常，根据公式（2），类似上文的分析，可得w22>w12>w32。即煤矿员工仍然选择部分遵守安全规程w2。

当M采取m3时，安全水平低，不遵守安全规程事故率将大幅上升，员工面临罚款甚至伤亡事故，根据公式（2），w13>w23>w33。即煤矿员工选择完全遵守安全规程w1。

根据上述分析，纳什均衡如表1中的下划线所示，该博弈有三个纯策略纳什均衡：（安全投资高，部分遵守安全规程），（安全投资正常，部分遵守安全规程），（安全投资低，完全遵守安全规程），根据基数定理[17]（Wilson，1971），无混合策略均衡。

对纳什均衡进行精炼。对煤矿员工来说完全遵守安全规程代价太高，因而（安全投资低，完全遵守安全规程）这个均衡出现的可能性很小。剩下两个：（安全投资高，部分遵守安全规程）和（安全投资正常，部分遵守安全规程），难以区分谁会出现，但可以得出结论：煤矿可以按照自己的对安全水平的判断来决定安全投资水平，因为这两个均衡煤矿的选择中有安全投资高和安全投资正常，而煤矿员工只会选择部分遵守安全规程。

为了进一步的理解模型，对表1中的字母用数字代替，计算依据为公式（1）和（2），C1，C2均取1， qj为煤矿事故损失，取0到1之间的数，yj 为选择wj面临的罚款表，取0-1之间的数.

先来分析煤矿员工W的选择。当地方政府L选择严格监管l1时，各种安全隐患均能被查出，结合公式（7），煤矿员工的不会选择w6 （因为面临罚款），w5没有奖励和被开除的损失，w4有奖励也有损失，如果奖励足够诱人（超过月工资的数十倍），w4会成为煤矿员工的首选，但这个奖励往往条件较多，不一定能兑现，因而，一般情况w5是最优选择。当地方政府选择监管l2时，由于监管力度与l1相比稍低，煤矿员工会倾向于w5和w6，不会选择w4，因为较低的监管力度使查出安全隐患的概率降低，举报了也是徒劳。到底是选择w5还是w6，取决于隐瞒的罚款究竟有多大，如果足够大（比如为月工资的3倍），w5会是最优选择。

其次来分析地方政府L的选择。当煤矿员工W采取w4时，结合公式（8），地方政府会选择l2；当W采取w5时，结合公式（8），地方政府会综合考虑税收和安全风险（涉及安全生产主管官员的政治前途），权衡利弊后选择l2或者l1；如果安全风险较高，地方政府会选择l1，如果安全风险较低，地方政府会选择l2。根据安全形势较为严峻这个现实，地方政府会选择l1。同理，当W采取w6时，地方政府会选择l1。

综合上述分析，博弈有唯一纳什均衡：（严格监管，保持沉默），这一均衡反应了煤矿监管的困y。要了解实际情况，地方政府必须严格监管，不能指望奖励让员工自己举报，除非举报的奖励足够诱人。按照目前的管理制度，中央政府与煤矿之间，中央政府与煤矿员工之间，一般无直接相互作用，煤矿安全由地方政府监管，只有发生特别重大事故时，由国家煤矿安监总局成立调查组调查，与煤矿和煤矿员工发生直接的相互作用，此时的调查结果是非常值得信任的，故可以不分析中央政府与煤矿和煤矿员工的博弈。类似的，读者可以设计一个算例来分析各方行为。

（三）重复博弈

煤矿安全的监管实际是一个重复博弈的过程，因而上述四个博弈都会重复进行。在重复博弈的过程中，四个参与方主要的变动是，代表中央政府的国家安全监督管理总局会换届，地方政府和地方各级安全监督管理局会换届，煤矿员工也具有较高的流动性，根据这些特点，可以认为，重复博弈只会进行有限次，根据重复博弈的研究结论，如果均衡是唯一的，那么有限次重复博弈的结果和一次博弈的结果是相同的。因此，前文所述博弈模型可以只考虑博弈一次的情况，不需要再重新分析博弈的均衡。

（四）合作博弈

如果煤矿安全监管的实际情况违反假设（5），可建立合作博弈模型，由于合作博弈的分析框架与非合作博弈分析框架差异较大，限于篇幅和本文已有框架，不在本文展开，但合作博弈亦可作为煤矿安全博弈的分析工具。

（五）动态博弈和不完全信息博弈

如果煤矿安全监管的实际情况违反假设（7）和（8），可分别建立动态模型和非完全信息模型。实际情况一般比较符合这两个假设，故动态和不完全信息博弈可以不展开，一旦这两个假设不满足，则应该展开分析。

五、结论

总结四个模型，不难看出各方的基本选择：煤矿按照自己的意志决定安全投资水平，安全投资常常不足；地方政府监管力度取决于中央政府的监督力度；煤矿员工部分遵守安全规程，对安全事故隐患和调查保持沉默。通过博弈模型的分析，提出如下建议：

一是在安全管理机制上彻底实行由国家安监总局垂直领导各级地方安全监督管理机构，因为地方政府监管力度取决于中央政府的监督力度，如果地方监管机构由国家安监总局垂直领导，国家安监总局的目标就能实现，就能彻底改变煤矿安全形势，提升安全水平。

二是煤矿违规的罚款应该与该煤矿的安全投资有可比性，提高煤矿违规成本。

三是事故损失与安全投资要有可比性，科学计算事故损失，尤其是低估命消失对社会和家庭的损失。

四是提高机械化程度，减少有伤亡可能的岗位的从业人员总数。把能够用机器设备代替人的活动都用机器来完成，安全水平一定能够有大幅度提升。参考文献：

[1]于国强. 我国煤矿安全生产行为的博弈分析[J]. 中国煤炭， 2015（11）： 106-110.

[2]余吉安，陈哲，杨斌，等. 基于效用函数的煤矿企业安全投资博弈研究[J]. 中国软科学， 2014 （1）： 115-125.