进化对策论研究论文

时间:2022-11-13 10:03:00

进化对策论研究论文

对于经济学家而言,非合作对策论又称非合作博弈论,是用来分析和研究经济问题的极有价值的工具,因为它提供了建立经济行为人策略相互作用的分析语言,而且它还能导致人们直观的洞察力由简单内容转向更复杂的内容上来。当然,相当多的观点是凭借纳什均衡概念的运用而得到的。这种深受人们喜欢的博弈理论思想日益增长促使人们对另一种事实不断增长的认识和思索,均衡分析在什么时候以及为什么是合适的?对这个问题的解答不是一个简单而容易回答的。可惜的是,博弈论的理论和分析方法还没有提出对纳什均衡概念之外的可供选择的内容。

然而,直到最近10多年来,在均衡选择方面才取得进展,这些进展提出当存在多个均衡时,应该怎样去做。

一、纳什均衡

纳什,在1950年就已经对纳什均衡给出两种解释。第一种是群体作用的解释。此种解释假设,在博弈中存在对每个参与者又称局中人(player)起作用的参与者群体。参与者不断地积累各种纯策略中的令人注意的经验信息,如果此博弈稳定下来,那么这种均衡必是纳什均衡。然而。Shapley在1964年证明,如果博弈没有稳定下来,那么必然存在一种策略选择的有限循环。第二种解释的观点是把均衡看成一个“自动实施协议”或者是理性的预测。如果基于理性的预测是唯一的,那么博弈均衡确实得以存在,这时倘若均衡是众所周知的,它必是纳什均衡。纳什本人对此做了阐述,这是“一种十分强的理性化和理想化的解释”。这对阐述均衡而言是有效的,解决均衡选择问题是一个基本的问题。因此,对于经济学家的研究目的而言,与均衡选择相关的问题是必须加以分析和深入探讨。

对纳什均衡的第三种解释,是由MaynardSmith和Price在1973年首次提出的,它源于生物学领域的研究。在这种解释中完全不存在有意识的选择:参与者预先选取某一种策略,而且更为成功的策略生存下来;如果种群(population在生物学上称为种群,在经济学中我们将其称为群体更好)达到一种稳定状态,那么所有策略必是等价的,因此,这种状态必是纳什均衡。这种生物学上的方法,其优点是它不仅具体指出稳定的结果,而且它还靠可能达成的一些结果来给出一种显示性的过程。

当然,经济学家清楚地意识到将涉及到的生物学领域中的思想和方法应用到经济学领域中的疑问和困难,比如,像生物学中的“复制方程”扩展到经济学领域中的内容和意义是什么,至今还在探索中。

二、进化思想在经济学中应用的回顾

对经济学给出进化的解释不是一种新的手法。实际上,进化解释在社会科学中是先于达尔文(Darwin)而出现。例如,亚当·斯密(AdamSmith)曾说:“带来许多利益的劳动分工,原本不是人类智能的结果,虽然人类智能预见到劳动分工产生普遍富裕,并想利用它来实现普遍富裕。尽管在人类本能里没有意识到这样广泛效用中的一种互通有无、物物交换,以及相互之间交易的倾向,此倾向很缓慢并且渐进产生结果,但是劳动分工是必须的。”

进化思想也能够在马尔萨斯(Malthus)、马歇尔(Marshall),熊彼特(Schumpeter)和哈耶克(Hayek)所写的著作中找到。关于进化经济学,这是一个单独的学科领域,经常与熊彼特的工作相联系。Robson在2001年系统地给出了经济行为的生物学方面的基本解释。

进化经济学与进化对策论至今是完全相互独立地发展起来的。在经济学的理论研究中,理性人的偏好通常是固定的。然而,对于理性人的偏好变化或者进化选择,经济学家对此也进行了研究,特别是利他主义的生存价值以及风险态度等。然而,我们这里的进化对策论是将偏好作为固定的和已知的。

关于市场生存进化方面的研究和探讨,开始于Winter在1964年的文章“经济的‘自然选择’与厂商理论”,接下来Winter在1971年发表了“满足、选择与改革残余物”,Nelson和Winter在1982年出版的著作《经济变迁的演化理论》(有中文版),是这一领域中出现的最为重要的文献。最近由Blume和Easley(1992,1995,1996),Dutta(1992)Dutt和Radner(1993),Radner(1995),Bega—redondo以及Boldeke和Samuelson(1997)等学者在此领域进行探索和研究。虽然这个论题与进化对策论紧密相联系,但是,目前这两种文献在方法论上相距甚远。

三、进化对策论的基本原理与结论

最近10多年里,不像对策论的传统分析方法那样——考虑有限理性的经济行为人以及在严格的认知局限之下必须学习执行策略,这样的对策论理论及其应用有了迅速的发展。这方面的大量研究工作是在称为进化对策论所提供的框架下进行的。正如此学科标题所表示的,这一新学科的原理借用生物学中的进化模型所具有的与众不同的一些特征。然而,此学科本身也发展了一些新的方法和技术,特别地适合于有限理性基本假设下对社会和经济体制方面的分析。进化对策论在10多年里以快速的步伐取得长足的发展。

进化对策沦为人们提供一种具有广泛适用性的工具。其潜在的应用领域从进化生物学延伸到一般的社会科学,特别是经济学中。进化理论在经济学中有着悠久的历史传统。直到最近,这种方法在非合作对策论框架中才得到应用。

进化对策论是研究策略行为的稳健性,它是针对有限理性行为人所组成的大群体中多次博弈背景下的进化力量而言的。这种新的组成部分在经济理论里导致一种新的预测方法,并且为其他社会科学开辟一条崭新的研究途径。

进化对策论的基本内容:

(一)进化稳定策略概念。进化对策论理论中,一个关键概念是进化稳定策略(ESS),这一概念的提出归功于MaynardSmith和Price在1973年的“动物冲突的逻辑”一文。此种策略在特定的意义上对进化压力而言是稳健的:群体执行该种策略对执行任何其他策略而言是非入侵的。假定一对个体是重复随机地来自于大的群体,去参与一个对称并有限的两人博弈,还假定所有的个体在博弈中起初都执行某一个纯的或混合的策略x是进化稳定的,那么对于每一个变异策略y,都存在一个正的“入侵障碍”,使得执行变异策略y的个体群体所获得的支付低于此障碍,从而x赢得的预期支付比执行的y所得要高。下面的不等式对于充分小的ε>0成立,即:

u[x,(1-ε)x+εy]>u[y,(1-ε)x+εy]…………(1)

其中左边的表达式记为对于策略x而言,当执行相对应策略的个体进入之后,混合群体情况的混合策略(1-ε)x+εy时的预期支付,而右边的表达式记为对于策略y而言,其所对应的情况的预期支付。

实际上,由上述定义知道,进化稳定性十分有用的特性是一个策略x是进化稳定的当且仅当(1)它是对自身的最佳反应;(2)它是对所有其他最佳反应的反应,当这些策略对其自身的反应比较时。为了弄清楚(1)是必要的,只需充分观察即知,否则会存在一个对x而言的最佳反应y。在一个充分小的种群中,表现出的这个“变异”策略几乎总会遇到策略x,从而会赢得比x水平高的收益。同样,(2)是必需的,因为否则的话一定会存在一个对x而言的可供选择的最佳反应y,它会赢得与x遇到x的时候或者至少x遇到y时候的收益相同,从而y的平均水平会赢得比混合种群要高一些的收益。注意到,进化稳定性准则没有解释种群是如何达到这种策略的。然而,一旦达到这种策略,则这样的策略对进化压力来说是稳健的。同时,人们发现,进化稳定性没有处理种群中具有两个或更多“变异”同时出现的情况。因而,它隐含地把变异当成稀少事件,以致于种群有时间在另一个变异出现之前响应这种状况。

虽然,进化稳定性准则是一个生物学上的概念,但是它为各种各样的人类行为提供一种有关的稳健性准则。这样,进化稳定性要求人类群体中企图采用可选择的策略的任何一个小团体不比已经采用“固有”策略的那些个体所构成的团体收益好。相反,采用固有策略的那些个体所构成的团体缺乏激励来改变他们的策略。但是,那些采用可选策略的小团体却受激励而具有转变固有策略的行为。在这种社会背景下,进化稳定策略被人们看成是传统习惯或者已经确立起来的行为规则。比如,社会风气、企业管理模式等都可以看为是某种人类群体的规则,而极个别的人群社会行为、习气的变化就会被认为是“变异”。当然,在这种背景下,如果那些极少数的人群或企业的收益比不变异的人群或企业高时,那么这些变异分子会生存得更好!反之,则被淘汰掉。

可惜的是,许多博弈没有进化稳定策略。于是,研究人员探讨各种比进化稳定性稍弱一些的形式,以及集值形式的进化稳定性概念等。此外,ESS概念不能推广到n人对策的情况上。在本质上,ESS要求强的纳什均衡来实施,也就是每一个策略对于策略组而言应是唯一的最佳反应。

(二)复制动力学。复制动力学是选择过程的显性模型,它说明种群是如何分配博弈中有联系的不同纯策略随时间而演化的。复制动力学的数学公式是由Taylor和Jonker于1978年在“进化稳定策略和对策动力学”一文中提出的。他们认为由随机配对的个体所构成的一个大种群执行有限对策的两人博弈,犹如进化稳定性的设置一样。然而,此处的个体仅仅采用纯策略。种群状态是指在纯策略上的一个分布x。这种状态在数学上与博弈中的混合策略是等价的。

如果博弈中的收益表示成生物学上的适合性,也就是后代的数目,同时每一个后代继续其父母的策略,因此,采用纯策略i的个体数目(在大的种群中)将以某一比率指数增长,而此等于对纯策略i的预期收益u(ei,x),当执行着表示种群中当前策略分布的混合策略x时,采用任何纯策略i的种群分布的增长率等于此策略的收益与种群中平均收益的差。后者,等同于混合策略x当与其自身博弈时的预期收益u(x,x)。这是一个单种群的对称两人博弈的复制动力学。

Xi=[u(ei,x)-u(x,x)]xi………………(2)

注意到,对当前种群状态x的最佳反应具有最高的增长率。第二最佳反应具有第二高的增长率,如此等等。然而,虽然更成功的纯策略比欠成功的纯策略增长得快,但是种群中的平均收益不必随时间而增长。产生这一原因的可能性是,如果一个个体由采用最佳策略的个体所代替,那么遇见这个新个体的成员会得到比较低的收益。例如,这正是囚徒困境博弈的情况。如果最初几乎所有个体采用“合作”,那么个体中将逐渐地转向“抵赖”,从而平均收益将下降。然而,如果博弈在两个人总是获得相等的收益意义上是一个双对称的,那么自然选择的基本规律将成立:种群中收益随时间而增长,即使没有必要成为全局最大的。例如,这就是合作博弈的情况,其中所有个体逐渐地转向到执行同一个纯策略上。复制动力学能够推广到n人博弈的情况上,这可以看成是来自于n种群、中的个体随机地以n类型配对,其中每一个参与者的地位状况正如纳什所给出的群体行为解释的那样。目前,存在两种形式的n种群复制动力学,其中一个是由Taylor在1979年提出的,另一个是由MaynardSmith在1982年给出的。

(三)学习模型与选择动力学

人们把学习模型分成三种类型,即基于信念的学习、强化学习以及模仿学习。最近的一些研究表明,复制动力学是由后面两类的某种模型所促成的。

1.强化学习模型

心理学上的有关个体学习文献的中心模型是所谓的强化模型,这是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“导致过去好的选择在将来最有可能重复”。当然,人们注意到这里的选择隐含地作为概率上的一种说法。

Bush和Mosteller的强化学习模型及其他的推广形式,已经在一系列的人类主观执行博弈中得到运用。可惜,这些模型的通常数学性质,人们还知道得很少。然而,Borgers和Sarin在1997年发表的“通过强化和复制动力学的学习”文章把Cross的Bush—Mosteller学习模型的形式与Taylor的两种群复制动力学进行了理论上的对比研究。虽然这种学习过程在离散时间背景中是随机的、演化的,而复制动力学在连续时间背景中是确定的、演化的。他们证明,在适当地构造连续时间的界限下,他们的学习过程在有限时间区间内可通过复制动力学来*近。

更确切地讲,他们研究在多次博弈回合中(n=l,2,…),在一个固定的两人参与者采用混合策略对中有限两人博弈的情况。每一个参与者凭借由其所运用的纯策略来记录概率如下。如果参与者1(同样的考察参与者2)在博弈的n次回合中运用纯策略k,并且获得一个正的收益Vk(n),这里Vk(n)作为随机变量,它依赖于参与者2所做出的随机选择,那么参与者1对于运用这个策略的未来概率将越增加,其收益也就越高。参与者2以同样的方法记录其选择概率向量Y。所有收益均假设处于单位开区间上,不过,这里的收益不能解释成N—M(冯·诺依曼和摩根斯藤)效用。因此,一旦所用策略的概率是递增的,那么所有选择均是强化的。

从任何一个初始概率向量X(0)=x0和Y(0)=Y0开始,方程(3)定义出博弈的混合策略空间中的一个马尔可夫链{X(n),Y(n)}∞n=1。其中参数δ>0表示博弈的两次回合之间的时间:t=nδ是n次博弈回合中的“真实”时间。Borgers和Sarin得到这一过程的连续时间界限,通过设n→∞和δ→0以便有δn=t,在任何有限的“真实”时间上来估计价值。因此,博弈在越来越短的时间区间上执行,同时概率以相称的较小数值得以适应。他们证明,在这个界限内,此过程以状态(x(t),y(t))的形式出现在单位区间概率上,其中如果复制动力学的初始状态在时间0处以(x0,y0)开始,那么复制动力学会在时间t达到。在这个意义上,复制动力学在有限时间区间上近似于强化动力学(3)。

然而,这两类模型的渐进性质却十分不同。例如,为了在直观上理解这点,假设参与者1的收益既是恒定独立于他的策略选择又独立于参与者2的策略选择。设参与者1在强化动力学中的初始状态指派概率等于参与者1的所有可获得纯策略的概率。同样的,设复制动力学的初始状态指派种群的各部分采用策略的概率等于所有可获得纯策略的概率。显然,复制动力学的解是一个常量:所有种群的各部分分得的收益永远相等。然而,强化动力学的实现会容易随时间而收敛到参与者1可获得的任何一个纯策略上。由于在博弈的第一个回合中选用策略的概率将高于在下一次博弈回合中所选用的策略概率,所以强化动力学的性质更有可能把参与者1“锁定”到他的任何一个纯策略上。Borgers和Sarin证明,任何有限两人博弈的强化动力学以概率1收敛到一个纯策略组合上,而不像复制动力学那样。

2.模仿学习模型

博弈论学者Gale,Binmore和Samuelon在1995年提出一个所有个体参与者都采用纯策略的大群体,但是有限博弈的社会学习的简单模型。每一个参与者在博弈中都赢得一个渴望水平的收益。在离散时间0,δ,2δ,…上,任意从群体中抽取个体δ部分,把其当前收益与他们的渴望水平收益相比较,其中δ>0是很小的数。如果个体实现的收益低于其生存水平收益,那么该个体就会随机地模仿已抽取的个体,在相同的参与者群体中,所有其他个体都具有相同的概率被抽取。由此可见,如果渴望水平收益具有均匀分布(某一个区间上包含所有可能的收益值),那么模仿的概率对于个体的当前策略而言,在预期收益上是线性递减的。对于很小的δ,他们证明这个过程可以由有限时间区间上的复制动力学来*近。

人们把个体策略的适应过程作为连续时间中的一个随机过程。假设在有限群体中每一个个体时常得到一个冲动,使其改变纯策略。如果这些冲动是依照i.i.d.的Poisson分布,那么同时发生的概率是零,而且总的过程也是一个Poisson过程。此外,总过程的密度刚好是各个过程密度的和。如果群体是很大的,那么人们利用预期值给出的确定流来近似这个总过程。

Bjornestedt和Weibull在1996年研究了一系列这种模型,其中改变的个体在其博弈的群体中模仿其他的个体,并证明许多正收益的选择动力学可以被人们推导出来,包括复制动力学的三种形式。特别,如果个体改变比率对其策略而言预期收益是线性递减的,那么每一个纯策略Poisson过程的密度是与其个体总数大小成比例,同时比例因素将是其预期收益递减的。如果每一个改变的个体选择其未来的策略是通过在其博弈中随机地模仿抽取的个体,那么其作为结果的流*近也是一个复制动力学。

Schlag在1997年分析当个体经常以参与者的同样地位去模仿其他参与者个体时,个体应该选择什么样的模仿规则的问题,然而参与者的同样地位却受制于信息和记忆的约束。他发现,如果个体想要学习规则是在所有平稳环境中收益递增,那么此个体应该满足:(1)当改变策略时,总是通过模仿来进行;(2)永远不向收益实现比其所拥有收益低的那些个体模仿;(3)向收益实现比其拥有收益高的那些个体模仿。

这种模型被各种各样不同的环境所发展。在有限两人博弈中,Schlag假设在随机地来自于两个相等大小的有限群体的个体之间两两配对,每一个有其自己的地位。个体总是执行纯策略。在每一个收益实现之后,每一个个体都要随机地与其他个体所处的群体进行抽样调查,并且比较两种收益的实现。行为规则是一种函数关系,即把收益实现和所用策略对应到博弈中个体地位上可获得的纯策略集合上的分布,为的是采用新的策略。换句话说,允许使用个体的唯一资料是这种收益实现和纯策略对。特别,从较早的博弈回合中实现收益被忽略。此外,假设个体在所有博弈中运用相同的行为规则,具有相同数目的纯策略可选择;也就是,个体不需要知晓他们执行什么样的博弈,他们知道所使用的纯策略数目就足够了。

在任何这样的博弈中,导致预期收益弱递增的以及在对手种群中对于任何固定策略分布的行为规则,称为改进。本文中的重要结果是对于所有这样规则的刻画。改进规则的一个特征是他们是模仿的:个体坚持其初始的策略或者采用抽样的个体策略;但是不会转向第三个的策略。

行为规则称为是占优的改进规则,如果在某一个博弈中不存在改进规则产生比较高的预期收益改进比例,而且在对手种群中的某一个策略分布上。Schlag证明,某一个行为规则为占优的改进规则,其具有上面给出的性质(1)(2)(3)。这个比例模仿规则是其自己的一个改进规则,而且可以证明它确有一些其他吸引人的性质。Schlag证明,Taylor两种群复制动力学的离散时间形式可以*近在任何给定有限时间范围内导出的一个随机过程,只要种群充分的大就行。

(四)进化对策论中的一些结论

本文集中探讨关于有限n人博弈的显性动力学种群模型方向的介绍,其中个体执行纯策略。首先探讨确定性选择动力学,然后介绍随机进化模型,其中把随机变异过程与确定性选择过程或者随机选择过程结合起来。

研究确定性动力学项目性质的一种直接方法是选取一个初始的种群状态,并且稍后可以计算。然后,人们应该记住让初始的所有纯策略在种群中出现,由于初始的已亡策略将在选择过程中仍保持已亡的状态。这种解的轨迹称为内部的。解的轨迹随时间流逝而安定下来,就称为收敛的。反之,则称为发散的。

如果种群状态是收敛的,那么什么是长时期限制状态的本质呢?可以证明,在任何一种弱的正收益选择动力学中,沿着任何收敛的内部轨迹,限制状态必将构建纳什均衡,研究人员发现,种群执行某种纳什均衡或者在渐进意义上的纳什均衡。Nachbar在1990年第一个证明出单种群复制动力学的这个结果。事实上,如果选择过程遇见弱的正收益的相对温和的条件,且如果汇总的行为随时间而安定下来,那么在长时期种群状态中的个体就好像他们预期一个特殊的纳什均衡对此执行着一个最佳反应,这点颇像是纳什所声称的“群体解释”。

如果对于弱的正收益选择动力学的内部解随时间而收敛,那么我们看到幸存下来的策略在作为结果的混合策略组合的最佳反应的意义上是理性的。此处的问题是,如果解的轨迹不收敛,那么会发生什么情况吗?当长时期中没有均衡达成时,我们产生的问题是,执行是否为理性的。

非合作博弈论中基本的理性假设是参与者不采用作为严格的劣(strictlydominated)纯策略。这个假设要求不知道其他参与者的偏好或者行为。一个更严格的理性一--附有知识的---假设是参与者不采用作为迭代的严格的劣策略。除了回避严格的劣的策略之外,这个假定要求所有参与者相互知道彼此的收益,而这些就是他们知道等等,一直到共同知识的某一个有限水平上使得迭代剔除严格劣的纯策略的过程停止。

因此,进化对策论中的基本问题是进化选择过程是否剔除掉所有的严格劣策略或者所有的迭代的严格劣纯策略。如果所有迭代的严格劣策略消失,那么这提供了在策略上相互作用的参与者行为假设的一种进化证明,就好像此假设是参与者他们作为理性人的共同知识。

Akin在1980年证明,在任何有限对称两人博弈中所有严格劣的纯策略沿着关于单种群复制动力学的任何一个内部解的轨迹都能消失。Samuelson和Zhang在1992年把这一结论推广到某一个两种群选择动力学的正收益子集合中的迭代的严格劣纯策略上。他们将这种情况称为聚集单调的(aggregatemonotonic)。

对长时期进化状态分析的辅助方法是研究种群状态的稳定性,也就是考察种群对于很小的扰动是如何反应的。Bomze教授在1986年曾证明,如果种群状态在单种群复制动力学中是弱的动态稳定的,那么此状态就是对自己的最佳反应,这里的状态被认为是采用混合策略的。经常运用的稳定性准则是李雅普诺夫稳定性,即状态x是李雅普诺夫稳定的,如果x的邻域B包含x的邻域A,使得在A中开始的解将永远保留在B中。不是李雅普诺夫稳定的状态称为不稳定的。因此,不仅进化稳定性的静态稳定性准则,而且复制动力学中的动态稳定性都蕴涵着纳什均衡的实施。这个结果能够推广到任何有限n人博弈中的任何弱的正收益选择动力学上。总之,对进化压力而言,以各种不同方式系统阐述的稳定性都需要纳什均衡来实施。然而,不是所有的纳什均衡在这个方面都是稳定的,因此,这些进化稳定性准则是纳什均衡概念的精炼。

另外,研究者在考察动力学进化稳定性时,把随机因素并入到进化过程的建模当中。特别,变异过程被认为是内在随机的一种情况。随机振动可以凭借稳定性分析方法来解释确定性选择动力学;一个稳定的种群状态对于种群的孤立的很小扰动而言是稳健的。然而,这种稳定分析几乎说不出一系列的小振动或者同时发生的小振动累计之后促成的大振动的稳健性。这样的一系列或者同时发生的连续不断的振动会使种群状态离开选择过程的吸引域。虽然这种大量涌现的小振动不可能是统计意义上的独立而稀少变异的事件,但这一可能性在基本方法上却改变了动力学进化过程的性质。代替历史依赖性(依赖于初始种群状态),此过程会成为遍历的(ergodic),也就是具有一种渐进分布,其中渐进分布是历史独立的(对于所有的初始种群状态都是相同的)。从而,导致人们现今研究的一个专题——随机动力学稳定性。这种研究路线的先驱者是Foster和Young(1990),随后是Fudenberg和Harris(1992),Young(1993)等等。注意到,进化稳定性准则没有解释种群是如何达到这种策略的。然而,一旦达到这种策略,则这样的策略对进化压力来说是稳健的。同时,人们发现,进化稳定性没有处理种群中具有两个或更多“变异”同时出现的情况。因而,它隐含地把变异当成稀少事件,以致于种群有时间在另一个变异出现之前响应这种状况。

虽然,进化稳定性准则是一个生物学上的概念,但是它为各种各样的人类行为提供一种有关的稳健性准则。这样,进化稳定性要求人类群体中企图采用可选择的策略的任何一个小团体不比已经采用“固有”策略的那些个体所构成的团体收益好。相反,采用固有策略的那些个体所构成的团体缺乏激励来改变他们的策略。但是,那些采用可选策略的小团体却受激励而具有转变固有策略的行为。在这种社会背景下,进化稳定策略被人们看成是传统习惯或者已经确立起来的行为规则。比如,社会风气、企业管理模式等都可以看为是某种人类群体的规则,而极个别的人群社会行为、习气的变化就会被认为是“变异”。当然,在这种背景下,如果那些极少数的人群或企业的收益比不变异的人群或企业高时,那么这些变异分子会生存得更好!反之,则被淘汰掉。

可惜的是,许多博弈没有进化稳定策略。于是,研究人员探讨各种比进化稳定性稍弱一些的形式,以及集值形式的进化稳定性概念等。此外,ESS概念不能推广到n人对策的情况上。在本质上,ESS要求强的纳什均衡来实施,也就是每一个策略对于策略组而言应是唯一的最佳反应。

(二)复制动力学。复制动力学是选择过程的显性模型,它说明种群是如何分配博弈中有联系的不同纯策略随时间而演化的。复制动力学的数学公式是由Taylor和Jonker于1978年在“进化稳定策略和对策动力学”一文中提出的。他们认为由随机配对的个体所构成的一个大种群执行有限对策的两人博弈,犹如进化稳定性的设置一样。然而,此处的个体仅仅采用纯策略。种群状态是指在纯策略上的一个分布x。这种状态在数学上与博弈中的混合策略是等价的。

如果博弈中的收益表示成生物学上的适合性,也就是后代的数目,同时每一个后代继续其父母的策略,因此,采用纯策略i的个体数目(在大的种群中)将以某一比率指数增长,而此等于对纯策略i的预期收益u(ei,x),当执行着表示种群中当前策略分布的混合策略x时,采用任何纯策略i的种群分布的增长率等于此策略的收益与种群中平均收益的差。后者,等同于混合策略x当与其自身博弈时的预期收益u(x,x)。这是一个单种群的对称两人博弈的复制动力学。

Xi=[u(ei,x)-u(x,x)]xi………………(2)

注意到,对当前种群状态x的最佳反应具有最高的增长率。第二最佳反应具有第二高的增长率,如此等等。然而,虽然更成功的纯策略比欠成功的纯策略增长得快,但是种群中的平均收益不必随时间而增长。产生这一原因的可能性是,如果一个个体由采用最佳策略的个体所代替,那么遇见这个新个体的成员会得到比较低的收益。例如,这正是囚徒困境博弈的情况。如果最初几乎所有个体采用“合作”,那么个体中将逐渐地转向“抵赖”,从而平均收益将下降。然而,如果博弈在两个人总是获得相等的收益意义上是一个双对称的,那么自然选择的基本规律将成立:种群中收益随时间而增长,即使没有必要成为全局最大的。例如,这就是合作博弈的情况,其中所有个体逐渐地转向到执行同一个纯策略上。复制动力学能够推广到n人博弈的情况上,这可以看成是来自于n种群、中的个体随机地以n类型配对,其中每一个参与者的地位状况正如纳什所给出的群体行为解释的那样。目前,存在两种形式的n种群复制动力学,其中一个是由Taylor在1979年提出的,另一个是由MaynardSmith在1982年给出的。

(三)学习模型与选择动力学

人们把学习模型分成三种类型,即基于信念的学习、强化学习以及模仿学习。最近的一些研究表明,复制动力学是由后面两类的某种模型所促成的。

1.强化学习模型

心理学上的有关个体学习文献的中心模型是所谓的强化模型,这是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“导致过去好的选择在将来最有可能重复”。当然,人们注意到这里的选择隐含地作为概率上的一种说法。

Bush和Mosteller的强化学习模型及其他的推广形式,已经在一系列的人类主观执行博弈中得到运用。可惜,这些模型的通常数学性质,人们还知道得很少。然而,Borgers和Sarin在1997年发表的“通过强化和复制动力学的学习”文章把Cross的Bush—Mosteller学习模型的形式与Taylor的两种群复制动力学进行了理论上的对比研究。虽然这种学习过程在离散时间背景中是随机的、演化的,而复制动力学在连续时间背景中是确定的、演化的。他们证明,在适当地构造连续时间的界限下,他们的学习过程在有限时间区间内可通过复制动力学来*近。

更确切地讲,他们研究在多次博弈回合中(n=l,2,…),在一个固定的两人参与者采用混合策略对中有限两人博弈的情况。每一个参与者凭借由其所运用的纯策略来记录概率如下。如果参与者1(同样的考察参与者2)在博弈的n次回合中运用纯策略k,并且获得一个正的收益Vk(n),这里Vk(n)作为随机变量,它依赖于参与者2所做出的随机选择,那么参与者1对于运用这个策略的未来概率将越增加,其收益也就越高。参与者2以同样的方法记录其选择概率向量Y。所有收益均假设处于单位开区间上,不过,这里的收益不能解释成N—M(冯·诺依曼和摩根斯藤)效用。因此,一旦所用策略的概率是递增的,那么所有选择均是强化的。

从任何一个初始概率向量X(0)=x0和Y(0)=Y0开始,方程(3)定义出博弈的混合策略空间中的一个马尔可夫链{X(n),Y(n)}∞n=1。其中参数δ>0表示博弈的两次回合之间的时间:t=nδ是n次博弈回合中的“真实”时间。Borgers和Sarin得到这一过程的连续时间界限,通过设n→∞和δ→0以便有δn=t,在任何有限的“真实”时间上来估计价值。因此,博弈在越来越短的时间区间上执行,同时概率以相称的较小数值得以适应。他们证明,在这个界限内,此过程以状态(x(t),y(t))的形式出现在单位区间概率上,其中如果复制动力学的初始状态在时间0处以(x0,y0)开始,那么复制动力学会在时间t达到。在这个意义上,复制动力学在有限时间区间上近似于强化动力学(3)。

然而,这两类模型的渐进性质却十分不同。例如,为了在直观上理解这点,假设参与者1的收益既是恒定独立于他的策略选择又独立于参与者2的策略选择。设参与者1在强化动力学中的初始状态指派概率等于参与者1的所有可获得纯策略的概率。同样的,设复制动力学的初始状态指派种群的各部分采用策略的概率等于所有可获得纯策略的概率。显然,复制动力学的解是一个常量:所有种群的各部分分得的收益永远相等。然而,强化动力学的实现会容易随时间而收敛到参与者1可获得的任何一个纯策略上。由于在博弈的第一个回合中选用策略的概率将高于在下一次博弈回合中所选用的策略概率,所以强化动力学的性质更有可能把参与者1“锁定”到他的任何一个纯策略上。Borgers和Sarin证明,任何有限两人博弈的强化动力学以概率1收敛到一个纯策略组合上,而不像复制动力学那样。

2.模仿学习模型

博弈论学者Gale,Binmore和Samuelon在1995年提出一个所有个体参与者都采用纯策略的大群体,但是有限博弈的社会学习的简单模型。每一个参与者在博弈中都赢得一个渴望水平的收益。在离散时间0,δ,2δ,…上,任意从群体中抽取个体δ部分,把其当前收益与他们的渴望水平收益相比较,其中δ>0是很小的数。如果个体实现的收益低于其生存水平收益,那么该个体就会随机地模仿已抽取的个体,在相同的参与者群体中,所有其他个体都具有相同的概率被抽取。由此可见,如果渴望水平收益具有均匀分布(某一个区间上包含所有可能的收益值),那么模仿的概率对于个体的当前策略而言,在预期收益上是线性递减的。对于很小的δ,他们证明这个过程可以由有限时间区间上的复制动力学来*近。

人们把个体策略的适应过程作为连续时间中的一个随机过程。假设在有限群体中每一个个体时常得到一个冲动,使其改变纯策略。如果这些冲动是依照i.i.d.的Poisson分布,那么同时发生的概率是零,而且总的过程也是一个Poisson过程。此外,总过程的密度刚好是各个过程密度的和。如果群体是很大的,那么人们利用预期值给出的确定流来近似这个总过程。

Bjornestedt和Weibull在1996年研究了一系列这种模型,其中改变的个体在其博弈的群体中模仿其他的个体,并证明许多正收益的选择动力学可以被人们推导出来,包括复制动力学的三种形式。特别,如果个体改变比率对其策略而言预期收益是线性递减的,那么每一个纯策略Poisson过程的密度是与其个体总数大小成比例,同时比例因素将是其预期收益递减的。如果每一个改变的个体选择其未来的策略是通过在其博弈中随机地模仿抽取的个体,那么其作为结果的流*近也是一个复制动力学。

Schlag在1997年分析当个体经常以参与者的同样地位去模仿其他参与者个体时,个体应该选择什么样的模仿规则的问题,然而参与者的同样地位却受制于信息和记忆的约束。他发现,如果个体想要学习规则是在所有平稳环境中收益递增,那么此个体应该满足:(1)当改变策略时,总是通过模仿来进行;(2)永远不向收益实现比其所拥有收益低的那些个体模仿;(3)向收益实现比其拥有收益高的那些个体模仿。

这种模型被各种各样不同的环境所发展。在有限两人博弈中,Schlag假设在随机地来自于两个相等大小的有限群体的个体之间两两配对,每一个有其自己的地位。个体总是执行纯策略。在每一个收益实现之后,每一个个体都要随机地与其他个体所处的群体进行抽样调查,并且比较两种收益的实现。行为规则是一种函数关系,即把收益实现和所用策略对应到博弈中个体地位上可获得的纯策略集合上的分布,为的是采用新的策略。换句话说,允许使用个体的唯一资料是这种收益实现和纯策略对。特别,从较早的博弈回合中实现收益被忽略。此外,假设个体在所有博弈中运用相同的行为规则,具有相同数目的纯策略可选择;也就是,个体不需要知晓他们执行什么样的博弈,他们知道所使用的纯策略数目就足够了。

在任何这样的博弈中,导致预期收益弱递增的以及在对手种群中对于任何固定策略分布的行为规则,称为改进。本文中的重要结果是对于所有这样规则的刻画。改进规则的一个特征是他们是模仿的:个体坚持其初始的策略或者采用抽样的个体策略;但是不会转向第三个的策略。

行为规则称为是占优的改进规则,如果在某一个博弈中不存在改进规则产生比较高的预期收益改进比例,而且在对手种群中的某一个策略分布上。Schlag证明,某一个行为规则为占优的改进规则,其具有上面给出的性质(1)(2)(3)。这个比例模仿规则是其自己的一个改进规则,而且可以证明它确有一些其他吸引人的性质。Schlag证明,Taylor两种群复制动力学的离散时间形式可以*近在任何给定有限时间范围内导出的一个随机过程,只要种群充分的大就行。

(四)进化对策论中的一些结论

本文集中探讨关于有限n人博弈的显性动力学种群模型方向的介绍,其中个体执行纯策略。首先探讨确定性选择动力学,然后介绍随机进化模型,其中把随机变异过程与确定性选择过程或者随机选择过程结合起来。

研究确定性动力学项目性质的一种直接方法是选取一个初始的种群状态,并且稍后可以计算。然后,人们应该记住让初始的所有纯策略在种群中出现,由于初始的已亡策略将在选择过程中仍保持已亡的状态。这种解的轨迹称为内部的。解的轨迹随时间流逝而安定下来,就称为收敛的。反之,则称为发散的。

如果种群状态是收敛的,那么什么是长时期限制状态的本质呢?可以证明,在任何一种弱的正收益选择动力学中,沿着任何收敛的内部轨迹,限制状态必将构建纳什均衡,研究人员发现,种群执行某种纳什均衡或者在渐进意义上的纳什均衡。Nachbar在1990年第一个证明出单种群复制动力学的这个结果。事实上,如果选择过程遇见弱的正收益的相对温和的条件,且如果汇总的行为随时间而安定下来,那么在长时期种群状态中的个体就好像他们预期一个特殊的纳什均衡对此执行着一个最佳反应,这点颇像是纳什所声称的“群体解释”。

如果对于弱的正收益选择动力学的内部解随时间而收敛,那么我们看到幸存下来的策略在作为结果的混合策略组合的最佳反应的意义上是理性的。此处的问题是,如果解的轨迹不收敛,那么会发生什么情况吗?当长时期中没有均衡达成时,我们产生的问题是,执行是否为理性的。

非合作博弈论中基本的理性假设是参与者不采用作为严格的劣(strictlydominated)纯策略。这个假设要求不知道其他参与者的偏好或者行为。一个更严格的理性一--附有知识的---假设是参与者不采用作为迭代的严格的劣策略。除了回避严格的劣的策略之外,这个假定要求所有参与者相互知道彼此的收益,而这些就是他们知道等等,一直到共同知识的某一个有限水平上使得迭代剔除严格劣的纯策略的过程停止。

因此,进化对策论中的基本问题是进化选择过程是否剔除掉所有的严格劣策略或者所有的迭代的严格劣纯策略。如果所有迭代的严格劣策略消失,那么这提供了在策略上相互作用的参与者行为假设的一种进化证明,就好像此假设是参与者他们作为理性人的共同知识。

Akin在1980年证明,在任何有限对称两人博弈中所有严格劣的纯策略沿着关于单种群复制动力学的任何一个内部解的轨迹都能消失。Samuelson和Zhang在1992年把这一结论推广到某一个两种群选择动力学的正收益子集合中的迭代的严格劣纯策略上。他们将这种情况称为聚集单调的(aggregatemonotonic)。

对长时期进化状态分析的辅助方法是研究种群状态的稳定性,也就是考察种群对于很小的扰动是如何反应的。Bomze教授在1986年曾证明,如果种群状态在单种群复制动力学中是弱的动态稳定的,那么此状态就是对自己的最佳反应,这里的状态被认为是采用混合策略的。经常运用的稳定性准则是李雅普诺夫稳定性,即状态x是李雅普诺夫稳定的,如果x的邻域B包含x的邻域A,使得在A中开始的解将永远保留在B中。不是李雅普诺夫稳定的状态称为不稳定的。因此,不仅进化稳定性的静态稳定性准则,而且复制动力学中的动态稳定性都蕴涵着纳什均衡的实施。这个结果能够推广到任何有限n人博弈中的任何弱的正收益选择动力学上。总之,对进化压力而言,以各种不同方式系统阐述的稳定性都需要纳什均衡来实施。然而,不是所有的纳什均衡在这个方面都是稳定的,因此,这些进化稳定性准则是纳什均衡概念的精炼。

另外,研究者在考察动力学进化稳定性时,把随机因素并入到进化过程的建模当中。特别,变异过程被认为是内在随机的一种情况。随机振动可以凭借稳定性分析方法来解释确定性选择动力学;一个稳定的种群状态对于种群的孤立的很小扰动而言是稳健的。然而,这种稳定分析几乎说不出一系列的小振动或者同时发生的小振动累计之后促成的大振动的稳健性。这样的一系列或者同时发生的连续不断的振动会使种群状态离开选择过程的吸引域。虽然这种大量涌现的小振动不可能是统计意义上的独立而稀少变异的事件,但这一可能性在基本方法上却改变了动力学进化过程的性质。代替历史依赖性(依赖于初始种群状态),此过程会成为遍历的(ergodic),也就是具有一种渐进分布,其中渐进分布是历史独立的(对于所有的初始种群状态都是相同的)。从而,导致人们现今研究的一个专题——随机动力学稳定性。这种研究路线的先驱者是Foster和Young(1990),随后是Fudenberg和Harris(1992),Young(1993)等等。四、进化对策论在经济学中的应用

进化对策论的产生、发展在本质上就是起因于对策论中关于理性行为人的假设与经济应用中行为人“试验——失误”(即试错法)学习过程相偏离的事实而引发的。从上述的阐述中,我们可以看到,进化对策论在经济学里的应用前景是十分广阔的和吸引人的。

最近,Routledge探讨了金融市场上个体行为人是如何通过适应性或者进化学习来发现内生变化并运用这种内生关系的一种学习模型。他通过对来自于模仿过程和经验过程来对个体的投资行为建模,而不是运用传统上的显性最优化方法放松关于知识和理性的假设。Routledge运用Grossman和Stiglitz的1980年发表的经济模型的形式。Grossman和Stiglitz(GS)模型提供了考察适应学习过程的一种良好的框架,因为它是获得内生信息的标准模型,这点已经被后来的其他许多关于学习方面的模型都是基于GS而提出的事实所证明。

如果假设交易者能够观察到他们自己的适应度和其他行为人的行为,那么模仿是如何发生的许多特殊细节就显得不重要了。Routledge的研究结果表明:首先,作为单调选择动力学的适应学习会促成GS均衡;其次,由单凋适应学习驱使的模仿的稳健性可从随机实验中来获得噪声(noise)来研究。他发现,适应学习是缺少稳健性的。特别,他运用Binmore和Samuelson(1999)的技术来对模仿和经验建模。为了使带有漂移(drift)的适应学习产生GS理性预期均衡,必要的条件是在风险资产供给中的噪声与学习过程中的经验水平有很大的关系。

五、问题与前景

我们注意到,进化过程并不总是导致最优性、均衡或者社会有效性。通过目前已取得的一些成果,我们认为下面的一些方向或许是值得学者进一步探讨与研究的:

(1)引进机构,分析市场选择机制。

(2)探讨博弈中学习规则的进化稳定性。结果,这就会导致拥有适度认知能力的个体的模型。

(3)进一步探讨扩展形式博弈中的进化过程。

(4)对*近理论方面的进一步探讨。我们需要更多地了解确定性模型和随机性模型之间的联系与关系。

(5)探索、研究结构化的稳健预测。显然,某种博弈的子结构,诸如在最佳反应和弱最佳反应的条件下所促成的纯策略集合,是进化过程的稳健吸引子(robustattractor)等。

本文概括地阐述了进化对策论中的理论内容和一些模型,特别是博弈中有关学习模型的新近发展。通过上面的分析,我们发现,进化对策论的发展动力来自于与其他社会学科的交叉融合,吸收其他社会科学中的有益知识。为了把有关的选择过程、学习过程以及变异过程的类别变窄,我们需要更多地知晓个体、团体、组织、厂商以及整个社会是如何随时间而适应和学习的。这里的部分内容正是实验对策论中所要探讨的,同时这也是我们应向其他社会科学学习的领域。

参考文献:

1.王忠玉:《1994年度诺贝尔经济学奖与对策论》,载《科学(ScientificAmerican中文版)》,1996(7),3—5页。

2.王忠玉:《金融市场从众行为的数理模型》,载《中国管理科学》,2000(2),50~55页。

3.Binmore,K.,1990.EssaysontheFoundationsofGameTheory,BasilBlackwell.

4.Binmore,K.,Samuelson,L.andVaughan,R.,1995.MusicalChairs:ModellingNoisyEvolution.GameandEconomicBehavior11,1--35.

5.Binmore,K.andSamuelson,L.,1999.EvolutionaryDriftandEquilibriumSelection.ReviewofEconomicStudies,66,363--393.

6.Blume,L.andEasleyD,1992.EvolutionandMarketBehavior.JournalofEconomicTheory58,9-45.

7.BlumeL.andEasley,D.,1990.EvolutionandLearninginCompetitiveMarkets,inKirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).

8.Bomze,1.andPotscher,B.,1989.GameTheoreticalFoundationsofEvolutionaryStability.SpringerVerlag(Berlin).

9.Bomze,I.andWeibull,J.,1996.DoesNeutralStabilityImplyLyapunovStability.9Gameand

EconomicBehavior11,173--192.

10.Bryan,R.Routledge,1999.AdaptiveLearninginFinancialMarkets.TheReviewofFinancial

Studies12,1165--1202.

11.Canning,D.,1990.LearningandSocialEquilibriuminLargePopulations,in

Kirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).

12.Cressman,R.,1992.TheStabilityConceptofEvolutionaryGameTheory,SpringerVerlag(Berlin).

13.VanDammeE.,1987.StabilityandPerfectionofNashEquilibria,SpringerVerlag(Berlin).

14.Dekel,E.andScotchmer,S.,1992.ontheEvolutionofOptimalBehavior.Journalof

EaonomicTheory57,392--406.

15.Fudenberg,D.andLevine,D.,1993.Steady-stateLearningandNashEquilibrium,Econometrica61,523-574.

16.Fudenberg,D.andLevine,D.,1997.TheTheoryofLearninginGames.MITPress.

17.Haesanyi,J.andSelten,R.,1988.AGeneralTheoryofEquilibriumSelectioninGame,MITPress.

18.Kandori,M.,Mailath,G.andRob,R.,1993.Learning,Mutation,andLong-runEquilibriainGame,Econometrica61,29--56.

19.Nelson,R.andWinter,S.1982.AnEvolutionaryTheoryofEconomicChange.HarvardUniversityPress(CambridgeMA).

20.Robson,J.A.2001.TheBiologicalBasisofEconomicBehavior.JournalofEconomicLiterature,Vol.ⅩⅩⅩⅨ(March2001),11--33.

21.Samuelson,L.andZhang,J.,1992.EvolutionaryStabilityinAsymmetricGames.JournalofEconomicTheory,57,363--391.

22.Weibull,J.,1995.EvolutionaryGameTheory.MITPress.

23.Vega--Redondo,F.,1995.Expectations,DriftandVolatilityinEvolutionaryGames.GamesandEconomicBehavior11,391-412.