博弈最优策略十篇

发布时间：2024-04-29 16:20:20

博弈最优策略篇1

论文摘要：信贷市场中，企业获得贷款后基于自身利益的驱动会产生道德风险，从而加大了银行信贷风险。本文建立了银企博弈模型，得出银行可以将审核概率控制在一定阀值上，从而降低企业的道德风险。在此基础上，设计了银行对借款企业的激励契约，得出抵押物价值和贷款利率的最优线性关系。

随着我国金融业的不断开放，我国商业银行面临着日益激烈的竞争，借款企业的道德风险已经成为银行较高不良资产率的主要原因之一发放贷款后，由于信息不对称，银行往往无法对企业进行有效监控，企业可能做出损害银行利益的行为，这就是企业道德风险。

银企博弈模型

交易双方为银行和借款企业，假设两者均风险中立。博弈顺序如下：借贷双方针对某一项目签订借贷合同，贷款额度为B。合同规定抵押价值Q以及贷款利率i等，显然Q>B。企业可选择“不改变资金用途”或“改变资金用途”两种纯策略，对应的项目失败概率t1和t2，显然，t10，高风险意味着高收益)。银行收益始终为r，有r=iB。项目失败后，银行由于存在审核成本，故其策略有“审核”与“不审核”，对应概率分别为α和1-α，审核成本为C。如果审查出企业“改变资金用途”，则银行没收抵押后并给予企业惩罚π，其中可以是信用等级的降低等。

双方收益函数：企业不改变资金用途，如果项目成功，企业和银行收益分别为R-r和r；如果项目失败并且银行选择审核，双方收益分别为B-Q和Q-B-C，如果银行选择不审，双方收益分别为B-Q和Q-B。企业改变资金用途，如果项目成功，企业和银行收益分别为R+Δ-r和r；如果项目失败并且银行选择审核，双方收益分别为B-Q-π和π+Q-B-C，如果银行选择不审，双方收益分别为B-Q和Q-B。

博弈的均衡分析

如果一个混合策略是企业的最优选择，那么意味着企业是否改变资金用途的期望收益无差异，即：(1-t1)(R-r)+t1[α(B-Q)+(1-α)(B-Q)]=(1-t2)(R-r+Δ)+t2[α(B-Q-π)+(1-α)(B-Q)]，得出：

同理，如果一个混合策略是银行的最优选择，那么意味着银行审核与不审核之间的期望收益是无差异的。引入一个条件概率λ(c/f)，表示项目失败后银行认为企业改变资金用途的概率，由贝叶斯法则得：这种情况下银行审核与不审核的期望收益相同，即：λ(c/f)(π+Q-B-C)+[1-λ(c/f)](Q-B-C)=Q-B，得出：

因此，所求的α和p即为所求纳什均衡点。这表明当银行审核概率低于α时，企业最优策略是改变资金用途；当银行认为企业改变资金用途的概率小于p时，考虑到审核成本，银行选择不去审核。所以，银行可以将审核概率控制在一定阀值之上，就能够有效控制道德风险。

激励契约设计

银行在设计契约时，应理性预期到双方的博弈策略选择及其各种局势的支付，进而设计激励契约。设计契约如下：

{(1-p)(1-t1)r+(1-p)t1[α(B-Q-C)+(1-α)(Q-B)]+p(1-t2)r+pt2[α(π+Q-B)+(1-α)(Q-B)]}(1)

s.t(1-t1)(R-r)+t1(B-Q)≥0(2)

(1-t1)(R-r)+t1(B-Q)≥(1-t2)(R-r+Δ)+t2[α(B-Q-π)+(1-α)(B-Q)](3)

r=iB(4)

银行的最优策略是使自身期望收益即(公式1)达到最大；同时应满足不改变资金用途的企业的参与约束(公式2)；为激励企业不改变资金用途，还应满足激励约束(公式3)，即不改变资金用途的企业获得的收益应大于改变资金用途的企业。(公式4)为r与B的关系。

添加参与约束因子β和激励约束因子γ构造拉格朗日函数，得出β=1，γ=1-p。

当γ≠0，即p≠1时，因此约束条件(2)和(3)取等号，解之得：;当γ=0，即p=1时，即银行认为企业一定会改变资金用途，则银行一定会审核，即α=1。

由结果可知，在最优博弈策略的基础上，银行利润最大时其最优抵押物价值和贷款利率存在以上线性关系。一般，当贷款额度和贷款利率一定时，抵押物价值与项目失败率成反比，因此，银行可以通过设计不同的抵押物价值要求的契约来对企业进行激励。

参考文献

博弈最优策略篇2

关键词：商家选址策略组合最优反应

1.引言

美国诺贝尔经济学奖第一人萨缪尔森说过，“要在现代社会做一个有文化的人，你必须对博弈论有大致的了解。”博弈于我们的生活中无处不在，凡是两个及以上的行为人进行决策的过程，都会涉及到博弈，因利益而发生冲突或对抗是人类社会的一个普遍现象。大到国家政治、生死之地、存亡之道，小到人生棋局、日常生活、游戏，谋略型对抗都是最为常见的局势。本文将用博弈论的观点解释商家选址问题，为什么卖同类商品的商家会紧挨着布局。

2.什么是博弈

所谓博弈，就是策略性的互动决策。任何一个博弈，至少包括三个要素：

2.1一组局中人（一个局中人集合）；

2.2局中人可以采取的行动（出招）；

2.3局中人可能得到的赢利。

标准的博弈论，假设人们不会有道德、良心和情感上的考虑，所有的一切都唯一以是否符合自身的利益作为行动选择的标准。任何一个博弈中，每个人的赢利不仅取决于自己如何“出招”，也取决于别人如何“出招”。正是这种战术上的互动，使得博弈充满了趣味、新奇，甚至惊险、刺激。而所谓博弈论，就是一套研究互动决策行为的理论，它实际上也可以看做是一种思维方式，即谋略型思考问题的方式。

3.最优反应与纳什均衡

最优反应是指，给定对手选定一个策略，则我选择某个策略比选择其他策略都要好，那么选择这“某个策略”就是我对于对手选定策略的最优反应。

纳什均衡是这样一种状态，在该状态下每个参与人所采取的策略都是对于其他参与人的策略的最优反应。以二人博弈为例，纳什均衡就是一个策略组合（甲的策略，乙的策略），甲的策略是对于乙的策略的最优反应，而乙的策略也是对于甲的策略的最优反应。

4.商家选址问题

不管我们出门旅游，还是城市购物，您会发现，卖同类商品的卖家经常会紧邻在一起。最大的快餐连锁店肯德基和麦当劳，也经常会集中在一个地点，甚至相连。好多人都会想，这不是增大了自身的竞争吗？用博弈论的观点，我们很容易解释这个问题。

4.1商家选址模型

设两地a、B的距离为1000米，两个商家甲、乙要在此选址开店。设两地间均匀分布着1000名顾客，每个顾客都将在距离自己最近的店铺消费。那么这两个商家将如何布局他们的店铺？

设商家甲将在距离a处x米开店，乙将在距离甲y米出开店，如图1所示：

将该模型中，商家的支付系数越大，则吸引的顾客越多，设计支付矩阵，如表1所示：

由表1支付矩阵，我们可以得出，当x

同理，当x=500米，甲选在中点时，乙的最优策略也是选在中点；

当x>500米，甲选在距离B地较近处时，乙的最优策略是距离甲左侧y米处，所得支付系数为：x-0.5y，当然，y=0时最大，即紧挨着甲的左侧开店；

在上述模型中，两个商家会发现，如果自己摆在中点以左（或右）的位置都是不好的，因为对方可以通过摆在紧邻自己的右（或左）边，即可获得超过1/2的顾客消费者，而自己只能获得少于1/2的顾客消费者。只有自己安置在中点位置，这才是最好的，因为无论对方紧邻自己左边还是右边，自己始终可以得到1/2的顾客，其他位置不可能得到这么多顾客，于是，两个商家就紧挨着将店铺都开在了中点上。

5.现实问题解释

上述的商家选址模型的博弈，还可以用于政治选举中拉票活动的分析，也可以用于解释为什么卖同类物品的商家都紧挨着布局，为什么有麦当劳的地方大多数都会有肯德基。在上述博弈模型中，（中点，中点）是一个纳什均衡，两个商家都已选取了他们的最优反应，甲选择中点是对已选择中点的最优反应，而乙选择中点是对甲选择中点的最优反应。只有在这样的策略组合下，博弈的双方才能得到一个稳定的结果，即达到了纳什均衡。

参考文献：

[1]拜尔、格特纳、皮克.法律的博弈分析[m].北京：法律出版社，2004．

博弈最优策略篇3

[关键词]合作困境　博弈分析　现实对策

中图分类号：D125・4　文献标识码：a　文章编号：1007-1369(2007)2-0046-05

石油是现代经济的血液，对于经济快速发展的中国和资源匮乏的日本具有重大的战略意义。从“安大线”、“安纳线”较量到东海海洋权益争端，再到现在日趋浮现的在非洲石油输出国的竞争，石油因素在两国关系及其政治话语中已具有重要地位。鉴于中日两国政治关系的脆弱性，以及国际能源环境变化的不确定性和全球化、区域化下的双边、多边能源合作的快速发展，加强中日海外石油合作，对于发展面向21世纪的稳定的中日关系具有重大的现实意义。

本文采用博弈论的分析方法，通过对中日之间在海外石油市场上竞争态势的分析，探讨中日在海外石油上采取合作策略的制约困境与现实对策。

制约困境的博弈分析

1.博弈理论的一般说明博弈是假定为理者的个人、团体或组织，面对一定的环境，在一定的约束条件下，依靠所掌握的信息，同时或先后，一次或多次，从各自可能的行为或策略中进行选择并实施，各自从中取得相应结果或收益的过程。由于它强调理者之间相互影响的制衡关系，因此在全球化不断发展，国家间联系不断增多的情况下，博弈及其研究理论日益被用来描述、研究国家间日趋复杂的相互依存关系。鉴于国际社会天然的无政府状态与国家不懈的自助努力，因此在博弈理论中，非合作博弈又成为现代博弈论研究的重点。

按照博弈理论的一般分类，根据行为者所占有的信息集的完全程度和行为的行动顺序，非合作博弈可分为：

其中，完全信息静态博弈是其他博弈分析的起点，有着较为严格的条件假设--它要求追求利益最大化的理者掌握完全的信息集(即对博弈策略与利益有清楚的了解)，并且在决策时不存在相互间的信息交换，而且一旦决策后就只能等待结果。因此，对于行为者来说，尽管此类博弈中占有完全的信息集，但是由于决策时信息交流的阻断，导致行为者无法确定对方是否会采取“背德”行为使自己利益受损，以致为了实现自身利益的最大化而不得不采取自己的“最优策略”，所以由此看来，在完全信息静态博弈中，主导行为者最优决策思维的并非是帕累托最优，而是风险上策均衡。其结果便是，行为者从自身利益最大化出发，不约而同地采取了“坦白”策略，却最终得到了“集体利益”最小化的“囚徒困境”。而在目前中日两国的海外石油竞争中，此种情况却大量存在。

比如在中日在俄输油管线的较量中，本来中俄议定的“安大线”全长只有2400公里，造价只有20～25美元(其中俄方17亿，可从中方获得50％的贷款)，且所经地区自然环境优越，便与施工养护。假如日本在此问题上合作，共担建设费用和管理成本，共享由此获得的石油收益，那么两国各自在投资上必然小于20～25美元。但是，由于日本担心中国在俄的输油管建设威胁其“太平洋石油管线”“战略计划”，所以在“安大线”即将开工之际，日本便提出了从西伯利亚地区安加尔斯克至海参崴地区纳霍德卡的“安纳线”计划。该线不仅全长3765公里，造价50亿美元(全部由日本承担，而且日本还需再追加10亿美元助俄管道建设)，而且所经地区有1100公里的地震区，施工养护条件恶劣。此后，中日两国展开了激烈的竞争，其结果便是俄罗斯改建“泰纳线”(从泰舍特至纳霍德卡)，日本不仅要为此方案提供50亿美元贷款，中国亦愿意向该工程陆续投放120亿美元的贷款，而且还让俄罗斯给中日两国附加上了“安全保障”。所以与先前的“安大线”相比，可见其代价之巨大。

但是，值得注意的是，完全信息静态博弈的理论假设之一是行为者在决策时不发生任何的信息交换。可从现实来看，中日之间在多边与双边层次上存在着不同程度、不同形式的对话交流，比如在多边层次上，中日两国可通过联合国、亚太经合组织、东盟论坛、东亚峰会等场合进行对话交流；在双边层次上，中日之间可借助中日战略对话和东海问题磋商等会议进行信息交换和对话磋商，所以可以认为，当中日两国的决策者在进行策略选择时，可以从多种渠道了解对方的策略意图--从目前来看，实现石油供应源的多样化，稳定石油来源等已成为中日两国各自对对方能源战略的基本认知，而世界石油的储量、价格、交易、运输等信息更是两国都能掌握的公共信息。所以这不得不令人发问：中日两国为何在具备信息交流的情况下，还不能突破困扰两国的“囚徒困境”?

要回答这问题，完全信息静态博弈由于其严格的条件限定，已不能担此重任，而需借助于条件限定较为放宽的完全信息动态博弈。在完全信息动态博弈中，行为者追求利益最大化的本性与掌握完全信息集的要求并未改变，但是允许行为者在做出策略选择时有先后顺序，后行动者可以根据先行动者的行为信息做出自己的策略选择，从而实现一定程度的信息交流，因此比较适合用于分析中日两国在海外石油博弈中所遇到的“囚徒困境”。

实际上，假如采用“大历史观”的审视问题视角，从技术角度看待事物之间的相互联系与历史脉络，将中日两国在海外石油上的博弈放人中日两国“双重崛起”(即中国的和平发展与日本谋求政治大国的诉求)的背景下，将中日“双重崛起”下的国家战略性博弈与其他次国家层面或超国家层面的各类博弈总计为G，将中日在海外石油市场上的博弈记为g，那么在g与G之间便因石油本身在现代社会政治话语中所具有的战略性意义，不仅自然联系起来，形成一个简化的次数为2的“有限次重复博弈”，而且使石油在g中得益在G中的作用直接体现出来，使构建得益函数UG=UG(ug)成为可能。

在有限次重复博弈中，在每次重复博弈之前，以前博弈的结果各行为者都能观察到，成为下次博弈中行为者行动的参考依据，所以在有限次重复博弈中，行为者不能只考虑某个阶段的得益，而需顾及前次博弈的得益对后次博弈的影响以及最后的总得益。因此对于中日两国间由g与G构成的有限次重复博弈，中日双方不仅要考虑g的得益，还要考虑g的得益对G的影响以及最后的总得益。由于是有限次数重复，所以可以借助“逆向归纳法”对此作具体的博弈分析。

2.具体的博弈分析

首先，进行条件假设。由于石油作为一次性能源的不可再生性，其探明储量与产量在特定时期，技术发展既定的情况下是有限的，所以石油资

源人类活动约束已呈现出“存量约束”的形式。所以可假定在只有中日两国的封闭系统中，海外石油资源存量为X，中国对外石油的依赖度为d，那么中国就需要从外进口石油量为dX，假如中国能实现这一进口量，那么日本获取海外石油量为(1-d)X。由此根据基数效用理论假定出中国在g中的得益为ugl=adX-Bp，日本在g中的得益为ug2=C(1-d)X-Dp(其中a、B，C、D分别为中日在g中的得益系数，在一定的技术条件下a、B，C、D恒定，但是，从现实来看，在一定技术条件下，日本的技术水平在常态分布上高于中国，所以a

其次，用逆向归纳法对上述假设进行具体分析。由于中日之间政治互信度比较低，在中日之间双重崛起的背景下，一方面中国政府由于日本对历史问题的虚无主义态度，对华关系的定位(目前日本将中日关系定性为“协调与共存”、“竞争与摩擦”混在的关系)以及近来日本对周边的一些举动等，担心日本走向政治大国后的政策走向；另一方面，日本政府面对中国快速的和平发展和自己过去所经历的“丧失的十年”，心理上难以调适并担心发展起来的中国危及自身的战略利益，特别是日本作为目前国际体系的既得利益者，其固有的保守心态是它尤其担心作为后发国家的中国缩小与它的差距，从而改变现有利益布局，所以在中日两国的博弈中，日本政府的最优策略便是使U1'

求解导数R∞=U1’，可得U1’=ad{1+[e(b1)/(1+r1)]}①，同理可得U2'=C(-d){l+[e(b2)/(1+r2)]}②(这里“一”表示中日两国间的负相关关系，比较时取其绝对值)，比较①与②，可以发现，由于从2003-2006年间，中国经济的r1一直保持高位运行，分别是10.o％、10.1％、10.4％、10.7％，日本经济的r2则为1.4％、2.6％、0.8％、2.8％，所以1，(1+r1)必然小于1/(1+b)。而在e(h)函数上，由于日本在2001年的能耗强度为0.91，而同期中国的能耗强度却为8.45，换句话讲，就是同等能耗，日本将有更多的产出，因而也就对生更大的影响，即e(h1)

究其原因，症结就在于未能将纳什均衡贯彻于动态博弈的各个阶段，实现子博弈精炼纳什均衡。按照子博弈精炼纳什均衡的条件要求，行为者的最优策略必须贯彻于博弈的各个阶段，以便在博弈的各个阶段实现纳什均衡。而在上述分析中，δ与e等系数借助影响单位X增益而作用于G博弈在日本政府的最优策略中得到了体现，尽管借此可实现策略选择在G博弈中的纳什均衡，但是却忽视了最优策略在g博弈中的贯彻，因而也就未能在g博弈中实现纳什均衡。所以对于日本政府来说，将最优策略进一步贯彻于g博弈中以便在g博弈也实现纳什均衡，就成为其必然的策略选择。从上述表达式来看，U1

实际上，日本政府选择阻扰或干扰中国海外油源拓展的对抗策略，就是这一策略考量的直接体现。因为在贴现系数存在的情况下，尽管阻扰或干扰中国海外油源的拓展的举动并不能必然带给日本单位x的增益，但是由于r1>r2，带来δ1

自己在既得利益分布中的地位。而对中国来说，情况亦是如此，只能采取“针锋相对”的策略，不断拓展自己稳定的海外油源(这在客观上起到了阻扰或干扰日本海外油源拓展的作用)，才能保证自己的损失总小于日方。由此可以看出，双方的对抗策略借助对d的影响将纳什均衡贯彻到了博弈中，从而实现了在整个次数为2的有限性重复博弈中的子博弈精炼纳什均衡。由此也就可以理解为何在海外石油市场上，中日之间不断出现拓展、干扰、再拓展、再干扰……局面的原因。

最后，经过上述分析，基本可以得出如下结论：

(1)双方缺乏政治互信，才使得双方不断追求相对得益，奉行自我利益占优的纳什均衡策略。

(2)减弱d的影响，缓解相互制约的负相关关系，既是双方贯彻最优策略，在博弈的两个阶段实现纳什均衡的着力点，也是双方实现子博弈精炼纳什均衡后的客观结果。

(3)油价因素在上述条件下的博弈中并不发挥主要作用。换言之，高油价并不必然导致合作产生，有时高油价还会导致对稳定油源的进一步争夺。

现实对策：订立基于互信的政治契约

1.订立基于互信的政治契约的必要性

基于上述分析，可以看出，中日两国缺乏政治互信是导致两国不断追求相对利益，奉行自我利益占优的纳什均衡策略的主要原因。按照新现实主义的看法，感到不安全的国家总关心收益如何分配，它们并不注重参与者两方是否都收益，而只关心谁多得益。如果收益分配不均，得益的国家总想要削弱对方以改变自己在利益分配中处于不利地位，即使利益分配的双方有获得绝对收益这种愿望，但都害怕对方的实力增强对自己有威胁，所以合作起来就不成功。

因此，要实现中日在海外石油上的合作，就必须首先在双方之间订立基于互信的政治契约，消除因对对方不信任而产生的不安全感以及由此引发的对相对收益的追求。而一旦这种政治契约得以订立，那么按照新制度经济学的判断，将促进双方实现“记忆编码”，使其参与的博弈转变成“制度支持的完美记忆”(institution-assistedperfectrecall)博弈，从而大大提高信息交换的效率，稳定双方在博弈中的行动策略与心理预期，进而缓解双方因对方政策可能出现的突变性而产生的不安全感，降低谈判中的“讨价还价”成本，推动合作进程的快速发展。

在这一点上，法德和解给与了历史的佐证。在1963年，法德两国签署了《法德友好条约》。其意义不仅在于标志着法德双方和解的开始，更在于它还是法德之间基于互信订立的一种政治契约，使得双方从此可以秉信释疑，开诚布公地探讨地区合作事宜，携手推动欧洲一体化的发展。

2.订立基于互信的政治契约的着力点

任何政治契约的订立，都是缘于对利益的关注，也都以利益为订立契约的着力点，所以中日之间订立基于互信的政治契约，也必须以两国利益为着力点。

根据上述困境分析，减弱d的影响，缓解相互制约的负相关关系是双方在整个有限性博弈中贯彻最优策略，实现各自利益占优的着力点：日本政府借此缓解中日之间相互制约的负相关关系的策略是对抗，即阻挠或干扰中国海外油源的拓展，导致中国也不得不采取针锋相对的策略，最终形成了双方追求各自利益占优的子博弈精炼纳什均衡。

实际上，在当今世界，保证稳定的油源，缓解相互制约的负相关关系一直有两条思路：一是直接拓展油源，保证有稳定的石油供给，上述中日博弈也就是在这方面展开；二是寻找替代能源，发展节能技术。如果说前者在中日博弈中证明其占优策略为对抗的话，那么第二种则要在合作中实现自我利益最优。所以只要中日双方转换思维，加强双方在替代能源、节能技术上的合作，那么就可以规避在前者中面临的纳什均衡，在合作中实现各自利益的最优。因此，中日双方订立基于互信的政治契约，其着力点就可以放在寻找替代能源，发展节能技术上。首先在“节流”上培养双方的信任度，随后在一定程度时将此信任度“外溢”至“开源”领域，从而实现双方“记忆的编码”，缓解双方在此领域的担心与焦虑，进而达到订立互信政治契约的目的，最后消除双方的不安全感，使双方摒弃对相对收益的追求，在“开源”领域实现合作的最优收益。

而且从现实来看，此种着力点也有其存在的客观现实性：

第一，中国有寻找替代能源，发展节能技术的积极愿望。“节能优先”已成为中国可持续能源战略的重要组成部分。

第二，日本有着较为发达的开发替代能源、发展节能技术的科技水平。比如2005年9月，日本与印度签署的两国在能源领域进行综合性合作的共同声明，已堪称能源合作的典范。

博弈最优策略篇4

LanXiaosheng

（ChinaCommunicationConstructionCompanyLimited，Chongqing401147，China）

摘要：文章引用博弈理论来分析投标行为，针对当前建筑市场上主要采用的最低标价中标评标办法，进行理论分析，建立了基于博弈理论为基础的投标报价模型，并对其结论进行了分析和讨论。

abstract:thisarticleexplainstheactivityofbiddingbyquotingthegametheory,anddiscussesthelowestpriceBiddingevaluationmethodinconstructionmarket.thenitestablishesthemodeloftenderbidevaluationmethodsbasedonthegametheory.Finallythearticleanalysesanddiscussestheconclusionfurther.

关键词：投标博弈模型

Keywords:tender；gametheory；model

中图分类号：tU723.2文献标识码：a文章编号：1006-4311（2011）15-0075-02

0引言

招投标是建筑市场中广泛采用的工程承包方式，随着投标市场的不断规范，逐步完善，评标方法也开始多元化。由于市场竞争的日趋激烈，越来越多的国家和地区采用了最低价中标的评标原则（以下简称最低价法）。文章以此评标标准为基础，用博弈论分析投标者之间报价行为，针对最低价中标的评标办法进行理论分析，建立了基于博弈理论的最低价法的投标报价模型，为投标企业报价提供理论上的指导。

1投标报价的博弈类型、分析

博弈论，也称对策论，是研究决策主体的行为发生直接相互作用时候的决策，以及这种决策的均衡问题的理论方法。

招投标整个过程实际上是个博弈行为，这是投标人与投标人之间、投标人与招标人之间的博弈。

投标报价决策所面临的问题纷繁复杂，因为投标人在决定投标前和决定投标后都有很多不确定性的因素，每一个竞争者为了达到自己的目的，必须考虑其他对手的各种可能行动方案对自己决策行为的直接影响，并力图选取对自己最为有利与合理的对策，也就是通常所言的投标对策论。

1.1博弈类型的划分博弈类型的划分可以从两个角度进行。一是参与人行动的先后次序，从这个角度博弈可以划分为静态博弈和动态博弈。静态博弈是指参与人同时选择行动或虽非同时，但后行动者并不知道先行者采取什么行动；动态博弈是指参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动[1]。

另外一个角度是参与人对有关其他参与人的特征、战略空间及支付函数的知识。从这个角度来看，博弈可以划分为完全信息博弈和不完全信息博弈，前者指的是每一个参与人对所有其他参与人的特征、战略空间及支付函数有准确的知识；后者指的是参与人对其他参与人的知识是不完全的。

1.2招标投标博弈分析不完全信息静态博弈也称静态贝叶斯博弈，其中“不完全”信息是指博弈中至少有一个博弈方不完全清楚其他博弈方的得益或者得益函数。不完全信息并不是完全没有信息，实际上不完全信息的博弈方，至少必须有关于其他博弈方得益分布的可能范围和分布概率的知识，否则，博弈方的决策就会完全失去依据，博弈分析也就没有意义。

任何博弈分析的核心问题都是博弈方之间策略的均衡，静态贝叶斯博弈的研究成果也就是投标报价各博弈方的策略对其他博弈方策略的最佳反应。投标报价问题是静态贝叶斯博弈，招投标期间，投标人在各自的投标报价中，独立地做出决定，等价与同时选择行动，在招投标结束时，局中人彼此不知道其他投标人采取什么具体的行动，因此，投标报价问题是典型的不完全信息静态博弈。

投标报价是投标过程的中心环节，各个博弈方的策略就是他们各自提出的报价。由于各投标人信息互相保密，标书是密封递交的且同时开标，各博弈方在选择自己的策略之前都无法知道其他博弈方的策略，只能根据以往的经验作大致的判断，各博弈方的估算成本和报价属于自己私人信息，招标人根据招标文件中的评标办法，确定中标人，投标人的目标就是为了中标获取最大利益，这显然是一个不完全信息静态博弈问题，是静态贝叶斯博弈[2]。

2投标报价的博弈模型

根据博弈分析，我们首先要确定参与投标者、投标价、项目成本估价、投标人收益函数等博弈模型的基本要素：

设定有n个投标人，设为i=1，2，…，n。参加某工程项目招标投标，第i个投标人测定该工程成本估价为ci。ci只有i自己知道，并且相互独立，假设投标人均为理性的，并有着一定的投标报价经验，即ci在[0，1]均匀分布。

第i个投标人的报价设为bi，若他中标则其净效益为bi-ci，否则效益为0。假定局中人都是风险中性的，即效用期望值等价于确定值。

在招标博弈中，假定所有有效投标人的项目方案均符合招标要求，最终结果是报价最低者获得工程承建权。因此对i个投标人的收益函数ui为：

u■b■，b■，c■=b■-c■b■b■（1）

上述收益函数：

第一种情况是博弈方i标价低于另一博弈方，中标得益；

第二种情况是同时有几个博弈方报价相同，中标概率相等；

第三种情况是博弈i的报价高于另一方，不中标，此时得益为0[3]。

3最低标价法的决策模型的理论推导

3.1投标报价博弈的基本要素最低价中标投标报价博弈的基本要素包括：参与人、企业竞争信息情报、战略、效用和均衡。投标报价博弈分析的目的就是使用博弈规则决定投标报价的均衡。

①虚拟参与人用n来代表“自然”，参与工程竞标的所有建筑企业，设为i=1，2，…，n；

②企业能够收集到的参与工程竞标的竞争对手的历史投标报价资料数据；

③对于静态博弈而一言，战略也即行动，各竞标参与人的投标报价为a1，a2，…，an，其中ai∈ai={ai}，对于不同的建筑企业的报价有各自的浮动范围，aimin?燮ai?燮aimax，i=1，2，…，n；

④由于工程竞标具有排他性，通常只能有一家中标，因而对于各投标企业而言，设各个企业对于招标工程成本的认定为ai，则效用为：

u■a■，…a■，…a■=0a■-a■（中标或未中标时的收益）（2）

⑤均衡：各参与竞标的建筑企业最优战略（即报价）的组合。即一组报价为：s■=a■■，…，a■■，…，a■■，其中i=1，2，…，n。

3.2投标报价的博弈特征工程投标报价的博弈特征主要有：

①参与工程竞标的博弈参与人不具备（也不可能完全具备）关于博弈的全部信息。

②在公开招标投标活动中，只有到开标后各参与人才能得知对手报价情报的详细信息，虽然递交的标书有先后，但是可以认为是同时采取行动的。

在报价博弈中，每个投标人只知道自己对招标工程的个别成本，并不通晓其他人对该工程的个别成本，只是对别人可能的个别成本有一个主观概率，所以是不完全信息静态博弈。给定投标人i的个别成本c和投标报价b，则得益函数期望值为：

eu■=（b-c）■pb■

这里pb■

投标人1面临的问题是使自己的效用最大化，即：

maxeu■=（b－c）■pb■

当投标人选择b时，他的个人价值为（b），均衡条件下Φ（b）=c，理性的投标人之间相互博弈的结果是投标报价趋近于项目成本价，投标人越多，投标价格越接近项目成本。这种决定了投标报价的原则实际上反映了博弈方所面临的矛盾，那就是标价越小中标机会就越大，但中标的得益较小；而标价越大中标机会就越小，但中标的得益就较大。因此，采取兼顾中标机会和得益大小的折中原则，也就是确定为成本价加上自己估计其他博弈方利润加价的一个比例来进行报价，这是报价的最佳选择[4]。

3.3投标报价博弈模型的最优解

3.3.1模型均衡解的存在性参加公开招标投标的工程承包商竞标活动的典型博弈特征使得我们可以运用不完全信息静态博弈理论，对工程项目的竞争进行诊释。博弈理论均衡解存在性定理―纳什定理，认为建设项目投标报价博弈作为一个有限博弈至少存在一个纳什均衡解。这条定理以及工程项目的投标竞标的特征，奠定了工程项目投标报价的博弈均衡解的存在性的理论基础。

3.3.2两个投标人的投标报价模型求解如果考虑到只有两个人投标人（即n=2）的情况，投标人的得益函数即为：

u■b■，b■，c■=b■-c■b■b■（5）

投标人得益函数的期望值eu■为：

eu■=b■-c■pb■

其中pb■

eu■=b■-c■pb■

■=gb■+b■-c■g′b■（8）

由此可解得局中人i对对手采用f的最优反应函数，由于对称的贝叶斯均衡中每个人的策略都相同，因此b■取函数f应该处处满足以上一阶条件，也就是等于：

gfc■+fc■-c■g′fc■=0（9）

由于f和g互为反函数，所以我们有gfc■=c■，以及gfc■=1/fc■，因此就得：

-c■+■=0（10）

解此微分方程得到：

fc■=■（11）

即对称的贝叶斯均衡策略为b=■时，为最优解。

3.3.3n个投标人的投标报价模型求解根据n个投标人投标报价得益函数公式和投标人的期望值为公式，则一阶条件得：

■＝－g■（b）+（b－c）（n－1）g■（b）g'（b）=0（12）

求解微分方程得：

b=■c（13）

当n=2时，上式即为公式fc■=■；

当n=∞时，b趋近于c。也就是说投标人的报价等于工程发包最合理的价值和价格[5]。

4投标报价模型的诊释

4.1从模型中可以看出，如果成本降低，最优策略报价也要相应的降低；根据以上公式可知，随着报价的降低，中标的概率将增大。

4.2通过对模型的求解，我们也可以得出随着参与竞标的承包商的数量增多，贝叶斯纳什均衡的最优战略报价将会越来越接近各自完成该项工程的成本，即：

4.2.1当一个投标者把自己的标价压低在成本的边缘或以低于成本的价格中标时，从瞬时效果来看，首先降低了自己的获利空间，其他投标者则因此无法中标；

4.2.2从长期效果来看，投标者1的行为向其他投标者传递了一条信息，即在类似竞标环境中，如果要战胜投标者1这类投标者而中标，需要把报价降低到低于投标者1的报价水平上，才有较大的把握中标，于是投标者们纷纷降低报价，可以想象本次的中标价格水平将再次降低。

4.3如果长期如此，每个投标者都会为自身的生存发展而担忧，为了给自己留下生存的空间，各个投标者将达成一种默契，共同将报价维持在一个能够获得合理利润的水平上。在这一点上，竞标报价行为虽然属于非合作的博弈行为，但也体现了一定的合作博弈的思想[6,7]。

5结论

依据博弈论的思想以及以上模型的分析，我们还可以看出，中标的必然是对该工程项目价格预期最小的投标人，投标企业要最大限度的降低成本，并选择低报价的投标策略，争取更大的中标机会。从理论上讲，让更多的承包商参与投标会降低中标价格，这样既方便业主更好的选择优秀的承包商，也为业主更好的节省了资金，因此国际、国内工程招标一般都采用合理的最低中标评标办法。

实施合理最低评标价法是一项系统工程，需要项目法人责任制、建设监理、合同管理、工程风险管理（如：工程保险和工程保证担保）、资质管理、工程质量监督管理等制度的配套，才能更好地实施合理最低评标价法。

参考文献：

[1]avinashDixit,SusanSkeath,（蒲勇健译）.策略博弈（GamesofStrategy）[m].中国人民大学出版社，2007.

[2]张维迎.博弈论与信息经济学[m].上海：上海人民出版社，1996.

[3]郝丽萍.基于博弈模型和模糊预测的投标报价策略研究[J].管理工程学报，2002（16）：94～96.

[4]何增勤.工程项目投标策略[m].天津大学出版社，2004.5.

[5]胡静，王世良.几种基于博弈论的施工企业投标报价模型[J].技术经济与管理研究，2004（2）：65～67.

博弈最优策略篇5

【关键词】演化博弈;有限群体;复制动态方程;对称博弈

1.引言

演化博弈论结合了经典博弈论与演化生物学的知识，最主要特点是摒弃了完全理性的假设，将参与者视为有限理性。为了内在动力学研究和数学表达的便利性，研究演化博弈论最常选用复制动态方程，因此复制动态方程对其研究起着至关重要的作用。目前对2×2对称博弈[1]和非对称博弈[2，3]、3×3对称博弈和非对称博弈[4]的复制动态方程都进行了演化均衡的稳定性分析，得到了较完整的结论。在这些研究中，对复制动态方程，有一些共同的假设：（1）博弈群体数量无限;（2）博弈个体均匀混合。但是对于种群个数无限大的假设并不符合现实，现实系统中种群规模都是有限的，因此出现了很多研究将假设条件从无限群体变成有限群体[5]。本文将博弈群体从无限变为有限，然后研究博弈的演化过程与最终趋势。

2.2×2对称博弈的复制动态方程

博弈论中，经典2×2对称演化博弈的收益矩阵如表1所示。

表12×2对称演化博弈收益矩阵

博弈者及策略

a参与者乙

参与者甲aa，ab，c

Bc，bd，d

表2奇点的稳定条件

奇点稳定条件直接排斥的奇点可能共存的奇点

，n/a

图1奇点Ⅰ唯一稳定

收益矩阵的意义是：若参与者甲和乙均采取纯策略a，他们的收益为;若参与者甲和乙均采取纯策略B，他们的收益为;若参与者甲和乙分别采取策略a和策略B，则他们的收益为或。假设有限群体拥有n个个体，有i个个体采取纯策略a，则剩余的n-i个个体采取纯策略B。即个体采v取策略a和B的比率分别为、，且有。采取纯策略a和纯策略B的平均收益分别见式（1）、（2）：

（1）

（2）

设，，则（1），（2）可分别改写为（3）、（4）：

（3）

（4）

因此我们可以得到基于有限群体2×2对称博弈的复制动态方程如式（5）所示：

（5）

3.复制动态方程的奇点

令，求出复制动态方程的奇点（3个）：

，，

每个奇点分别代表不同的物理意义。按其所代表的物理意义的特征可分为2种类型：①在邻域内，2个策略中有1个策略对另1个策略占优，属于这类奇点的有和，其中，时，，B策略比a策略占优;时，，a策略比B策略占优。②在邻域内，2个策略间竞争激烈，在邻域内不存在占优或被占优情形，属于这类奇点是：

此时：

a策略和B策略分别以一定的比例共存。

4.复制动态方程的稳定性

下面分析这些奇点的稳定性及稳定条件。

令，则：

（6）

将三个奇点分别带入上式（6）中，分析每个奇点的稳定条件。

（1）

根据稳定性判定条件，此奇点的稳定条件是：

（2）

根据稳定性判定条件，此奇点的稳定条件是：

（3）

根据稳定性判定条件，此奇点的稳定条件是：

利用二次函数的性质，得到稳定条件为：

化简可得：

最后，总结复制动态方程3个奇点的稳定条件及共存排斥情况，如表2所示。

5.相平面图验证

选取不同算例，利用matlab软件绘制相平面图，验证以上奇点的稳定条件和共存排斥情况。

相平面图a，b，c，d取值种群个数n结论

图1a=3，b=2，c=5，d=42奇点Ⅰ唯一稳定

200

图2a=4，b=5，c=2，d=22奇点Ⅱ唯一稳定

200

图3a=4，b=2，c=2，d=52奇点Ⅰ和Ⅱ共存

200

（1）根据复制动态方程的规律，a=3，b=2，c=5，d=4，策略B占优于策略a。由图1可看出，当种群个体数从2，20，200逐渐接近于无限大时，相应的曲线也逐渐接近于稳定，说明最终演化效果一致。但当n较小时，曲线的拐点会提前出现，证明博弈需要的时间较少，能更快作出决定。

（2）根据复制动态方程的规律，a=4，b=5，c=2，d=2，策略a占优于策略B，由图可看出，当种群个体数从2，20，200逐渐接近于无限大时，相应的曲线也逐渐接近于稳定，说明最终演化效果一致。但当n较小时，曲线的拐点会提前出现，证明博弈需要的时间较少，能更快作出决定。

图2奇点Ⅱ唯一稳定

图3奇点Ⅰ和Ⅱ共存

（3）根据复制动态方程的规律，a=4，b=2，c=2，d=5，策略a与策略B双稳定，由图可看出，当种群个体数从2，20，200逐渐接近于无限大时，相应的曲线也逐渐接近于稳定，说明最终演化效果一致。但当n较小时，曲线的拐点会提前出现，证明博弈需要的时间较少，能更快作出决定。

参考文献

[1]吴昊，杨梅英，陈良猷.合作竞争博弈中的复杂性与演化均衡的稳定性分析[J].系统工程理论与实践，2004（2）：90-94.

[2]孙庆文，陆柳，严广乐等.不完全信息条件下演化博弈均衡的稳定性分析[J].系统工程理论与实践，2003（7）：11-16.

[3]黄仙，王占华.多群体复制动态模型下发电商竞价策略的分析[J].电力系统保护与控制，2009（12）：27-31.

博弈最优策略篇6

本文主要介绍进化博弈理论的基本动态模型：对称博弈模仿者动态模型和非对称博弈模仿者动态模型及其相关结论。为了便于理解，在文中引用了一些简单的例子说明它们之间的区别与联系。在此基础上文中还介绍了理论家们对随机动态所进行的相关研究及其所取得的理论成果。最后本文比较了经典博弈理论②与进化博弈理论在动态概念上的差别。

关键词：进化稳定策略⑩；模仿者动态；随机稳定均衡

进化博弈理论至少自Lewontin（1960）用于解释生态现象就已经产生了，并被广泛应用于生态学、社会学及经济学等领域来研究群体行为的演化过程及其结果。进化博弈理论从有限理性的个体出发，以群体为研究对象，认为现实中个体并不是行为最优化者，个体的决策是通过个体之间模仿、学习和突变等动态过程来实现的。进化博弈理论强调系统达到均衡的动态调整过程，认为系统的均衡是达到均衡过程的函数，也就说均衡依赖于达到均衡的路径。动态概念在进化博弈理论中占有相当重要的地位，许多博弈理论家对群体行为调整过程进行了广泛而深入的研究，根据他们考虑问题的角度不同而提出了不同的动态模型，如weibull(1995)提出的模仿动态（imitationDynamics）模型；BörgersandSarin(1995，1997)等提出的强化动态③（ReinforcementDynamics）模型等等。但到目前为止，在进化博弈理论中应用最多的还是由taylorandJonker(1978)提出的模仿者动态（ReplicatorDynamics）模型。模仿者动态是进化博弈理论的基本动态，它能较好地描绘出有限理性个体的群体行为变化趋势，由之得出的结论能够比较准确地预测个体的群体行为，因而倍受博弈论理论家们的重视。本文集中介绍确定性模仿者动态概念、模型及其与经典博弈动态概念的区别。

一、确定性模仿者动态

一般的进化过程都包括两个可能的行为演化机制：选择机制(Selectionmechanism)和突变机制（mutationmechanism）。选择机制是指本期中能够获得较高支付的策略，在下期被更多参与者选择；突变是指参与者以随机（无目的性）的方式选择策略，因此突变策略可能获得较高支付也可能获得较低支付，突变一般很少发生。新的突变也必须经过选择，并且只有获得较高支付的策略才能生存（Survive）下来。按所研究的群体数目不同，进化博弈动态模型可分为两大类：单群体(monomorphicpopulation)动态模型与多群体(polymorphicpopulations)动态模型。单群体动态模型是指所考察的对象只含有一个群体，并且群体中个体都有相同的纯策略集，个体与虚拟的参与人④进行对称博弈。多群体动态模型⑤是指所考察的对象中含有多个群体，不同群体个体可能有不同的纯策略集，不同群体个体之间进行的是非对称博弈。博弈中个体选择纯策略所得的支付不仅随其所在群体的状态变化而变化，而且也随其他群体状态的变化而变化。下面重点介绍单群体与多群体动态模仿者动态模型。

1.1、单群体确定性模仿者动态模型

单群体模仿者动态模型是由taylorandJonker(1978)在考察生态演化现象时首次提出的。他们把一个生态环境中所有的种群看作为一个大群体，而把群体中每个种群都想象或程式化为一个特定的纯策略。群体在不同时刻所处的状态一般用混合策略来表示。所谓模仿者动态是指使用某一纯策略的人数所占比例的增长率等于使用该策略时所得支付⑥与群体平均支付之差，或者与平均支付成正比例。为了说明的方便，本文首先给出一些符号，然后给出taylorandJonker(1978)模仿者动态公式的推导过程。

假定群体中每一个个体在任何时候只选择一个纯策略，比如，第j个个体在某时刻选择纯策略（当然由于突变或策略转移，同一个体在不同时刻可以选择不同的纯策略）。

表示群体中各个体可供选择的纯策略集；n表示群体中个体总数；表示在时刻t选择纯策略i的个体数。

表示群体在时刻t所处的状态，其中表示在该时刻选择纯策略i的人数在群体中所占的比例，即。

表示群体中个体进行随机配对匿名博弈时，群体中选择纯策略的个体所得的期望支付。

表示群体平均期望支付。

下面给出连续时间模仿者动态公式，此时动态系统的演化过程可以用微分方程来表示。在对称博弈中每一个个体都认为其对手来自于状态为x的群体。事实上，每个个体所面的对手是代表群体状态的虚拟个体⑦。假定选择纯策略的个体数的增长率等于⑧，那么可以得到如下的等式：

由定义可知，两边对t微分可以⑨：

两边同时除以n得到:

上式就是对称博弈模型中模仿者动态公式的微分形式。可以看出，如果一个选择纯策略的个体得到的支付少于群体平均支付，那么选择纯策略的个体在群体中所占比例将会随着时间的演化而不断减少；如果一个选择策略的个体得到的支付多于群体平均支付，那么选择策略的个体在群体中所占比例将会随着时间的演化而不断地增加；如果个体选择纯策略所得的支付恰好等群体平均支付，则选择该纯策略的个体在群体中所占比例不变。

从上面的公式推导过程可以看出，taylorandJonker提出的模仿者动态仅仅考虑到纯策略的继承性，而没有考虑到混合策略的可继承性。Bomze（1986）证明了如果允许混合策略也可以被继承，那么在模仿者动态下，进化稳定策略等价于渐近稳定性。另外，下面不加证明⑾地给出Hofbaueretal.(1979);Zeeman(1980)提出并证明的一个命题，“在模仿者动态下，对称博弈中每一个eSS都是渐近稳定的”。这个命题的逆命题并不成立，下面用Fudenberg(1995)的一个反例来给予说明，考察表Ⅰ矩阵所示的对称博弈：

纳什均衡（a，B）、（B，a）和一个混合策略纳什均衡（即群体中一半个体选择策略a，另一半个体选择策略B）。由于本文仅考察单一群体情形，即群体中个体无角色（Role）区分，因此不可能分离出两类个体，所以这个系统不可能收敛到非对称纳什均衡（a，B）、（B，a）。在模仿者动态下，尽管没有单个个体选择混合策略，但这个混合策略纳什均衡却是该动态系统唯一进化稳定均衡且是渐近稳定均衡，下面证明它的渐近稳定性。

提出的，在动态博弈中就显示出其局限性了。这个定义只考虑到其他参与人决策对自己的影响而没有考虑自己的决策对其它人的影响。现实中参与人的行动有先后顺序，后行动者自然会根据先行动者的选择所传递的信息来调整自己的选择；先行动者自然也会理性地意识到自己的行动会传递自己有关信息（不完全信息时）。Selten(1965)把这种信息的传递过程纳入到博弈模型中，提出了动态博弈的基本均衡概念---子博弈精练纳什均衡（Subgameperfectnashequilibrium）。与纳什均衡相比，子博弈精练纳什均衡虽然可以剔除静态博弈中不可置信的威胁，但不能够从根本上解决博弈中多重均衡问题，其最大的缺陷在于没有削弱参与人理性要求。Krepsandwilson(1982)把信息和不确定性引入到动态博弈中而提出“序贯均衡”把子博弈精练均衡与贝叶斯均衡结合起来。进化博弈理论重点研究群体行为的动态调整过程。其基本的均衡概念----进化稳定策略的直观思想是，如果一个群体的行为模式能够消除任何小的突变群体，那么这种行为模式一定能够获得比突变群体更高的期望支付，那些选择获得较低支付策略的群体随着时间的演化最终会从原群体中消失。进化稳定策略[4]是一个邻域概念，与动态系统的渐近稳定性及吸引子有相似的性质，主要描述系统局部的动态性质，因而可以把影响均衡过程的各种因素纳入到其动态模型中，特别是FosterandYoung(1990)提出的随机稳定均衡（StochasticStabilityequilibrium）概念把影响经济系统的各种随机因素都纳入到其模型中，使得由该理论均衡概念所得的预测结果更准确、更真实地描述参与人群体行为。

3.4、研究的起点不同

虽然，经典博弈理论加入了个体之间行为的互动性，但依然是从单个理性消费者或生产者出发来研究资源的最优化配置问题，这种研究方法⒇的最大缺陷就是无法实现由个体行为到集体行为的转化。一个明显的例子就经典博弈理论中囚徒困境博弈，在该博弈中两个囚徒都从个体理性出发，但得到了集体非理性均衡的结论。也就是说，经典博弈理论无法从研究个体最优行为过渡到集体最优的资源配置。与此不同，进化博弈理论则直接以参与人的群体为其研究的逻辑起点，在考虑到影响参与人行为的社会因素、文化因素、民族习俗及个体生活习惯等因素的基础上进一步考察群体中有限理性个体的行为互动关系，通过研究群体中个体行为的互动关系来进一步研究社会资源的配置问题。这种研究方法很巧妙地避开由个体行为向集体行为转化问题，因而能够更加真实地反应现实人的决策过程及其决策结果。

3.5、所用数学工具不同

经典博弈理论建立在信息可以免费获取、参与人有无限信息处理能力及参与人是完全理性的等假定下而得出经济系统常常处于均衡状态的结论。在任何时候、任何条件下，参与人都能够迅速解出最优决策，因此在该理论中主要利用微积分中最优化理论来分析参与人的决策行为，通过跨时期最优化计算来把静态理论动态化。进化博弈理论由于要考虑影响系统达到均衡的各种因素，并且主要考察系统在达到均衡过程中所受到确定或随机因素的影响，因此该理论需要用较高深的数学工具如：动力系统理论、微（差）分方程理论、拓扑理论、混沌理论等来分析均衡过程。

注释：①本文为2002年中国经济学年会的入选论文。张良桥：广东省顺德职业技术学院，邮编：528300。②本文把源于冯·诺意曼和摩根斯滕经纳什发展而成的博弈称之为经典博弈论，可参阅文献[1]，[2]。③其实质就是个体与群体进行博弈，即个体通过对群体选择不同策略的个体数的观察来确定自己的选择。Selten(1980)通过对个体引入角色限制，首次考察了非对称博弈中的均衡问题，并证明了“在非对称博弈中进化稳定均衡等价于严格纳什均衡”④其实质就是个体与群体进行博弈，即个体通过对群体选择不同策略的个体数的观察来确定自己的选择。⑤Selten(1980)通过对个体引入角色限制，首次考察了非对称博弈中的均衡问题，并证明了“在非对称博弈中进化稳定均衡等价于严格纳什均衡”。⑥在这里所说的支付与生态学里所说的繁殖成活率或适应度（fitness）是一个等价的概念。⑦在许多进化博弈理论的文献中，都认为个体与自然（nature）进行博弈。⑧在这里是模仿者动态的最基本的假定，由此可以得到以后的所在的结论。⑨⑩进化稳定策略与纳什均衡策略之间的区别在文献[4]中有详细的介绍。⑾由于该命题的证明要用到动力系统的熵理论，在此就不给出证明，可参阅文献[10]。⑿所谓纳什均衡是指一个策略组合，在该组合下任何参与人单独偏离都不会变动比不偏离好，也就是说，在给定其它参与人选择条件下，每一个参与人都选择了使自己获得最大期望效用或利润的决策。事实上，这个博弈也有两个非对称的纳什均衡，但由于我们所考察的是对称博弈，群体中不可能分离出两类不同的参与者，所以博弈结果不可能趋于非对称的纳什均衡。另外，由于进化稳定策略集是纳什均衡的子集，所以要找进化稳定策略首先需要找出纳什均衡，然后找进化稳定策略。⒀一个稳定状态叫做汇(Sink)，如果在该状态的雅可比矩阵的特征根都在单位圆内（离散时）或者有负实部（连续时）。⒁由模仿者动态方程进行支付变换，可得⒂所谓严格纳什均衡即是严格占优纳什均衡。给定对手选择的情况下，每个人都通过选择严占优的策略而组成的纳什均衡⒃⒄FosterandYoung认为由于系统总会受到迁移和背景突变因素的影响，所以可以假定系统不可能达到策略单纯形的边界，当系统接近边界就会离开即边界就象一面镜子起着反射作用。⒅⒆进化博弈理论与经典博弈理论的区别在文献[3]中有详细的介绍⒇该理论的核心概念----纳什均衡是指假定其他人选择不变的情况下，每个个体都选择使得自己获得最大支付的策略。从数学上来讲，纳什是通过应用角谷静夫不动点定理来证明纳什均衡存在性的，并且一般的求解过程就是通过求单个个体期望支付函数的偏导数（即假定其他参与人选择不变的数学体现）并解联立方程组（纳入互动关系）得出的

参考文献

[1]王则柯（1999）：《博弈论评话》，中国经济出版社。

[2]张良桥（2001）：《进化稳定均衡与纳什均衡：兼谈进化博弈理论的发展》，《经济科学》，3，103-111。

[3]Bergin,J.andL.L.Barton(1996):evolutionwithState-Dependentmutations,econometrica,64,943-956.

[4]Börgers,t.andR.Sarin(1997):LearningthroughReinforcementandReplicatorDynamics,Journalofeconomictheory,77,1-14.

[5]Foster,D.,andp.Young(1990):StochasticevolutionaryGameDynamics,theoreticalpopulationbiology,38,219-232.

[6]Fudenberg,D.andC.Harris(1992):evolutionaryDynamicswithaggregateShocks,Journalofeconomictheory,57,420-441.

[7]Kandori,m.G.mailath,andR.Rob(1993):Learning,mutation,andLong-runequilibriainGames,econometrica,61,29-56.

[8]Krepsandwilson(1982)：“Sequentialequilibrium”,econometrica.

[9]Lewontin,R.C.(1960):evolutionandthetheoryofGames.JournaloftheoreticalBiology,1,382-403.

[10]maynardSmith,J.andG.R.price(1973):“theLogicofanimalConflicts”,nature,246,15-18.

[11]Selten,R.,(1980):anoteonevolutionarilyStableStratifiesinasymmetricanimalConflicts,J.theoret.Biol.84,93-101.

[12]Selten,R.,(1965):SpieltheoretischeBehandlungeinespligopolmodellsmitnachfagetragheit,ZeitschriftfurdiegesamteStaatswissenschaft,12,301-324.

[13]taylor,p.D.andL.B.Jonker(1978):evolutionarilyStableStrategyandGameDynamics,mathBiosci.40,145-156.

[14]weibull,J.(1995):evolutionaryGametheory,Cambridge,mitpress.

thebasictheoriesofdynamicsinevolutionarygames

博弈最优策略篇7

关键词：广告合作；供应链；协调；博弈

中图分类号：F252；F274文献1引言

供应链中制造商与零售商为了提高销售量对产品进行了有效的广告宣传。但广告宣传策略存在差异：制造商为了提高品牌影响力和市场占有率而实施全国性的广告宣传策略；零售商面向本地市场，为了刺激潜在的消费者做出购买决策而实施地方性的广告宣传策略。由于零售商为顾客提供了制造商所不能提供的适宜的和所需的信息，制造商为了补偿零售商，承担了零售商的一部分地方广告投入，实施了地方广告合作。这样也降低了零售商的促销成

本，提高了零售商的广告积极性。

近年来，在有关供应链广告合作的研究文献中，傅强等[1]建立了以制造商为主导的Stackelberg博弈和nash博弈来分析不同博弈均衡下的最优广告策略和订货策略选择。王圣东等[2]研究了直销和代销两种营销模式下的广告合作问题，分别建立了分散和集中决策下的制造商和商的最优广告决策模型，分析了两种营销模式对供应链双方广告决策的影响。石岿然等[3]考察了以制造商为主导的Stackelberg博弈和合作博弈两种情形下的最优广告策略，得出了合作时的广告水平、订货量和整条供应链利润均优于不合作情形的结论。王磊等[4]研究了一个制造商与两个竞争零售商的供应链中，当零售商替代性很强时，制造商应当降低对零售商广告的补贴率来减轻零售商之间的过度竞争。Xie[5，6]等讨论了非合作的Stackelberg博弈模型和合作博弈模型的最优广告策略，得出了合作比非合作能够产生更多利润的结论。

上述文献均假设需求仅受到广告投入的影响，而忽视了现实中的需求还受到零售价格的影响。本文假设需求受到产品零售价格和广告投入的双重影响，需求函数为相乘型形式，建立了nash静态博弈、以制造商为主导的Stackelberg博弈、以零售商为主导的Stackelberg和合作博弈模型来分析供应链中实施广告合作策略对供应链各方最优决策和收益的影响以及供应链各方的最优选择对广告合作决策的影响，最后对四种模型进行了比较分析。

2博弈模型

21模型假设

假设1：市场需求函数为D=D0f（p）g（a，a）。其中：D0为基本需求；f（p）=α-βp表示零售价格对基本需求的影响系数（α，β>0）；g（a，a）=kra+kma表示广告投入对基本需求的影响系数，a表示零售商的地方广告投入，a表示制造商的全国广告投入，kr和km分别表示零售商和制造商广告投入的敏感系数。

因此市场需求函数可表示为：

D=D0（α-βp）（kra+kma（1）

假设2：若w表示制造商的单位产品批发价格，t表示制造商的地方广告分担率，p表示零售商的单位产品零售价格，则制造商、零售商的收益及总收益分别为：

Πm=wD0（α-βp）（kra+kma）-at-a（2）

Πr=（p-w）D0（α-βp）（kra+kma）-（1-t）a（3）

Πm+r=pD0（α-βp）（kra+kma）-a-a（4）

22nash静态博弈

博弈最优策略篇8

关键词:企业融资行为;非对称信息;博弈;纳什均衡

中图分类号:F830文献标识码:a文章编号:1006-3544（2006）04-0029-02

一､企业融资的博弈主体及假设条件

(一)企业融资的博弈主体

由于我国资本市场不发达,导致企业的对外融资中,间接融资比例较高,据统计,我国企业对间接融资的依赖至今仍在90%左右｡因此,中国企业融资博弈主要表现为间接融资过程中的博弈｡同时,由于“金融二元论”及“所有制歧视”以及民营企业自身因素等方面的原因,使对国民经济贡献了74%的工业增加值,56%的GDp的民营企业在间接融资中所占比例不足20%,因而国有企业是间接融资中资金的主要需求主体｡另外,我国的信贷市场垄断程度相当高,迄今为止,四大国有银行仍然占有较大的市场份额,因而国有银行是间接融资中资金的主要供给主体｡这说明,中国企业融资过程中的博弈主体是国有企业和国有银行｡因此,本文主要分析国有企业与国有银行的融资博弈｡因为从这一角度对我国企业融资主体博弈的分析具有代表性,现实意义较强｡

(二)博弈主体的目标与策略定位

1.博弈主体的目标定位｡在博弈过程中,经济制度､产权安排以及法律约束条件等虽然对企业融资主体的博弈行为有影响,但本文将其作为影响博弈主体行为的外生变量来考虑｡由于我国过渡经济的特征和改革过程中的所有者缺位问题尚未得到很好解决,国有企业与国有银行在两权分离的委托―关系中形成了具有相对完整的经营权和部分剩余索取权｡（1）在无行政干预的条件下,国有银行拥有相对完整的经营权,其决策目标是利润最大化,约束条件是风险最大化｡在我国目前利率尚没有完全实现市场化的条件下,国有银行决策目标就转化为如何将贷款的风险或损失降到最低｡国有银行将根据信贷资金的“三性”原则决定是否向融资企业发放贷款｡（2）在无行政干预条件下,国有企业也拥有相对完整的经营权,其决策目标是利润最大化｡企业将根据融资成本与收益的比较选择融资方式及是否继续融资,即按融资的边际收益与边际成本相等(mR=mC)的原则进行决策｡当边际收益>边际成本(mR>mC)时,企业继续融资,否则,将减少融资,直至边际收益与边际成本相等(mR=mC)｡另外,由于我国企业自身积累能力较低,其正常运转严重依赖于对外融资,如果不向外融资,企业将会停产甚至破产,因此,对企业而言,向外融资的成本(贷款利息､债券利息或股份的分红派息)远低于不向外融资的成本(破产成本或停工待料等造成的损失)｡由于我国资本市场不发达,企业的直接融资受到严格限制,融资成本高于间接成本,因此,企业的最佳融资方式是间接融资｡

2.博弈主体的策略定位｡(1)国有企业的策略定位｡国有企业存在两种类型:绩优企业(还贷能力强的盈利企业)和绩差企业(没有还贷能力的亏损企业)｡在国有企业类型方面存在非对称信息,国有银行是信息劣势方,国有企业是信息优势方｡国有企业的融资策略有不向外融资､直接融资和间接融资三种｡在国有企业获得贷款后,有偿还贷款(还本付息)和拖欠贷款两种策略｡(2)国有银行的策略定位｡对于国有企业的贷款申请,国有银行有两种策略选择,即拒绝和接受｡如果国有企业是绩优企业,理性的国有银行将发放贷款,否则,将拒绝贷款｡但由于非对称信息的存在,国有银行只能对国有企业类型作出概率判断｡如果判断失误,国有银行将承担由此产生的机会成本和直接资产损失｡对应于国有企业的还贷策略,国有银行也有与其相对应的斗争和不斗争两种策略｡

(三)企业融资行为假设条件

1.非合作博弈与零和博弈｡在企业融资的博弈分析中,假设博弈主体之间不存在任何形式的串谋､共谋等具有约束力的协议,即企业融资主体的博弈为非合作博弈｡同时,假定国有企业的得益增加,国有银行的得益对等减少,即企业融资主体的博弈为零和博弈｡

2.动态博弈｡在企业融资主体博弈的过程中,本文将其分为两个阶段:第一阶段是国有企业向国有银行融资的过程,也就是融资风险形成的博弈;第二阶段是国有企业向国有银行偿还贷款的过程,也就是国有企业向国有银行转嫁经营风险的博弈｡每阶段的时序是国有企业根据自己的经营状况和掌握的信息先采取行动,然后,国有银行依据国有企业行动传递的信息进行决策,即他们之间的融资博弈是动态博弈｡

3.不完全信息博弈｡在分析企业融资博弈的过程中,本文假定国有企业具有信息优势,即国有企业对自身的经营状况､盈利水平､还贷能力比较了解,而国有银行则较难获得这些真实信息,处于信息劣势地位,对国有企业具有不完全信息,因此,国有企业与国有银行之间的融资博弈是不完全信息博弈｡

4.无行政干预｡随着我国企业破产机制及现代商业银行制度的建立和完善,政府行政干预经济的能力将会不断弱化,国有企业的破产约束和国有银行债务约束将会逐渐趋强,银企间的博弈规则及收益与成本将会与行政干预有所区别,因此,本文只就非行政干预条件下国有企业的融资行为做一分析｡

二､企业融资行为的博弈分析

(一)融资风险生成的博弈分析

国有银行有两种策略:接受和拒绝贷款申请｡设在博弈开始时判断国有企业是绩优企业的概率为X,绩差企业的概率为1-X｡国有企业不融资的得益和直接融资的得益分别是-10和0;间接融资时如果贷款申请得到国有银行接受,其得益为10,否则为-10｡当国有企业是绩优企业时,国有银行接受和拒绝贷款申请的得益分别是10和-10;当国有企业是绩差企业时,国有银行两种策略的得益分别是-10和0｡如表1所示｡

在这个博弈中,国有银行接受贷款申请的期望得益为X×10+(1-X)=20X-10,拒绝贷款申请的期望得益是X×(-10)+(1-X)×0=-10X,国有银行接受贷款申请严格优于拒绝贷款申请,因此,国有银行将选择接受贷款申请｡给定国有企业知道国有银行将接受贷款申请,国有企业的最优选择将是向国有银行申请贷款,此时纳什均衡为(10,10),即国有企业向国有银行融资,国有银行接受国有企业的贷款申请｡当X

上述博弈分析说明,国有企业能否实现间接融资,完全取决于国有银行判断国有企业类型的概率｡因此,在非对称信息的条件下,国有企业将向国有银行传递对自己最有利的信息,来影响国有银行贷款决策,在这种情况下,不可避免地使一些绩差企业成为国有银行认为符合贷款条件的“绩优企业”,从而使部分绩优企业得不到国有银行贷款,出现逆向选择｡由于绩差企业并不充分考虑自身的偿债能力,如果国有银行债务预算约束较软,便会形成国有银行的不良债权;如果国有银行债务预算约束较硬,就会发生道德风险,如高风险投资,一旦投资失败,便形成国有银行的不良资产｡因而,非对称信息的存在使国有银行面临逆向选择和道德风险所引起的融资风险｡

(二)企业融资风险转嫁的博弈分析

国有企业贷款到期时有两种可选策略,即还本付息和拖欠债务,选择哪一种策略完全取决于两种策略的得益比较｡当还本付息的得益大于拖欠债务的得益时,国有企业将选择还本付息;否则,将选择拖欠债务｡对应于国有企业的还贷策略,国有银行也相应存在两种策略选择:不斗争和斗争(变卖抵押品､通过法院要求经济赔偿等)｡是否选择斗争取决于国有银行对这两种策略的得益比较,其得益会受到行政干预的影响｡如果国有企业拖欠债务,国有银行斗争的得益大于不斗争的得益,就选择斗争,否则,国有银行选择不斗争;如果国有企业还本付息,则国有银行的最优策略是不斗争｡由于国有银行对国有企业的类型具有非对称信息,国有银行只能根据有关信息判断国有企业是绩优企业的概率为X,绩差企业的概率为1-X｡据此,将上述数据作如下调整:绩优企业还本付息的得益为20,拖欠债务的得益为-10;国有银行在企业还本付息时选择斗争的得益为10,选择不斗争的得益为20;在绩优企业拖欠债务时选择斗争的得益是10,不斗争的得益为-20,如表2所示｡如果是绩差企业,选择还本付息的得益是-20,拖欠债务的得益是-10;国有银行在绩差企业还本付息时选择斗争的得益是10,不斗争的得益是20;拖欠债务时斗争的得益是10,不斗争的得益是-20｡如表3所示｡

此时,国有企业的最优策略是:如果是绩优企业,将选择还本付息;如果是绩差企业,将选择拖欠债务｡而国有银行的最优策略是:如果国有企业还本付息,选择不斗争,如果国有企业拖欠债务,选择斗争｡因此,存在两个贝叶斯纳什均衡,即(绩优企业还本付息,国有银行不斗争)和(绩差企业拖欠债务,国有银行斗争),从而极大地降低了国有银行不良债权形成的可能性,切断了国有企业经营风险向国有银行转嫁的通道｡

三､结论与启示

从以上的分析中,可得出以下结论:

1.在企业融资的过程中,由于非对称信息问题的存在,国有银行是否向企业融资,取决于其对国有企业类型的判断,因此,国有企业有动力传递有利于自己的信息,国有银行也有判别其真伪的积极性,但由于国有企业具有信息优势,融资过程的逆向选择与道德风险仍然难以消除,国有银行的融资风险只能降低而不能消灭｡

2.当不存在政府行政干预时,国有银行与国有企业间的债务约束会得以硬化,这将使国有企业和银行的行为发生改变,即绩优企业还本付息,国有银行不斗争,绩差企业拖欠贷款,国有银行斗争,从而有助于切断国有企业经营风险向国有银行转嫁的通道,降低国有银行不良债权形成的可能性｡

上述博弈结果的启示:

企业融资中非对称信息问题的存在,致使国有银行在融资中易于生成融资风险,因为国有企业为了获取贷款实现自身得益,具有隐藏信息的动机,从而易于使国有银行对国有企业形成不完全信息｡因此,解决国有银行的巨额不良资产问题,主要是要形成国有银行对国有企业进行信息搜寻,获取其真实信息的动力机制,以及形成国有企业对国有银行传递真实信息的外在压力和动力机制,以此来缓解乃至消除国有银行与国有企业之间的非对称信息问题｡

参考文献:

[1]郑秀杰,董丽英.我国国有企业融资能力――演化路径与影响因素[J].工业技术经济，2006，（1）.

[2]张维迎.博弈论与信息经济学[m].上海:上海三联书店,上海人民出版社，1996.

[3]聂冠中，王佳凡.中外企业融资结构比较分析[J].合作经济与科技，2006,（1）.

[4]于维生等.出口退税问题的不完全信息动态博弈分析[J].财贸经济，2001，（2）.

[5]张兴胜.中小企业的融资困境及其缓解出路[J].中国金融，2001，（6）.

[6]张杰.民营经济的金融困境与融资次序[J].经济研究，2000，（4）.

[7]幸宇.中国国有企业的融资结构及其对公司治理结构绩效的影响[J].西南金融，2004，（5）.

博弈最优策略篇9

关键词：蜈蚣博弈逆向归纳法理性人假设混合策略

中图分类号：F32文献标识码：a文章编号：1674-098X（2017）06（c）-0214-02

蜈蚣博弈于1981年由Rosenthal提出。博弈中有两个参与人，策略包括“合作”与“终止”。博弈双方分先手与后手，轮流进行决策，当一方选择“终止”时，博弈即停止，否则双方将持续合作直到最终环节。博弈的总收益会随着过程的持续而不断增大，但是每一参与者在自己本回合选择“终止”时的自身收益，要小于对方在下一回合选择“终止”时自己的收益。根据持续的回合数，蜈蚣博弈可以被分为短期蜈蚣博弈、长期蜈蚣博弈和无限期蜈蚣博弈。

在“蜈蚣博弈”出现之前，逆向归纳法一直是博弈论中的一个重要分析方法。逆向归纳法有两个基本假设：一是理性人假设，博弈的参与者都是理性的，会做出使自己收益最大的决策；二是共同知识，博弈方对其他人行为的判断都是正确的，并且相互知道其他人了解自己的判断。“蜈蚣博弈悖论”是关于逆向归纳法的一个重要悖论。根据逆向归纳法的推理，由于双方在每个环节都会选择让自己利益最大化的选择，最终导致先手方拒绝合作，但这与实际中的选择明显不符。

1文献综述

理论探究方面，孙洪罡等[1]基于风险偏好分析参与者的支付满意率。潘天群[2]在逆向归纳法的内涵中加入交流理性的概念。何伟等[3]着眼于预期心理，认为参与者一旦在主动选择时能获得与被动选择最大利益相同的收益，就会产生终止的动机。方志耕等[4]将“灰数规整”与顺推归纳法结合，通过计算期望值探究博弈终止时的纳什均衡。胡晓娟[5]等利用“颤抖手”方法，详细论证选择波动时，参与人合作的条件。

在实践中，mcKelvey和palfrey[6]让参与者分别在四阶段低收益蜈蚣博弈、四阶段高收益蜈蚣博弈和六阶段蜈蚣博弈中做出选择，发现参与者很少选择第一轮终止，更多选择倒数第二、三轮终止。

2基于连续混合策略对长期蜈蚣博弈的分析

2.1模型构架

博弈在时刻t1开始，在时刻t100结束，时刻用tn表示（1≤n≤100）。参与人1在时刻t1开始做选择，之后双方轮流做选择。参与人1、2都做完一次决策记为一轮，轮次用i表示（1≤i≤50）。若博弈持续进行，达到最终时刻t100，且选择人仍选择C，则双方收益都为51。若在tn时，某一参与人选择策略S，则其得到的收益为w（1，n），对方收益为w（2，n）。

蜈蚣博弈模型如图1所示。

在蜈蚣博弈中，会存在下列假设，以保证各子博弈中，参与者在进行纯策略选择时，总会选择S。

2.2B续混合策略的应用

我们基于理性人假设和共同知识，采用混合策略的方法分析问题。为便于计算，我们按照轮次对参与人的选择概率及收益期望进行研究，并作出以下假设。

假设2：参与人1、2在第i轮做选择时，合作的概率分别为、。在tn时刻，参与人1、2的收益期望分别为e（1，n）、e（2，n）。收益期望函数如下：

在混合策略中，若要参与人选择合作，则需其合作的预期收益不小于终止的预期收益，并且其下次决策时的收益期望不小于本次决策时的收益期望。以参与人1为例，若其选择合作，需满足以下条件：

根据以上分析结果，我们可以得到如下推论。

推论1：作为理性经济人，参与人双方为了使自身在整个系统内获得最大利益，不仅需要在每个子环节考虑到预期收益，同时还要预测到对方合作的可能性。

逆向归纳法只考虑收益层面，忽略决策概率，并且独立分析各子环节，未充分考虑各环节间的联系，仅单纯认为整体的最优选择是各子环节最优选择的集合。

推论2：当一方认为另一方在下一轮行动中更具有合作倾向时，他在本轮就会合作；否则则会停止。

另需说明，当达到合作概率临界值时，决策人会概率性地停止合作。这一临界值又和下一轮的收益期望相关，即收益期望与合作期望是相互影响的。

依据以上阐释理论，我们可以进一步得到如下推论。

推论3：双方的共同合作，是基于共同知识下对对方的信任；而双方停止合作，是因为决策方认为对方在下一轮的合作概率将等于或低于临界值，即个人行为受对客体主观判断的影响。

推论4：在达到临界值之前，博弈一方愿意在自己决策的tn时合作，那么他在之前都会合作，这是基于他对对方的信任；在临界值之后，博弈一方在自己决策的tn时终止，那么他在之后都会选择终止，这是基于他认为对方会选择终止。

推论5：个人的收益期望与对方合作期望是相互影响的，而逆向归纳法在逆向分析对方合作期望时更有实际意义。

双方的合作期望在整体上会呈现递减的趋势，在博弈后期，提升空间有限，决策方会选择终止攫取最后的利益，这一方式尤其体现于最后四期。

3结语

根据理性人假设，参与人应追求个人在博弈整体的最大利益，而非各子系统最优方案的集合；根据收益情况，继续博弈的潜在收益要大于过早结束的风险；根据共同知识，双方在知道对方愿意合作的前提下，在一定期间内会形成稳定的合作关系。因此，笔者提出，利用连续混合策略，正向顺序计算收益期望，进而分析参与者选择合作或终止的影响因素。该方法从整体角度对博弈系统进行剖析，将合作意愿这一与收益期望相互影响的要素独立分析，重新解读了动态博弈中对理性人假设的认识，较好地解释了蜈蚣博弈悖论。

参考文献

[1]孙洪罡，刘亚相，王丽波.支付满意率――对博弈论理性假设的新思考[J].青岛大学学报：自然科学版，2004（9）：78-80.

[2]潘天群.交流理性与逆向归纳法悖论的消解[J].自然辩证法研究，2005（12）：25-28.

[3]何伟，徐飞，陈洁.蜈蚣博弈新视角――预期心理的应用[J].上海管理科学，2006（3）：1-5.

[4]方志耕，刘思峰，施红星，等.破解“蜈蚣博弈”悖论：“灰数规整”顺推归纳法研究[J].中国管理科学，2008（2）：180-186.

博弈最优策略篇10

关键词：两型社会；政策设计；联盟；对抗；博弈

中图分类号：F062.1

文献标识码：a

文章编号：1003―7217(2009)05―0092―05

一、问题的提出

环境治理政策的出台和执行是政策参与人之间相互博弈的过程，参与人共同决定政策执行的效果。环境问题的外部性和自然资源的复杂性，使如何选择合适的政策来管理环境和自然资源，实现经济与环境的协调是摆在政策制定者和学者面前的一个重要课题。从博弈论的角度，促使参与人主动实施环境治理政策的原因是参与人对博弈结果的预期。如果博弈结果符合预期，则参与人执行政策，同时参与人对该政策的信念得到强化，从而形成一种有效而稳定的制度；如果博弈结果不符合预期则该政策可能受到抵制。在环境政策的整个设计、出台和执行过程中，博弈的参与方可能根据利益需要结成联盟，也可能相互对抗。本文用博弈理论的分析方法，对环境治理中的参与人行为进行博弈分析，以期为政府的环境治理政策设计提供参考。

二、参与人的性质及相互关系

博弈的标准式表述有三个要素：参与人、参与人可选择的战略和支付函数。在两型社会环境治理政策中，包括政府、企业和公众三个参与人。考虑到中央政府和地方政府的支付函数并不完全相同(其实省市不同层级的上下级政府间也存在不同的支付函数，在这里中央政府和地方政府只是一个代表)，以下将进行分开讨论。

1．中央政府

中央政府功能主要体现在两个方面：一是制定环境治理政策，确定奖励和处罚企业的标准；二是对地方政府的行为进行监督，给予地方政府以正或负的行政经济激励。中央政府的支付(payoff)是全国经济总体发展水平和环境治理效果、政策成本及公众生活质量的函数，如果经济、社会和生态得到“又好又快”的发展即意味着支付水平高，反之则低。政策成本(包括补贴成本、腐败和投机)与中央的支付水平呈负相关。

2．地方政府

地方政府是环境治理的中间人。理论上，地方政府行为目标同中央政府一致，以社会利益最大化为目标，但由于委托――关系产生的信息不对称，可能导致地方政府的逆向选择和道德风险。在当前政府绩效评估体制下地方政府可能以追求本地GDp最大化为目标。因为，决定地方政府领导人升迁的主导因素是任期内的经济业绩，地方领导人能得到更快的升迁。根据博弈地位和结构之间的关系，参与人之间的博弈地位和结构之间存在同构和不同构的可能性。地方政府可以利用其信息优势不断展现其在博弈中的优势地位，使其博弈地位不断上升，出现不同构性。中央和地方的这一动向，使地方政府博弈能力增强，地方政府的利益得到提高，从而也就更加容易偏离中央的政策。

3．企业

企业是环境保护行动的主要执行者。出于自身利益考虑，企业会利用其信息优势对其排污状况进行隐瞒，与环境管理部门进行博弈，从而增加环境部门的管理难度。对企业来说，相对于排污，不排污会增加诸如购买污水处理设备和管理费用等额外成本，同时也可能获得政府的税收优惠和财政补贴；排污也会有一定的成本，如被查处时受到政府的处罚，乃至受到公众的指责而丧失声誉。企业最终是否排污取决于对两者支付大小的比较。

4．公众及社会环保组织

公众是环境保护的监督者和受益者，其策略行为表现为参与环境保护行动和不参与环境保护行动。参与会给参与者带来一些成本，如对排污企业的一些举报取证费用、交通费用等，当然也可能得到政府的物质或精神奖励及更加健康的生活环境。由于公众个体过于分散，很难达成集体行动：社会组织是公民社会的重要组成部分。pargal＆wheeler(1996)的研究认为，社会环保组织的压力和社会准则对促使企业遵守环境法规，减少企业排污发挥了重要的作用。因此，调动社会团体的力量协助政府监督企业排放污染将会有缓解政府与排污企业之间的信息不对称，有助于提高环境质量。

三、环境治理中参与人联盟与对抗的博弈矩阵和策略选择

依前所述，两型社会环境治理博弈的主要参与人包括：中央政府、地方政府、企业和公众。根据中央政府“环境治理取得一定效果，但形势仍很严峻”的结论，假定中央维持现有管治的支付小于地方政府对抗或拖延中央政策的支付，而中央政府提高监督和惩治水平带来的支付大于地方政府拖延或对抗的支付。在市场上，企业的策略选择是继续污染或接受治理。根据污染面继续扩大的事实，假设企业治污的支付小于排污的支付。假定公众接受中央政策的支付大于沉默的支付，但公众相对于政府和企业而言处于劣势，其作用的发挥需要得到政府的支持。为便于分析，分别把中央政府、地方政府、企业和公众记为a、B、c、D，由于在给定的策略下参与人的支付具有不确定性，根据不确定支付博弈的模糊分析方法和数值模拟，在淮建军和刘新梅提出的矩阵分析基础上，不失一般性的，假定各参与人的策略及相对应的支付如下：

a：a1：维持现有管治；a2：提高监督和惩治水平；对应的支付为(3，5)

B：B1：接受中央政策；B2：对抗或拖延中央政策；对应的支付为(2，4)

C：C1：维持现状，继续污染；C2：接受中央政策，治理污染；对应的支付为(3，1)

D：D1：举报污染；D2：对污染保持沉默；对应的支付为(3，0)

为使以上假设符合我国目前环境治理的现状，考虑到企业污染、地方政府支持污染、公众或人放纵污染会最终减少整个社会的福利，因此，以上支付如出现B2或D2则所有参与人支付减1；如出现C1则所有参与人支付减2；如a1、B2、C1、D2同时出现，则整个经济和社会可持续发展的可能性为零，最终带来整个人类的灾难，所有参与人的支付为零。综上，构建参与人联盟与对抗的博弈支付矩阵。在支付矩阵中，假定i是所有参与人的集，S是联盟集，iS是指除了联盟s以外的剩余参与人集，V是对策的特征函数，min1表示各行的最小值，maXr表示各列的最大值。为了计算特征值，当矩阵的min1中的最大值与maXr中的最小值相等时，根据矩阵的最大最小值原理，该支付矩阵就构成了一个鞍点，该鞍点的支付是对策的最优解。

1．单人联盟博弈矩阵和最优策略

单人联盟博弈支付矩阵及最优策略(见表1)。分析发现：在中央政府维持现有管治的情况下，地方

政府会对抗或拖延中央政策，而企业会选择继续污染，公众由于博弈能力有限，对此保持沉默。因此，在单人联盟的背景下，两型社会环境治理制度设计的最优策略是中央政府提高监督和惩治水平。

2．双人联盟博弈矩阵和最优策略

双人联盟博弈支付矩阵和最优策略(见表2)。分析表明：地方政府的策略选择对企业是否继续污染起重要作用，如果地方政府对抗或拖延中央政策，则企业会选择继续污染；如果地方政府接受中央政策，则企业会治理污染。可见，地方政府的策略选择对中央政策目标的实现具有决定意义。相比之下，中央政府没有更多的选择，在环境不断恶化的前提下，中央政府的最优策略选择依然只能是提高对污染的监督和惩治水平；而公众的行为具有随机性，如果有利可图，公众有可能与企业达成联盟而选择沉默。

3．三人联盟博弈矩阵和最优策略

三人联盟博弈支付矩阵和最优策略(见表3)。分析表明：联盟之间的策略选择具有相对性，当一个联盟选择消极或破坏性的政策时，另一个联盟会选择积极的策略，说明在给定对方行为选择的情况下，自身的策略选择唯一。

四、博弈均衡对政府政策设计的启示

两型社会是国家在资源和环境约束下的一个战略选择，任何转型都需要激励，两型社会建设能否有效推进，关键在于政府能否设计一套既能诱导经济个体形成正确的行为，也能有效规范政府行为的激励和约束机制。根据当前环境治理的现状和以上博弈分析，完善环境治理的政策设计应加强以下内容：

1．完善中央监管，提高惩治水平，实行政府环境问责。通过单人联盟和双人联盟的博弈分析发现，要有效治理污染和提高生态环境的质量，中央政府要增强政策威胁的置信度，采取“承诺行动”，以改变“上有政策，下有对策”的局面。加强对政府失职行为的问责，可以避免在政策执行过程中可能出现的寻租行为以及地方政府出于本地区利益考虑而对污染企业采取庇护态度等政府失灵的情况。在区域利益竞争激烈的时期，打破地方之间的保护主义对于跨地区之间的环境治理机制的建立更具有积极意义。

2．建立企业声誉机制。通过双人联盟的博弈分析发现，地方政府的态度对中央环境治理政策的实施具有重要影响。面对地方政府利用自身信息优势而与污染企业结成联盟的情况，中央政府要建立企业声誉机制，迫使企业在社会舆论压力下公开环境信息。

博弈最优策略十篇

博弈最优策略篇1

博弈最优策略篇2

博弈最优策略篇3

博弈最优策略篇4

博弈最优策略篇5

博弈最优策略篇6

博弈最优策略篇7

博弈最优策略篇8

博弈最优策略篇9

博弈最优策略篇10

相关作文

小学作文

初中作文

高中作文

作文体裁