博弈的基本概念#
博弈论(也可称为策略行为理论)研究决策者在行为相互影响的情境下如何做出最优选择,即如何进行策略性的决策。在现实世界中,个体或组织的决策往往不是孤立的,而是会受到其他决策者行为的影响。博弈论为我们提供了一种系统的方法,用以分析和预测这种互动关系下的决策结果,并致力于寻找最优策略组合或均衡。例如,下棋对弈便是博弈论中的一个典型实例。
A game is a formal representation of a situation in which a number of individuals interact in a setting of strategic interdependence. (《Microeconomic Theory》)
自动驾驶:让汽车学会博弈
在自动驾驶领域,车辆不仅需要处理自身的驾驶任务,如路径规划、速度控制、障碍物检测等,更重要的是,它们还需要与其他车辆、行人等交通参与者进行实时交互。这包括预测其他交通参与者的行为模式、意图和可能的行动轨迹,以便据此动态调整自己的驾驶策略。例如,当自动驾驶车辆遇到一辆即将变道的车辆时,它必须迅速判断对方的意图,并决定是加速超越、减速让行还是保持当前状态。这种基于预测和反应的交互过程,本质上就是一种博弈。自动驾驶系统需要在不断变化的交通环境中,通过与其他交通参与者的「博弈」,来做出最优的驾驶决策,以确保行驶的安全性和效率。
一个著名的博弈是「囚徒博弈」,它不仅是博弈论中的经典案例,也是理解个体理性与集体理性冲突的重要模型。囚徒博弈最初由美国学者弗勒德和加舍尔于1950年在提出,并由塔克正式化命名。这个博弈模型揭示了在缺乏合作保证的情况下,个体理性可能会导致非最优的集体结果。
囚徒博弈的基本设定如下:假设有两名犯罪嫌疑人(简称为甲和乙)被捕后分别关押,无法相互沟通。他们面临的选择是坦白或不坦白自己的罪行。警方向这两位嫌疑人提出了同样的交易条件:
如果两人都坦白,他们都将因证据确凿而受到中等程度的处罚(各服刑十年)。
如果一人坦白而另一人保持沉默,坦白者将受到轻度处罚(服刑一年),而沉默者将受到更重的处罚(服刑十五年)。
如果两人都保持沉默,由于证据不足,他们都将受到较轻的处罚(各服刑两年)。
在学习如何分析最优决策之前,我们先以囚徒博弈为例,学习博弈模型的构成、博弈的分类以及博弈的表述方式。
博弈的基本元素(以囚徒困境为例)#
描述一个博弈的基本元素包括参与人、行动、信息、策略、支付和均衡。
参与人(Players)#
参与人是博弈中做决策主体,每个参与者都有一组可选择的行动或策略。在囚徒博弈中,参与人为两名被警方怀疑犯罪的嫌犯,即甲和乙。需注意的是,在此情境中,警察并不属于参与人,而是属于环境参数,因为他们无法改变甲和乙的行为选择,即不影响判刑的规则。
有时,博弈模型会引入虚拟参与人(pseudo-players),它们以一种纯机械的方式,按照特定的概率随机选择行为。例如,「自然」就是一种虚拟参与人,通常假设它会在博弈的特定时点,依据特定的概率随机选择行为。
假设乙存在两种可能的类型:类型1和类型2。乙为类型1的概率为 \(\mu\),其偏好结果与前面所述相同;而乙为类型2的概率为 \((1-\mu)\)。对于类型2的乙而言,如果选择坦白,会产生对甲的负罪心理,这种心理惩罚相当于6年的服刑时间。具体来说:
若甲乙两人都选择坦白,甲将服刑十年,而乙则相当于服刑十六年;
若甲选择不坦白而乙选择坦白,甲将服刑十五年,乙则相当于服刑七年。
在分析这个博弈时,我们会引入「自然」这一虚拟参与人,并假设其分别以 \(\mu\) 和 \((1-\mu)\) 的概率选择乙为类型1或类型2。
行动(Actions)#
行动是指参与人在博弈中所能做出的选择,这包括每个参与人拥有哪些可行的行动选项,以及当行动存在先后顺序时,需要明确何时某种行动是可行的,即行动顺序。
在囚徒博弈中,嫌犯甲和乙都面临两种可能的行动选择:坦白和不坦白。其中,坦白意味着承认自己的罪行,而不坦白则表示否认犯罪。
信息(Information)#
信息是指每个参与人在做决策时可能会面临的各种情况,尤其是关于其他参与人的选择。我们通常使用集合表示信息 —— 每一条信息(或每一种可能面对的情况)都被表示为一个集合,称之为信息集。注意信息集是在博弈开始或参与人开始选择之前进行分析的。
在囚徒博弈中,嫌犯甲和乙在做选择时都清楚博弈的规则和可能的支付结果,但他们不知道对方会如何选择。他们了解博弈的结构,但不了解对方的决策 —— 只知道对方会在坦白和不坦白之间做出选择。此时,我们可以将甲的信息集表示为:{乙坦白,乙不坦白},简记为:{坦白,不坦白}。同样,乙的信息集也是:{坦白,不坦白}。甲和乙在做选择时,都会面对一个信息集,即有一种可能的情况。
如果甲先行动,乙可以观察到甲的行动,那么信息集会如何变化呢?首先,甲的信息集不会发生变化,因为他仍然不知道乙会做出何种选择。因此,甲的信息集仍然是:{坦白,不坦白}。然而,乙的信息集会发生变化,因为乙会明确知道甲的选择。因此,这时乙会有两个信息集,分别为{甲坦白}和{甲不坦白},简写为{坦白}和{不坦白}。这表明乙在做选择时,有两种可能需要面对的情况。
策略(Strategies)#
策略是在博弈开始之前制定的一套完备的行动方案,它为参与人在每一种可预见的情况下(即每个信息集下)提供了明确的行动指南,即便某些情况可能并不被参与人所预期。简而言之,策略可以被视为一个从参与人的信息集到其行动集的映射。这意味着,对于参与人面对的每一个信息集,都有一个明确的行动选择,所有信息集下的行动选择组合起来就构成了一个完整的策略。
在囚徒博弈中,甲和乙都面对一个信息集。因此,他们的策略就是选择坦白或不坦白,共有两种策略。这说明当参与人面对一个信息集时,他们所有的行动选择即为他们的所有策略。
接下来,我们分析当甲先行动,且乙可以观察到甲的行动时,乙的策略会如何变化。此时,乙面临两个信息集,因此在描述乙的策略时,需要明确在这两个信息集下乙将如何行动。例如,乙的一个可能策略是:如果观察到甲选择坦白,则乙也选择坦白;如果观察到甲选择不坦白,则乙也选择不坦白。另一个可能的策略是,无论甲如何选择,乙都选择坦白。基于这种思路,我们可以列举出乙的所有可能策略,共有四种:
坦白如果甲坦白;坦白如果甲不坦白。 - 坦白如果甲坦白;不坦白如果甲不坦白。 - 不坦白如果甲坦白;坦白如果甲不坦白。
不坦白如果甲坦白;不坦白如果甲不坦白。
如何找策略?
策略是由信息集到行动集的映射,因此我们可以采用一个简单的模板来表示策略。假设参与人可能会面对 k 个不同的信息集,那么其策略模板可以表示为:
在这个模板中,XX代表参与人在每一个信息集下可能选择的一个行动。具体地说,如果参与人在第i个信息集处有 \(n_i\) 个不同的行动可以选择,那么其所有可能的策略个数就是这些选择数的乘积,即 \(n_1 * n_2 * \cdots * n_k\)。
考考你
《孙子兵法》中有这样一句话:“(兵者,诡道也。…)利而诱之,乱而取之,实而备之,强而避之,怒而挠之,卑而骄之,佚而劳之,亲而离之。” (《孙子兵法·计篇》)这句话描述了八种针对不同敌人状态的应对策略:敌人贪利,则以小利引诱之,伺机攻击;敌人混乱,则趁机攻取;敌人实力雄厚,则需严加防备;敌人兵强卒锐,当避其锋芒;敌人易怒,则挑逗激怒,使其丧失理智;敌人轻视我方,则设法使其更加骄傲自大;敌人休整充分,则设法使之疲劳;敌人内部团结,则设计离间、分化。
根据这一描述,我们可以把这句话作为一个策略,将每一种敌人状态视为一个信息集,而每一种应对则视为一个行动选择。因此,一共有8个信息集和8个行动选择。请问我方一共可以有多少个策略?并写出一个不同的策略。
回答:策略是从信息集到行动集的映射,所以可能的策略总数是 \(8^8\)。
一个不同的策略可以是:不论敌方是何种情况,我方都选择「避之」。这表示在任何敌人状态下,我方都采取回避、避战的策略。
支付(Payoffs)#
支付是指在所有参与人都选择了各自的策略,且博弈已经结束后,参与人所获得的实际(或期望)收益或成本。在囚徒博弈中,支付是通过刑期长短来衡量的,具体如下:
如果两个囚徒都选择坦白,那么他们每人都会被判刑十年(-10年)。
如果两个囚徒都选择不坦白,那么由于证据不足,他们每人只会被判刑两年(-2年)。
如果一个囚徒坦白而另一个不坦白,那么坦白的人只会被判刑一年(-1年),而不坦白的人则会被判刑十五年(-15年)。
这些支付结果反映了不同策略组合下的刑期长短,是参与人在做决策时需要考虑的关键因素。
均衡(Equilibrium)#
均衡代表了所有参与人最优策略的组合,它为博弈可能如何进行提供了一个「理论预见」。博弈论可以被视为一套学习、寻找、完善和应用均衡规则的体系。纳什均衡是博弈论中一个至关重要的均衡概念,它指的是在给定其他参与者策略不变的情况下,没有任何参与者有动机去改变自己的策略,因为这样做不会带来更高的收益。
在下一章,我们将会探讨和学习不同的均衡概念。
博弈的分类#
博弈可以根据其不同的特征进行分类,主要包括静态博弈与动态博弈、合作博弈与非合作博弈、零和博弈与非零和博弈。
静态博弈与动态博弈#
静态博弈,也称为同时行动博弈,指的是所有参与人同时作出选择,或者虽然不同时选择但后行动者并不知道先行动者的选择。在此类博弈中,参与人在行动时并不知道其他参与人的行动选择,其面对的是一个信息集,行动即为策略。
动态博弈则是指参与人的行动有先后顺序,且后行动者能观察到先行动者的选择。在动态博弈中,行动的顺序和信息的传递对结果有重要影响,信息是动态博弈的核心问题。动态博弈还可以进一步分为重复博弈和序贯博弈。重复博弈指同样结构的博弈重复多次,如囚徒博弈重复100期,每一期参与人都会得到支付。而序贯博弈指同样结构的博弈只出现一次,支付在最后一期结束之后才会得到。
合作博弈与非合作博弈#
合作博弈是指参与人之间可以达成有约束力的协议,共同追求利益最大化。而非合作博弈则是指参与人之间没有这种协议,各自追求自身利益最大化。我们在这部分分析的是非合作博弈。
零和博弈与非零和博弈#
零和博弈是指在每一个策略组合下,所有参与人的支付之和为零,即一方的收益必然导致另一方的损失。例如,下棋和战争就是典型的零和博弈。很显然,零和博弈没有合作的基础。
常和博弈则是指在每一个策略组合下,所有参与人的支付之和总是为定值。值得注意的是,常和博弈可以转换成零和博弈。
**非零和博弈(可变和博弈)**则是指支付之和不为零的博弈,在此类博弈中,参与者之间存在共赢或共损的可能性。因此,在非零和博弈中,参与人之间有可能会达成合作协议,使得总收益最大化。
博弈的表述方式#
博弈论中的博弈可以通过不同的方式表述,以便分析和求解均衡。其中,策略式(Strategic Form)和扩展式(ExtensiveForm)是两种重要的表述方式。
策略式(Strategic Form)#
策略式,亦称标准式,通过列出所有可能的策略组合以及每种组合下各参与人的支付来表述博弈。这一表述方式由三大要素构成:参与人、策略和支付。在囚徒博弈中,参与人甲与乙各自面临坦白与不坦白两种策略选择。其策略式可以通过一个2x2的支付矩阵来呈现,如图\numref{图%s}所示。矩阵的行代表甲(横向参与人)的策略空间,列代表乙(纵向参与人)的策略空间,矩阵中的每个单元格标注了对应策略组合下双方的支付,其中甲的支付位于左侧,乙的收支付于右侧。
check add figure
在构建策略式表述时,首要步骤是明确每位参与者可选择的策略总数,以此确定支付矩阵的维度。随后,根据博弈规则,在每个策略组合对应的单元格中填入相应的支付,横向参与人的支付位于左侧,纵向参与人位于右侧。
同样,我们思考若甲先行动,乙可观察到甲的行动后再做决策,策略式应如何构建?由前面的分析可知,尽管甲的策略空间保持不变,但乙因能获取甲的行动信息,所以会有四个策略。在此情境下,策略式转化为一个2x4的矩阵。我们用 \(s_乙^i\), \(i\in {1,2,3,4}\),表示乙的四个策略,策略式如\numref{图%s}所示。具体到(甲坦白,乙选择s_乙^3)这一策略组合,它意味着甲选择了坦白,而乙看到甲坦白后会选择不坦白。在此策略组合下,双方的支付分别为-1和-15。
check add figure
其中,s_乙^1表示坦白如果甲坦白;坦白如果甲不坦白; s_乙^2表示坦白如果甲坦白,不坦白如果不坦白; s_乙^3表示不坦白如果甲坦白;坦白如果甲不坦白; s_乙^4表不坦白如果甲坦白,不坦白如果不坦白。
扩展式 (Extensive Form)#
扩展式,也被称作博弈树(Game Tree),它通过树状结构直观地描绘了博弈的进程,这包括参与人的决策次序、每次决策的具体内容,以及参与者在每个决策节点所知道的信息。扩展式表述更适用于描述动态博弈的场景。
扩展式的构成要素包括:
节点(node):代表博弈中某一参与者或自然采取行动的时点,或是博弈结束的时点。结X的后续节点指的是在达到X之后,才有可能在博弈的后续过程中到达的节点。而结X的前续节点则是指在可能到达X之前,必须先经过的节点。
起始节点:不存在前续节点的节点。
终点节点:不存在后续节点的节点。
枝(branch):表示在一个特定节点上,某一参与人的行动集中的一个具体行动。
路径(path):从起始节点到终点节点所经过的枝和节点。
扩展式是由节点和枝构成的整体框架,它从单个起始节点开始,一直延伸至终点节点,且中间没有闭合的环路。在每个节点旁边,我们需要标注出采取行动的参与人,在枝旁边则标注对应的行动。在终点节点后,写出对应的支付情况,通常支付的顺序与参与者的行动顺序保持一致。以囚徒博弈为例,如果甲先行动,乙在观察到甲的选择后再行动,那么其扩展式如图\numref{图%s}所示。从图中可以看出,甲先行动,选择坦白或不坦白,然后乙在观察到甲的选择后再进行选择。乙的两个节点对应的是他的两个信息集。通过这个扩展式,我们可以清晰地看出参与者的行动顺序和信息集。
然而,在囚徒博弈中,甲乙同时行动,我们应该如何绘制扩展式呢?此时,乙无法确定他是在左节点还是右节点。为了表示这种情况,我们可以用一条横线连接两个节点,或者画一个线圈把两个节点包围起来,表示它们属于同一个信息集。我们可以把信息集形象地称为「云」,参与者知道自己到达了哪片云,但却无法拨开迷雾弄清到底到达了哪个具体节点。因此,囚徒博弈的扩展式如图\numref{图%s}所示。
在标记信息集时,我们需要注意:一个节点不能同时属于同一参与人的两个不同的信息集;一个信息集所覆盖的必须是同一参与人在同一时点的决策节点。
信息的分类
在动态博弈中,信息至关重要。根据信息的不同特性,我们可以将其分为以下几类:
完美(Perfect)信息:每个信息结均为单结,表明参与人能够观察到自然以及其他参与人的所有行动。在具备完美信息的博弈中,参与人在决策时能够全面掌握博弈的历史及当前状态。
确定(Certain)信息:自然不会在任一参与人行动之后采取行动,但允许自然首先行动。
对称(Symmetric)信息:没有参与人在行动时或在博弈的终点结处拥有与其他参与人不同的信息。对称信息的关键在于所有参与人都处于相同的信息状态,即他们都知晓相同的事情,不存在信息上的优势或劣势。博弈中,可以有自然的行动,也可以参与人同时行动。
完全(Complete)信息:自然不会首先行动,或者其最初行动会被每个参与人所观察到。
一个特定的博弈可能同时展现出上述所有四种信息特性,也可能仅展现其中的一种或几种。此外,不对称或不完全的博弈必然是不完美的,因为完美信息要求所有参与人都完全了解博弈的历史和当前状态。
接下来,我们将基于上述信息分类来探讨「扑克牌博弈」的几种不同情况。扑克牌博弈是指参与人赌谁能摸到最好的牌,且摸牌顺序是预先确定的。我们将根据下注前的行为规则来分析博弈的信息类型:
所有的牌都被洗成面朝上:这种情况具有完美、确定、对称和完全信息。因为所有牌都是可见的,所以每个参与人都完全了解博弈的状态和历史。
所有的牌都被洗成面朝下且参与人在下注前不能看自己的牌:这种情况具有确定和对称信息,但不具有完美和完全信息。由于牌面朝下,参与人无法观察到所有牌的情况,即无法观察到自然的行动选择。然而,所有参与人都处于相同的信息状态,即都不知道自己手中的牌是什么。
所有的牌都被洗成面朝下,但随后每个参与人都抓起自己的牌而不查看,接着将牌举过头顶以使所有其他参与人都能看到他的牌:这种情况具有确定信息,但不具有完美、对称和完全信息。在下注时,每个参与人都不知道自己手中的牌,但知道所有其他人的牌。因此,信息是不对称的。同时,由于不知道自己手中的牌,所以信息也是不完全的。
最后,我们简单介绍一下不对称信息(Asymmetric Information)的分类。信息的不对称性可以从以下两个维度进行划分:
不对称发生的时间:
如果不对称发生在当事人签约之前,这被称为事前(ex ante)不对称,对应的模型为逆向选择(Adverse Selection)模型。逆向选择是指具有信息优势的一方,在交易中总是趋向于做出尽可能地有利于自己而不利于别人的选择。比如,在买卖双方信息不对称的情况下,质量差的商品会将好的商品驱逐出市场 —— 柠檬市场。
如果不对称发生在当事人签约之后,这被称为事后(ex post)不对称,对应的模型道德风险(Moral Hazard)模型。道德风险是指在交易双方信息不对称的情况下,一方在签订合约后改变自身行为,从而损害另一方的利益,而自身却不受损失的现象。比如,在金融市场中,借款人在获得贷款后可能会改变原本的投资计划,转而投资于风险更高的项目。
不对称信息的内容:
如果不对称信息涉及某些参与人的行动(Actions),对应的模型为隐藏行动(Hidden Action)模型。
如果不对称信息涉及某些参与人的知识(Knowledge),对应的模型为隐藏信息(Hidden Information)模型。