导言

什么是博弈论?

博弈论研究的是相互依赖的决策:我的最优选择取决于你会怎么做,而你的选择又取决于我。它不只是"游戏",而是经济、政治、生物、商业谈判背后的通用语言。

一个博弈的四个要素

玩家(Players):做决策的人,记作 i、j。
策略(Strategies):每个玩家可选的行动,玩家 i 的某个策略记 si,其余人记 s-i
收益(Payoffs):每种结果给玩家带来的效用 ui
规则(Rules):同时出招还是有先后?信息是否公开?

核心假设:理性。 每个玩家都想最大化自己的收益,并且知道别人也这么想。Polak 的第一课名言:"你的收益不取决于你有多努力,而取决于别人怎么选。"

下面我们从最基本、也是最有用的一条原则开始——永远不要选一个严格劣势的策略。

第一部分

严格劣势策略

一个策略是 严格劣势(strictly dominated)的,意思是:无论对手怎么选,总有另一个策略给你带来严格更高的收益。理性的玩家永远不会选它。

互动 1 · 判断一个策略是否被支配

下表是玩家 1(行,蓝色=你的收益)的选择。对手玩家 2 选左或右。问:玩家 1 该不该选「下」?点击按钮逐步检验。

点击「下一步」开始。
要点: 删掉严格劣势策略不会"误删"任何理性选择——因为没有任何对手行为能让它变成最优。这是简化博弈的第一把刀。
第二部分

迭代剔除 & 猜 2/3 游戏

如果"我"不会选劣势策略,而且"我知道你也不会",那就能反复地删除:删掉我的劣势策略后,你的某些策略可能变成劣势,再删……这叫 迭代剔除严格劣势策略(IDSDS)

互动 2 · 猜 2/3 平均数(Polak 课堂经典)

规则:所有人从 0–100 选一个数,谁的数最接近「全班平均数的 2/3」谁赢。你会选几?

逻辑:平均数最大 100,2/3 是 66.7,所以选 >67 是劣势→删。但如果大家都懂这点,平均≤67,目标≤44……一层层推下去,唯一存活的数是 0。这正是 IDSDS 的终点。

要点: 理论预测人人选 0,但真实课堂平均常落在 20–35。这揭示了博弈论的关键张力——结果取决于你认为别人有多理性(理性的层数)。
第三部分

囚徒困境

博弈论最著名的模型。两名嫌犯被分开审讯,各自选择沉默(合作)认罪(背叛)。数字是刑期,越小越好,所以这里收益用「负的年数」表示,越大越好。

互动 3 · 个人理性 vs 集体最优

两人都想少坐牢。看看"理性"会把他们带到哪里。
要点: 对每个人来说「背叛」都是占优策略,于是双方都背叛、各坐 5 年——尽管「都沉默」(各 1 年)对两人都更好。个人理性导致集体次优。

现实版:军备竞赛、价格战、公地悲剧、气候谈判。本质都是"我做对自己最好的事,却让大家一起变糟"。

第四部分

最佳对策与纳什均衡

很多博弈里没有占优策略,这时用 最佳对策(best response):给定对手的选择,我能拿到最高收益的回应。

纳什均衡:一组策略,每个人都在对其他人做最佳对策——没人想单方面改变。它是"互相猜对、且都没有后悔"的稳定点。

互动 4 · 性别战(协调博弈)

情侣想一起出门:玩家1(行)偏爱拳击,玩家2(列)偏爱芭蕾,但两人都更想在一起。点按钮标出最佳对策,交叉处就是纳什均衡。

蓝框=玩家1的最佳对策,橙框=玩家2的。两框重合处即均衡。
要点: 这个博弈有两个纯策略纳什均衡(都看拳击 / 都看芭蕾)。均衡不一定唯一,也不一定公平——但都是"谁都不想单独改主意"的稳定结果。
第五部分

混合策略

有些博弈根本没有纯策略均衡——比如石头剪刀布点球大战:只要你的出招可预测,对手就能克制你。出路是随机化:按某个概率出招。

互动 5 · 点球大战:你该往哪扑?

守门员(你)选择扑的概率 q。射手会挑你扑得少的一侧。拖动滑块,看双方期望进球率怎么变。

扑左概率 q = 50%

射手「踢左」时进球率: | 射手「踢右」时进球率:
踢左
踢右
要点: 混合策略均衡的诀窍——让对手无所谓。当 q 使得射手「踢左」和「踢右」进球率相等时,对手无法利用你,这就是均衡概率(本例 q=50%)。现实点球数据也确实接近五五开。
第六部分

序贯博弈与逆向归纳

当玩家有先后顺序、能看到对方已走的棋,博弈就画成一棵 博弈树。求解方法是逆向归纳(backward induction):从最后一步倒着想——"如果轮到他,他会怎么选?"再推自己现在该怎么走。

互动 6 · 进入威慑博弈

新公司(进入者)决定是否进入市场;若进入,在位者选择打价格战容忍。括号 = (进入者, 在位者) 收益。点击逐步逆向归纳。

先想最后一步:如果进入者真进来了,在位者会怎么选?
要点: 在位者威胁「你敢进我就打价格战」其实不可信——真进来了,打价格战他自己也亏(1<2)。逆向归纳剔除这种空洞威胁,得到的解叫子博弈完美均衡:进入者进入,在位者容忍。
第七部分

重复博弈与延伸

囚徒困境里背叛是占优的——但如果反复打交道呢?在重复博弈中,今天的背叛会招致明天的报复,合作就可能靠"未来的阴影"维持。

以牙还牙(Tit-for-Tat)

Axelrod 著名的电脑锦标赛冠军策略,规则极简:第一轮合作;之后对方上一轮怎么对我,我这轮就怎么回敬。

它的成功源于四个特质:善良(不先背叛)、可激怒(会报复)、宽容(对方回头就原谅)、清晰(容易被看懂从而建立信任)。

再往下可以学什么

信号传递与不完全信息(为什么名校文凭值钱)、讨价还价、拍卖设计、演化博弈(动物与策略的"适者生存")。这些都建立在你刚学的四块基石上:劣势策略、纳什均衡、混合策略、逆向归纳。

纳什均衡一定是"最好"的结果吗?

不是。囚徒困境的均衡对双方都不是最优。纳什均衡只保证稳定(没人想单方面偏离),不保证高效公平

占优策略和纳什均衡什么关系?

如果人人都有占优策略,那这组占优策略一定构成纳什均衡。但反过来不成立——很多纳什均衡里并没有占优策略(如性别战)。

想看原版课程?

耶鲁公开课 ECON 159《Game Theory》,主讲 Ben Polak,共 24 讲,Open Yale Courses 上免费提供视频、字幕与讲义。配套教材常用 Dutta《Strategies and Games》或 Osborne《An Introduction to Game Theory》。

第八部分

生活 & 工作实战

博弈论不是黑板上的数字游戏。你每天都在玩——开会、谈薪、排队、和同事协作。下面把前面学的概念对号入座到真实场景。

🏠 生活场景

🚗 早高峰选路线
概念:纳什均衡 / 拥堵

大家都往"看起来更快"的小路挤,结果小路也堵了。均衡是两条路耗时大致相等——没人能靠换路单方面变快。导航 App 本质就是在帮所有人逼近这个均衡。

🧹 室友/家务分工
概念:囚徒困境 / 公地悲剧

"反正别人会扫",于是谁都不扫,公共区域变脏。一次性博弈里偷懒是占优策略;但室友是重复博弈——值日表 + 互相监督,把它变成可维持的合作。

🍽️ AA 制点菜
概念:公地悲剧

均摊买单时,每个人都倾向多点贵菜(成本被分摊),总账单失控。解法:改成各付各的,让成本回到个人身上。

💑 周末去哪
概念:性别战 / 协调博弈

你想爬山,TA 想看展,但都更想一起。两个均衡都行,关键是协调——轮流决定、或提前约定,比僵持更优。

💼 工作场景

💰 谈薪资
概念:讨价还价 / 信息

先开价的人锚定了区间;有外部 offer(可信的"退出选项")大幅提升议价力——就像进入威慑里,可信的威胁才有用。空喊"不加薪我就走"若不可信,等于没说。

🏢 同事甩锅 vs 协作
概念:囚徒困境

项目里各自抢功、推责是短期占优。但同事关系是长期重复博弈,以牙还牙式的互惠(你帮我我帮你)才能长期共赢。声誉是这里的货币。

📊 会议沉默
概念:劣势策略 / 从众

大家都怕第一个反对显得不合群,于是集体沉默通过了烂方案。识别这是个协调失败,主动"打破均衡"——有人带头表态,往往全场跟进。

🛒 公司价格战
概念:囚徒困境

两家都降价抢市场,结果都亏。这是经典囚徒困境;现实里靠差异化、隐性默契或长期博弈避免"两败俱伤"的均衡。

互动 7 · 这是什么博弈?

读情景,先猜它对应哪个概念,再点开看解析。

实战心法: 遇到决策困境时问自己三件事——①我的收益取决于谁的选择?②这是一次性还是反复打交道?③我能让自己的承诺/威胁变可信吗?想清这三点,你就已经在用博弈论了。
附录

数学小课堂(零基础友好)

博弈论里出现的"计算"其实只有小学到初中水平:比大小、算平均、算概率加权。下面把前面每个用到数学的地方,掰开揉碎讲一遍。不用怕,跟着读就行。

🧮 工具一:比大小(判断劣势策略)

这是最简单的一步——就是比谁的数字大。判断"策略 A 是不是被 B 严格支配",你只需要:

对手的每一种选择,都把 A 的收益和 B 的收益拿来比。只要存在一次 A ≥ B,A 就不算被严格支配。

例(第一部分的"下"行):
对手选左:下=2,中=4 → 4>2 ✓
对手选右:下=8,中=3 → 8>3,这次"下"反而更大
因为有一次"下"更大,所以"下"没有被支配。结论:要"每一种情况都更差"才叫严格劣势。

➗ 工具二:求平均数(猜 2/3 游戏)

平均数 = 把所有数加起来,再除以人数。比如 3 个人选了 60、30、0:

(60 + 30 + 0) ÷ 3 = 30

目标是"平均的 2/3"。2/3 ≈ 0.667,就是"乘以 0.667",或者更直观地"先乘 2 再除以 3":

30 × 2 ÷ 3 = 20

为什么答案会一路滑到 0?因为最大平均是 100,它的 2/3 只有约 67。所以选>67 永远没用→大家都不选→平均跌到 67 以下→目标跌到 44……每"想深一层",目标就乘一次 2/3,越乘越小,极限是 0。

🎲 工具三:期望值(混合策略的核心)

这是唯一需要"概率"的地方,但概念很朴素:期望值 = 把每个结果,按它发生的概率加权后相加。像"加权平均的成绩"。

生活例子:一张彩票,70% 概率拿 0 元,30% 概率拿 100 元。它平均值多少?

0 × 0.70 + 100 × 0.30 = 0 + 30 = 30 元

注意:概率用小数(70% = 0.70),所有概率加起来要等于 1(0.70 + 0.30 = 1)。就这两条规则。


用到点球大战:守门员有 q 的概率扑左、(1−q) 的概率扑右。射手"踢左"的进球率就是按这两种情况加权:

进球率 = q×0.3 + (1−q)×0.9

含义:守门员扑对了(也扑左,概率 q)只剩 0.3 进球率;扑错了(扑右,概率 1−q)高达 0.9。把两块加权一加就是平均进球率。

互动 8 · 期望值计算器

自己填两种结果和概率,看期望值怎么算出来。(两个概率会自动凑成 100%)

🔁 工具四:逆向归纳(其实是"倒着比大小")

博弈树看着吓人,但运算还是比大小,只是要从最后一步往前比

进入威慑那棵树:
① 先看最后决策者(在位者):打价格战=1,容忍=2 → 选 2(容忍)。
② 把这个结果"提"上来:进入者一旦进入,拿到的是 2;不进入拿 0。
③ 进入者比 2 和 0 → 选 2(进入)。
整个过程没有任何复杂公式,就是站在每个人的位置上,选他那行数字最大的,从后往前推。

一句话总结: 整个入门博弈论的数学,归根到底是三件事——比大小、求平均、按概率加权相加。会这三样,你就能算遍本课程所有题目。

本页为入门可视化教学材料,案例与数值经过简化以突出直觉,正式定义请以课程讲义与教材为准。