博弈论可视化入门 · 基于耶鲁公开课

导言

什么是博弈论？

博弈论研究的是相互依赖的决策：我的最优选择取决于你会怎么做，而你的选择又取决于我。它不只是"游戏"，而是经济、政治、生物、商业谈判背后的通用语言。

一个博弈的四个要素

玩家（Players）：做决策的人，记作 i、j。
策略（Strategies）：每个玩家可选的行动，玩家 i 的某个策略记 s_i，其余人记 s_-i。
收益（Payoffs）：每种结果给玩家带来的效用 u_i。
规则（Rules）：同时出招还是有先后？信息是否公开？

核心假设：理性。 每个玩家都想最大化自己的收益，并且知道别人也这么想。Polak 的第一课名言："你的收益不取决于你有多努力，而取决于别人怎么选。"

下面我们从最基本、也是最有用的一条原则开始——永远不要选一个严格劣势的策略。

第一部分

严格劣势策略

一个策略是严格劣势（strictly dominated）的，意思是：无论对手怎么选，总有另一个策略给你带来严格更高的收益。理性的玩家永远不会选它。

互动 1 · 判断一个策略是否被支配

下表是玩家 1（行，蓝色=你的收益）的选择。对手玩家 2 选左或右。问：玩家 1 该不该选「下」？点击按钮逐步检验。

点击「下一步」开始。

要点： 删掉严格劣势策略不会"误删"任何理性选择——因为没有任何对手行为能让它变成最优。这是简化博弈的第一把刀。

第二部分

迭代剔除 & 猜 2/3 游戏

如果"我"不会选劣势策略，而且"我知道你也不会"，那就能反复地删除：删掉我的劣势策略后，你的某些策略可能变成劣势，再删……这叫迭代剔除严格劣势策略（IDSDS）。

互动 2 · 猜 2/3 平均数（Polak 课堂经典）

规则：所有人从 0–100 选一个数，谁的数最接近「全班平均数的 2/3」谁赢。你会选几？

逻辑：平均数最大 100，2/3 是 66.7，所以选 >67 是劣势→删。但如果大家都懂这点，平均≤67，目标≤44……一层层推下去，唯一存活的数是 0。这正是 IDSDS 的终点。

要点： 理论预测人人选 0，但真实课堂平均常落在 20–35。这揭示了博弈论的关键张力——结果取决于你认为别人有多理性（理性的层数）。

第三部分

囚徒困境

博弈论最著名的模型。两名嫌犯被分开审讯，各自选择沉默（合作）或认罪（背叛）。数字是刑期，越小越好，所以这里收益用「负的年数」表示，越大越好。

互动 3 · 个人理性 vs 集体最优

两人都想少坐牢。看看"理性"会把他们带到哪里。

要点： 对每个人来说「背叛」都是占优策略，于是双方都背叛、各坐 5 年——尽管「都沉默」（各 1 年）对两人都更好。个人理性导致集体次优。

现实版：军备竞赛、价格战、公地悲剧、气候谈判。本质都是"我做对自己最好的事，却让大家一起变糟"。

第四部分

最佳对策与纳什均衡

很多博弈里没有占优策略，这时用最佳对策（best response）：给定对手的选择，我能拿到最高收益的回应。

纳什均衡：一组策略，每个人都在对其他人做最佳对策——没人想单方面改变。它是"互相猜对、且都没有后悔"的稳定点。

互动 4 · 性别战（协调博弈）

情侣想一起出门：玩家1（行）偏爱拳击，玩家2（列）偏爱芭蕾，但两人都更想在一起。点按钮标出最佳对策，交叉处就是纳什均衡。

蓝框=玩家1的最佳对策，橙框=玩家2的。两框重合处即均衡。

要点： 这个博弈有两个纯策略纳什均衡（都看拳击 / 都看芭蕾）。均衡不一定唯一，也不一定公平——但都是"谁都不想单独改主意"的稳定结果。

第五部分

混合策略

有些博弈根本没有纯策略均衡——比如石头剪刀布或点球大战：只要你的出招可预测，对手就能克制你。出路是随机化：按某个概率出招。

互动 5 · 点球大战：你该往哪扑？

守门员（你）选择扑左的概率 q。射手会挑你扑得少的一侧。拖动滑块，看双方期望进球率怎么变。

扑左概率 q = 50%

射手「踢左」时进球率：　|　射手「踢右」时进球率：

踢左

踢右

要点： 混合策略均衡的诀窍——让对手无所谓。当 q 使得射手「踢左」和「踢右」进球率相等时，对手无法利用你，这就是均衡概率（本例 q=50%）。现实点球数据也确实接近五五开。

第六部分

序贯博弈与逆向归纳

当玩家有先后顺序、能看到对方已走的棋，博弈就画成一棵博弈树。求解方法是逆向归纳（backward induction）：从最后一步倒着想——"如果轮到他，他会怎么选？"再推自己现在该怎么走。

互动 6 · 进入威慑博弈

新公司（进入者）决定是否进入市场；若进入，在位者选择打价格战或容忍。括号 = (进入者, 在位者) 收益。点击逐步逆向归纳。

先想最后一步：如果进入者真进来了，在位者会怎么选？

要点： 在位者威胁「你敢进我就打价格战」其实不可信——真进来了，打价格战他自己也亏（1<2）。逆向归纳剔除这种空洞威胁，得到的解叫子博弈完美均衡：进入者进入，在位者容忍。

第七部分

重复博弈与延伸

囚徒困境里背叛是占优的——但如果反复打交道呢？在重复博弈中，今天的背叛会招致明天的报复，合作就可能靠"未来的阴影"维持。

以牙还牙（Tit-for-Tat）

Axelrod 著名的电脑锦标赛冠军策略，规则极简：第一轮合作；之后对方上一轮怎么对我，我这轮就怎么回敬。

它的成功源于四个特质：善良（不先背叛）、可激怒（会报复）、宽容（对方回头就原谅）、清晰（容易被看懂从而建立信任）。

再往下可以学什么

信号传递与不完全信息（为什么名校文凭值钱）、讨价还价、拍卖设计、演化博弈（动物与策略的"适者生存"）。这些都建立在你刚学的四块基石上：劣势策略、纳什均衡、混合策略、逆向归纳。

纳什均衡一定是"最好"的结果吗？

不是。囚徒困境的均衡对双方都不是最优。纳什均衡只保证稳定（没人想单方面偏离），不保证高效或公平。

占优策略和纳什均衡什么关系？

如果人人都有占优策略，那这组占优策略一定构成纳什均衡。但反过来不成立——很多纳什均衡里并没有占优策略（如性别战）。

想看原版课程？

耶鲁公开课 ECON 159《Game Theory》，主讲 Ben Polak，共 24 讲，Open Yale Courses 上免费提供视频、字幕与讲义。配套教材常用 Dutta《Strategies and Games》或 Osborne《An Introduction to Game Theory》。

第八部分

生活 & 工作实战

博弈论不是黑板上的数字游戏。你每天都在玩——开会、谈薪、排队、和同事协作。下面把前面学的概念对号入座到真实场景。

🏠 生活场景

🚗 早高峰选路线
概念：纳什均衡 / 拥堵

大家都往"看起来更快"的小路挤，结果小路也堵了。均衡是两条路耗时大致相等——没人能靠换路单方面变快。导航 App 本质就是在帮所有人逼近这个均衡。

🧹 室友/家务分工
概念：囚徒困境 / 公地悲剧

"反正别人会扫"，于是谁都不扫，公共区域变脏。一次性博弈里偷懒是占优策略；但室友是重复博弈——值日表 + 互相监督，把它变成可维持的合作。

🍽️ AA 制点菜
概念：公地悲剧

均摊买单时，每个人都倾向多点贵菜（成本被分摊），总账单失控。解法：改成各付各的，让成本回到个人身上。

💑 周末去哪
概念：性别战 / 协调博弈

你想爬山，TA 想看展，但都更想一起。两个均衡都行，关键是协调——轮流决定、或提前约定，比僵持更优。

💼 工作场景

💰 谈薪资
概念：讨价还价 / 信息

先开价的人锚定了区间；有外部 offer（可信的"退出选项"）大幅提升议价力——就像进入威慑里，可信的威胁才有用。空喊"不加薪我就走"若不可信，等于没说。

🏢 同事甩锅 vs 协作
概念：囚徒困境

项目里各自抢功、推责是短期占优。但同事关系是长期重复博弈，以牙还牙式的互惠（你帮我我帮你）才能长期共赢。声誉是这里的货币。

📊 会议沉默
概念：劣势策略 / 从众

大家都怕第一个反对显得不合群，于是集体沉默通过了烂方案。识别这是个协调失败，主动"打破均衡"——有人带头表态，往往全场跟进。

🛒 公司价格战
概念：囚徒困境

两家都降价抢市场，结果都亏。这是经典囚徒困境；现实里靠差异化、隐性默契或长期博弈避免"两败俱伤"的均衡。

互动 7 · 这是什么博弈？

读情景，先猜它对应哪个概念，再点开看解析。

实战心法： 遇到决策困境时问自己三件事——①我的收益取决于谁的选择？②这是一次性还是反复打交道？③我能让自己的承诺/威胁变可信吗？想清这三点，你就已经在用博弈论了。

附录

数学小课堂（零基础友好）

博弈论里出现的"计算"其实只有小学到初中水平：比大小、算平均、算概率加权。下面把前面每个用到数学的地方，掰开揉碎讲一遍。不用怕，跟着读就行。

🧮 工具一：比大小（判断劣势策略）

这是最简单的一步——就是比谁的数字大。判断"策略 A 是不是被 B 严格支配"，你只需要：

对手的每一种选择，都把 A 的收益和 B 的收益拿来比。只要存在一次 A ≥ B，A 就不算被严格支配。

例（第一部分的"下"行）：
对手选左：下=2，中=4 → 4>2 ✓
对手选右：下=8，中=3 → 8>3，这次"下"反而更大 ✗
因为有一次"下"更大，所以"下"没有被支配。结论：要"每一种情况都更差"才叫严格劣势。

➗ 工具二：求平均数（猜 2/3 游戏）

平均数 = 把所有数加起来，再除以人数。比如 3 个人选了 60、30、0：

(60 + 30 + 0) ÷ 3 = 30

目标是"平均的 2/3"。2/3 ≈ 0.667，就是"乘以 0.667"，或者更直观地"先乘 2 再除以 3"：

30 × 2 ÷ 3 = 20

为什么答案会一路滑到 0？因为最大平均是 100，它的 2/3 只有约 67。所以选>67 永远没用→大家都不选→平均跌到 67 以下→目标跌到 44……每"想深一层"，目标就乘一次 2/3，越乘越小，极限是 0。

🎲 工具三：期望值（混合策略的核心）

这是唯一需要"概率"的地方，但概念很朴素：期望值 = 把每个结果，按它发生的概率加权后相加。像"加权平均的成绩"。

生活例子：一张彩票，70% 概率拿 0 元，30% 概率拿 100 元。它平均值多少？

0 × 0.70 + 100 × 0.30 = 0 + 30 = 30 元

注意：概率用小数（70% = 0.70），所有概率加起来要等于 1（0.70 + 0.30 = 1）。就这两条规则。

用到点球大战：守门员有 q 的概率扑左、(1−q) 的概率扑右。射手"踢左"的进球率就是按这两种情况加权：

进球率 = q×0.3 + (1−q)×0.9

含义：守门员扑对了（也扑左，概率 q）只剩 0.3 进球率；扑错了（扑右，概率 1−q）高达 0.9。把两块加权一加就是平均进球率。

互动 8 · 期望值计算器

自己填两种结果和概率，看期望值怎么算出来。（两个概率会自动凑成 100%）

结果A 数值
结果A 概率%
结果B 数值

🔁 工具四：逆向归纳（其实是"倒着比大小"）

博弈树看着吓人，但运算还是比大小，只是要从最后一步往前比。

进入威慑那棵树：
① 先看最后决策者（在位者）：打价格战=1，容忍=2 → 选 2（容忍）。
② 把这个结果"提"上来：进入者一旦进入，拿到的是 2；不进入拿 0。
③ 进入者比 2 和 0 → 选 2（进入）。
整个过程没有任何复杂公式，就是站在每个人的位置上，选他那行数字最大的，从后往前推。

一句话总结： 整个入门博弈论的数学，归根到底是三件事——比大小、求平均、按概率加权相加。会这三样，你就能算遍本课程所有题目。

本页为入门可视化教学材料，案例与数值经过简化以突出直觉，正式定义请以课程讲义与教材为准。