什么是博弈论?
博弈论研究的是相互依赖的决策:我的最优选择取决于你会怎么做,而你的选择又取决于我。它不只是"游戏",而是经济、政治、生物、商业谈判背后的通用语言。
一个博弈的四个要素
玩家(Players):做决策的人,记作 i、j。
策略(Strategies):每个玩家可选的行动,玩家 i 的某个策略记 si,其余人记 s-i。
收益(Payoffs):每种结果给玩家带来的效用 ui。
规则(Rules):同时出招还是有先后?信息是否公开?
下面我们从最基本、也是最有用的一条原则开始——永远不要选一个严格劣势的策略。
严格劣势策略
一个策略是 严格劣势(strictly dominated)的,意思是:无论对手怎么选,总有另一个策略给你带来严格更高的收益。理性的玩家永远不会选它。
互动 1 · 判断一个策略是否被支配
下表是玩家 1(行,蓝色=你的收益)的选择。对手玩家 2 选左或右。问:玩家 1 该不该选「下」?点击按钮逐步检验。
迭代剔除 & 猜 2/3 游戏
如果"我"不会选劣势策略,而且"我知道你也不会",那就能反复地删除:删掉我的劣势策略后,你的某些策略可能变成劣势,再删……这叫 迭代剔除严格劣势策略(IDSDS)。
互动 2 · 猜 2/3 平均数(Polak 课堂经典)
规则:所有人从 0–100 选一个数,谁的数最接近「全班平均数的 2/3」谁赢。你会选几?
逻辑:平均数最大 100,2/3 是 66.7,所以选 >67 是劣势→删。但如果大家都懂这点,平均≤67,目标≤44……一层层推下去,唯一存活的数是 0。这正是 IDSDS 的终点。
囚徒困境
博弈论最著名的模型。两名嫌犯被分开审讯,各自选择沉默(合作)或认罪(背叛)。数字是刑期,越小越好,所以这里收益用「负的年数」表示,越大越好。
互动 3 · 个人理性 vs 集体最优
现实版:军备竞赛、价格战、公地悲剧、气候谈判。本质都是"我做对自己最好的事,却让大家一起变糟"。
最佳对策与纳什均衡
很多博弈里没有占优策略,这时用 最佳对策(best response):给定对手的选择,我能拿到最高收益的回应。
纳什均衡:一组策略,每个人都在对其他人做最佳对策——没人想单方面改变。它是"互相猜对、且都没有后悔"的稳定点。
互动 4 · 性别战(协调博弈)
情侣想一起出门:玩家1(行)偏爱拳击,玩家2(列)偏爱芭蕾,但两人都更想在一起。点按钮标出最佳对策,交叉处就是纳什均衡。
混合策略
有些博弈根本没有纯策略均衡——比如石头剪刀布或点球大战:只要你的出招可预测,对手就能克制你。出路是随机化:按某个概率出招。
互动 5 · 点球大战:你该往哪扑?
守门员(你)选择扑左的概率 q。射手会挑你扑得少的一侧。拖动滑块,看双方期望进球率怎么变。
扑左概率 q = 50%
序贯博弈与逆向归纳
当玩家有先后顺序、能看到对方已走的棋,博弈就画成一棵 博弈树。求解方法是逆向归纳(backward induction):从最后一步倒着想——"如果轮到他,他会怎么选?"再推自己现在该怎么走。
互动 6 · 进入威慑博弈
新公司(进入者)决定是否进入市场;若进入,在位者选择打价格战或容忍。括号 = (进入者, 在位者) 收益。点击逐步逆向归纳。
重复博弈与延伸
囚徒困境里背叛是占优的——但如果反复打交道呢?在重复博弈中,今天的背叛会招致明天的报复,合作就可能靠"未来的阴影"维持。
以牙还牙(Tit-for-Tat)
Axelrod 著名的电脑锦标赛冠军策略,规则极简:第一轮合作;之后对方上一轮怎么对我,我这轮就怎么回敬。
它的成功源于四个特质:善良(不先背叛)、可激怒(会报复)、宽容(对方回头就原谅)、清晰(容易被看懂从而建立信任)。
再往下可以学什么
信号传递与不完全信息(为什么名校文凭值钱)、讨价还价、拍卖设计、演化博弈(动物与策略的"适者生存")。这些都建立在你刚学的四块基石上:劣势策略、纳什均衡、混合策略、逆向归纳。
纳什均衡一定是"最好"的结果吗?
不是。囚徒困境的均衡对双方都不是最优。纳什均衡只保证稳定(没人想单方面偏离),不保证高效或公平。
占优策略和纳什均衡什么关系?
如果人人都有占优策略,那这组占优策略一定构成纳什均衡。但反过来不成立——很多纳什均衡里并没有占优策略(如性别战)。
想看原版课程?
耶鲁公开课 ECON 159《Game Theory》,主讲 Ben Polak,共 24 讲,Open Yale Courses 上免费提供视频、字幕与讲义。配套教材常用 Dutta《Strategies and Games》或 Osborne《An Introduction to Game Theory》。
生活 & 工作实战
博弈论不是黑板上的数字游戏。你每天都在玩——开会、谈薪、排队、和同事协作。下面把前面学的概念对号入座到真实场景。
🏠 生活场景
概念:纳什均衡 / 拥堵
大家都往"看起来更快"的小路挤,结果小路也堵了。均衡是两条路耗时大致相等——没人能靠换路单方面变快。导航 App 本质就是在帮所有人逼近这个均衡。
概念:囚徒困境 / 公地悲剧
"反正别人会扫",于是谁都不扫,公共区域变脏。一次性博弈里偷懒是占优策略;但室友是重复博弈——值日表 + 互相监督,把它变成可维持的合作。
概念:公地悲剧
均摊买单时,每个人都倾向多点贵菜(成本被分摊),总账单失控。解法:改成各付各的,让成本回到个人身上。
概念:性别战 / 协调博弈
你想爬山,TA 想看展,但都更想一起。两个均衡都行,关键是协调——轮流决定、或提前约定,比僵持更优。
💼 工作场景
概念:讨价还价 / 信息
先开价的人锚定了区间;有外部 offer(可信的"退出选项")大幅提升议价力——就像进入威慑里,可信的威胁才有用。空喊"不加薪我就走"若不可信,等于没说。
概念:囚徒困境
项目里各自抢功、推责是短期占优。但同事关系是长期重复博弈,以牙还牙式的互惠(你帮我我帮你)才能长期共赢。声誉是这里的货币。
概念:劣势策略 / 从众
大家都怕第一个反对显得不合群,于是集体沉默通过了烂方案。识别这是个协调失败,主动"打破均衡"——有人带头表态,往往全场跟进。
概念:囚徒困境
两家都降价抢市场,结果都亏。这是经典囚徒困境;现实里靠差异化、隐性默契或长期博弈避免"两败俱伤"的均衡。
互动 7 · 这是什么博弈?
读情景,先猜它对应哪个概念,再点开看解析。
数学小课堂(零基础友好)
博弈论里出现的"计算"其实只有小学到初中水平:比大小、算平均、算概率加权。下面把前面每个用到数学的地方,掰开揉碎讲一遍。不用怕,跟着读就行。
🧮 工具一:比大小(判断劣势策略)
这是最简单的一步——就是比谁的数字大。判断"策略 A 是不是被 B 严格支配",你只需要:
对手的每一种选择,都把 A 的收益和 B 的收益拿来比。只要存在一次 A ≥ B,A 就不算被严格支配。
例(第一部分的"下"行):
对手选左:下=2,中=4 → 4>2 ✓
对手选右:下=8,中=3 → 8>3,这次"下"反而更大 ✗
因为有一次"下"更大,所以"下"没有被支配。结论:要"每一种情况都更差"才叫严格劣势。
➗ 工具二:求平均数(猜 2/3 游戏)
平均数 = 把所有数加起来,再除以人数。比如 3 个人选了 60、30、0:
(60 + 30 + 0) ÷ 3 = 30
目标是"平均的 2/3"。2/3 ≈ 0.667,就是"乘以 0.667",或者更直观地"先乘 2 再除以 3":
30 × 2 ÷ 3 = 20
为什么答案会一路滑到 0?因为最大平均是 100,它的 2/3 只有约 67。所以选>67 永远没用→大家都不选→平均跌到 67 以下→目标跌到 44……每"想深一层",目标就乘一次 2/3,越乘越小,极限是 0。
🎲 工具三:期望值(混合策略的核心)
这是唯一需要"概率"的地方,但概念很朴素:期望值 = 把每个结果,按它发生的概率加权后相加。像"加权平均的成绩"。
生活例子:一张彩票,70% 概率拿 0 元,30% 概率拿 100 元。它平均值多少?
0 × 0.70 + 100 × 0.30 = 0 + 30 = 30 元
注意:概率用小数(70% = 0.70),所有概率加起来要等于 1(0.70 + 0.30 = 1)。就这两条规则。
用到点球大战:守门员有 q 的概率扑左、(1−q) 的概率扑右。射手"踢左"的进球率就是按这两种情况加权:
进球率 = q×0.3 + (1−q)×0.9
含义:守门员扑对了(也扑左,概率 q)只剩 0.3 进球率;扑错了(扑右,概率 1−q)高达 0.9。把两块加权一加就是平均进球率。
互动 8 · 期望值计算器
自己填两种结果和概率,看期望值怎么算出来。(两个概率会自动凑成 100%)
🔁 工具四:逆向归纳(其实是"倒着比大小")
博弈树看着吓人,但运算还是比大小,只是要从最后一步往前比。
进入威慑那棵树:
① 先看最后决策者(在位者):打价格战=1,容忍=2 → 选 2(容忍)。
② 把这个结果"提"上来:进入者一旦进入,拿到的是 2;不进入拿 0。
③ 进入者比 2 和 0 → 选 2(进入)。
整个过程没有任何复杂公式,就是站在每个人的位置上,选他那行数字最大的,从后往前推。
本页为入门可视化教学材料,案例与数值经过简化以突出直觉,正式定义请以课程讲义与教材为准。