大模型 vs 大驭化层——核心争论
这是 2026 年 AI 工程界最有价值的争论之一。 两方都有实际数据支撑,两方都有商业利益。
争论的核心问题
随着模型能力不断提升,驭化层的价值会上升还是下降?
"大模型"派认为:驭化层是对模型不足的补偿,模型越强,需要的驭化层越薄。
"大驭化层"派认为:驭化层不是补丁,是基础设施,就像 OS 不会因为 CPU 更快而消失。
"大模型"派(薄驭化层)
核心主张
驭化层的价值被高估,模型本身的能力才是决定因素。
主要支持者与依据
Anthropic(Boris Cherny, Cat Wu):
"Claude Code 是对模型最薄的封装。我们相信,减少人工干预和规则,让模型的推理能力自由发挥,才是正确的方向。"
OpenAI Noam Brown:
"随着推理模型的能力指数级提升,复杂的脚手架终将被淘汰。"
METR 评估:
- 在受控实验中,基础脚手架与专有 Harness 实现效果相当
- 暗示:对于足够强的模型,额外的驭化层边际收益递减
"大驭化层"派(厚驭化层)
核心主张
驭化层不是模型的补偿,而是独立的基础设施层。即使模型变得无限强大,仍然需要:工具执行、状态持久化、安全边界、人工干预点、上下文工程。
关键数据
| 来源 | 关键数据 |
|---|---|
| LangChain 基准 | Claude Opus:52.8% → 66.5%(+13.7 点,不换模型) |
| 独立研究(Nate B Jones) | 相同模型,通用脚手架 42% vs Claude Code 78%(差距 36 点) |
| Cursor 估值 | 2026 年 3 月,500 亿美元,ARR 超 20 亿美元 |
Jerry Liu(LlamaIndex 创始人):
"获得 AI 价值的最大障碍,不是模型能力,而是工程师自身的上下文工程和工作流设计能力。"
Phil Schmid(Hugging Face):
"如果 LLM 是 CPU,Harness 是操作系统。我们不会因为 CPU 越来越快就说操作系统没有价值。"
两方都认可的事实
即使观点对立,以下几点有基本共识:
- 上下文工程有价值:如何向模型提供相关上下文,影响输出质量
- 工具设计有价值:好的工具定义让模型更容易正确使用工具
- 测试套件有价值:自动化验证让 Agent 能自我检验
- 文档是基础设施:机器可读的代码库文档提升 Agent 输出质量
数据解读的分歧
36 个百分点的差距
"大驭化层"派:这证明驭化层至关重要。
"大模型"派:这主要反映了 Anthropic 对自家模型的深度优化,而非通用驭化层工程的价值。
两派争论背后的商业动机
排除商业动机,看技术现实:
短期(1-2 年):驭化层工程仍然有显著价值,因为模型的能力存在真实局限。
中期(3-5 年):部分驭化层组件可能被模型内化,但安全边界、领域知识注入、人工干预点不会消失。
结论
驭化工程不是临时性的补偿,而是永久性的软件工程学科。
但它的内容会随模型进步而演进——真正重要的是理解原则,而不是记住当前的具体做法。
延伸阅读
- AINews: Is Harness Engineering real? — 最平衡的分析
- HN 讨论:Harness Engineering — 社区原始讨论