Skip to content

大模型 vs 大驭化层——核心争论

这是 2026 年 AI 工程界最有价值的争论之一。 两方都有实际数据支撑,两方都有商业利益。


争论的核心问题

随着模型能力不断提升,驭化层的价值会上升还是下降?

"大模型"派认为:驭化层是对模型不足的补偿,模型越强,需要的驭化层越薄。

"大驭化层"派认为:驭化层不是补丁,是基础设施,就像 OS 不会因为 CPU 更快而消失。


"大模型"派(薄驭化层)

核心主张

驭化层的价值被高估,模型本身的能力才是决定因素。

主要支持者与依据

Anthropic(Boris Cherny, Cat Wu)

"Claude Code 是对模型最薄的封装。我们相信,减少人工干预和规则,让模型的推理能力自由发挥,才是正确的方向。"

OpenAI Noam Brown

"随着推理模型的能力指数级提升,复杂的脚手架终将被淘汰。"

METR 评估

  • 在受控实验中,基础脚手架与专有 Harness 实现效果相当
  • 暗示:对于足够强的模型,额外的驭化层边际收益递减

"大驭化层"派(厚驭化层)

核心主张

驭化层不是模型的补偿,而是独立的基础设施层。即使模型变得无限强大,仍然需要:工具执行、状态持久化、安全边界、人工干预点、上下文工程。

关键数据

来源关键数据
LangChain 基准Claude Opus:52.8% → 66.5%(+13.7 点,不换模型)
独立研究(Nate B Jones)相同模型,通用脚手架 42% vs Claude Code 78%(差距 36 点)
Cursor 估值2026 年 3 月,500 亿美元,ARR 超 20 亿美元

Jerry Liu(LlamaIndex 创始人)

"获得 AI 价值的最大障碍,不是模型能力,而是工程师自身的上下文工程和工作流设计能力。"

Phil Schmid(Hugging Face)

"如果 LLM 是 CPU,Harness 是操作系统。我们不会因为 CPU 越来越快就说操作系统没有价值。"


两方都认可的事实

即使观点对立,以下几点有基本共识:

  1. 上下文工程有价值:如何向模型提供相关上下文,影响输出质量
  2. 工具设计有价值:好的工具定义让模型更容易正确使用工具
  3. 测试套件有价值:自动化验证让 Agent 能自我检验
  4. 文档是基础设施:机器可读的代码库文档提升 Agent 输出质量

数据解读的分歧

36 个百分点的差距

"大驭化层"派:这证明驭化层至关重要。

"大模型"派:这主要反映了 Anthropic 对自家模型的深度优化,而非通用驭化层工程的价值。


两派争论背后的商业动机

排除商业动机,看技术现实:

短期(1-2 年):驭化层工程仍然有显著价值,因为模型的能力存在真实局限。

中期(3-5 年):部分驭化层组件可能被模型内化,但安全边界、领域知识注入、人工干预点不会消失。

结论

驭化工程不是临时性的补偿,而是永久性的软件工程学科。

但它的内容会随模型进步而演进——真正重要的是理解原则,而不是记住当前的具体做法


延伸阅读

Released under the MIT License.