强模型，救不了烂工程

来源：强模型，救不了烂工程，作者编程一生

一句总公式

模型想 → 范式说准 → 可信敢上线 → Agent 能动手 → Harness 做得稳 → Agent OS 跑得久 → 业务才有真价值

分工记两句：

LLM owns reasoning.（模型负责想）
Harness owns reality.（工程负责接现实世界）

① LLM：地基

大模型是概率推理引擎——给上下文，猜下一个最合理的词。

擅长：理解、改写、推理、模仿格式。天生短板：幻觉、知识过期、窗口有限、默认不能动手——这些不是「再调调 Prompt」能根治的。

LLM 是大脑，不是产品。

② 三种用法：Prompt · RAG · 微调

路子里	人话	适合
Prompt	不改模型，改输入	快试、规则常变
RAG	先检索再回答	要有依据、知识常更新
微调	用领域数据继续训	话术格式要极稳

三者解决「怎么说」，还没解决「怎么做」。

③ 可信：敢不敢上线

Demo 能吹，生产栽在这：Grounding（有据）、Eval（别只测聊天）、Guardrails（硬拦权限）、Trace（能翻日志）。

安全别写进 Prompt「请遵守」——得代码 enforce。

④ Agent：从「会说」到「会做」

Agent = LLM + 循环 + 工具 + 上下文。

主流单层 Loop：想 → 调工具 → 看结果 → 再想 → 交卷。

Workflow 像地铁时刻表，Agent 像会改路线的司机——步骤死、要强合规用 Workflow；探索、多工具再上 Agent。

⑤ 上下文 · Memory · Skill

弹药不止 Prompt：历史、检索、工具结果、组织规矩都算。Memory 分 Session / User / Organization，别搅成一锅摘要。Skill 是「说明书」，按需加载，别灌满窗口——上下文也是钱。

⑥ Harness：接现实世界

模型碰不到租户、凭证、审计。Harness 管：Contract、沙箱、策略、结构化报错回灌、trace、续跑。

少写替模型拍板的 if-else，多写保护世界的硬边界。

⑦ Agent OS：能天天跑

不是 API 网关套壳，而是任务生命周期、统一工具面、多 Agent、SaaS 审批与受控执行面分离。企业里常串：数据平台讲清数 → 知识中台讲清规矩 → Agent OS 在规矩里干活。

踩坑实录：拆了「双层 Loop」

早期搞过 Coordinator + Worker 双层 Agent：上层「协调」拆任务，下层「干活」执行——听起来很架构、很企业级。

跑了一阵，结论很干脆：效果差，还僵。

上层 Python 在替模型做「该不该下一步」——抢模型的活，还抢不好
两层之间协议越来越厚，改需求要动两处
调试像查连环套：到底是协调层错了，还是干活层错了？

2026 年 4 月，净删 20,390 行，主链收敛成单层 Agent Loop——参考 Codex CLI、Claude Code：messages → LLM → tool → result → 循环。

协调以后用多 Agent + 协调者 + 消息总线，不在 runtime 里再套一层 Worker Loop。

教训：协调应该是 Agent 的行为，不是架构里多一层 Python。

一张总图 + 选型口诀

业务 → Agent OS → Harness → Agent Loop
     → Context/RAG/Skill → Prompt·RAG·微调 → LLM

需求	先看
要有依据	RAG
要改系统	Agent + Tool
步骤死	Workflow
老碰权限	Harness
多租户审计	Agent OS

三不：不大模型替代 RAG；不 Agent 替代 Workflow；不 Prompt 替代 Harness。

结语

地板看模型，天花板看工程。模型负责想明白，Harness 负责做得稳，Agent OS 负责跑得久。

一句总公式 ​

① LLM：地基 ​

② 三种用法：Prompt · RAG · 微调 ​

③ 可信：敢不敢上线 ​

④ Agent：从「会说」到「会做」 ​

⑤ 上下文 · Memory · Skill ​

⑥ Harness：接现实世界 ​

⑦ Agent OS：能天天跑 ​

踩坑实录：拆了「双层 Loop」 ​

一张总图 + 选型口诀 ​

结语 ​