Skip to content

来源:强模型,救不了烂工程,作者 编程一生


一句总公式

模型想 → 范式说准 → 可信敢上线 → Agent 能动手 → Harness 做得稳 → Agent OS 跑得久 → 业务才有真价值

分工记两句:

  • LLM owns reasoning.(模型负责想)
  • Harness owns reality.(工程负责接现实世界)

① LLM:地基

大模型是概率推理引擎——给上下文,猜下一个最合理的词。

擅长:理解、改写、推理、模仿格式。天生短板:幻觉、知识过期、窗口有限、默认不能动手——这些不是「再调调 Prompt」能根治的。

LLM 是大脑,不是产品。


② 三种用法:Prompt · RAG · 微调

路子里人话适合
Prompt不改模型,改输入快试、规则常变
RAG先检索再回答要有依据、知识常更新
微调用领域数据继续训话术格式要极稳

三者解决「怎么说」,还没解决「怎么做」。


③ 可信:敢不敢上线

Demo 能吹,生产栽在这:Grounding(有据)、Eval(别只测聊天)、Guardrails(硬拦权限)、Trace(能翻日志)。

安全别写进 Prompt「请遵守」——得代码 enforce。


④ Agent:从「会说」到「会做」

Agent = LLM + 循环 + 工具 + 上下文。

主流单层 Loop:想 → 调工具 → 看结果 → 再想 → 交卷

Workflow 像地铁时刻表,Agent 像会改路线的司机——步骤死、要强合规用 Workflow;探索、多工具再上 Agent。


⑤ 上下文 · Memory · Skill

弹药不止 Prompt:历史、检索、工具结果、组织规矩都算。Memory 分 Session / User / Organization,别搅成一锅摘要。Skill 是「说明书」,按需加载,别灌满窗口——上下文也是钱。


⑥ Harness:接现实世界

模型碰不到租户、凭证、审计。Harness 管:Contract沙箱策略结构化报错回灌trace续跑

少写替模型拍板的 if-else,多写保护世界的硬边界。


⑦ Agent OS:能天天跑

不是 API 网关套壳,而是任务生命周期、统一工具面、多 Agent、SaaS 审批与受控执行面分离。企业里常串:数据平台讲清数 → 知识中台讲清规矩 → Agent OS 在规矩里干活。


踩坑实录:拆了「双层 Loop」

早期搞过 Coordinator + Worker 双层 Agent:上层「协调」拆任务,下层「干活」执行——听起来很架构、很企业级。

跑了一阵,结论很干脆:效果差,还僵。

  • 上层 Python 在替模型做「该不该下一步」——抢模型的活,还抢不好
  • 两层之间协议越来越厚,改需求要动两处
  • 调试像查连环套:到底是协调层错了,还是干活层错了?

2026 年 4 月,净删 20,390 行,主链收敛成单层 Agent Loop——参考 Codex CLI、Claude Code:messages → LLM → tool → result → 循环

协调以后用多 Agent + 协调者 + 消息总线,不在 runtime 里再套一层 Worker Loop。

教训:协调应该是 Agent 的行为,不是架构里多一层 Python。


一张总图 + 选型口诀

业务 → Agent OS → Harness → Agent Loop
     → Context/RAG/Skill → Prompt·RAG·微调 → LLM
需求先看
要有依据RAG
要改系统Agent + Tool
步骤死Workflow
老碰权限Harness
多租户审计Agent OS

三不:不大模型替代 RAG;不 Agent 替代 Workflow;不 Prompt 替代 Harness。


结语

地板看模型,天花板看工程。模型负责想明白,Harness 负责做得稳,Agent OS 负责跑得久。

Released under the MIT License.