Skip to content

从零搭建AI Agent团队:9个阶段,从第一个Agent到生产级协作

Anthropic 工程团队实践总结:10个多Agent项目里,9个走不出Demo阶段。问题不是模型不够强,是缺Agent之间的结构。

核心问题

如果你试过让多个 AI Agent 一起干活,大概率遇到过:

  • 一个 Agent 在五个标签页里自言自语
  • 两个 Agent 抢同一件事做
  • 第三个 Agent 跑完了没人知道
  • 第四个 Agent 每一步都在重新理解整个任务

问题出在哪? 缺的不是更强的模型,缺的是 Agent 之间的结构。

三层九阶段框架

第一层:把单个 Agent 做对
  STEP01 定义 Agent Loop
  STEP02 工程化上下文:写、选、压、隔
  STEP03 写对工具定义

第二层:让 Agent 之间能协作
  STEP04 用隔离上下文创建子 Agent
  STEP05 设计编排器:只规划、只委派、不执行
  STEP06 建一个共享任务列表

第三层:让整个系统可以上线跑
  STEP07 加记忆、加持久化、加沙箱
  STEP08 接上评估和轨迹检查
  STEP09 上线:权限和人工检查点

第一层:把单个 Agent 做对

STEP01 定义 Agent Loop

Agent Loop 核心是在代码里写死循环结构:模型接收状态 → 选择动作 → 执行 → 得到结果 → 更新状态 → 继续循环。

三件很多人忽略的事:

  • 审批闸门:危险操作必须卡住
  • 日志钩子:每一步做了什么、为什么做,必须记录
  • 明确的停止条件:最大迭代次数(通常设30-50轮),一个跑飞的Agent比一个慢的Agent可怕得多

STEP02 工程化上下文:写、选、压、隔

上下文管理四操作:

  • :每一步往上下文里加什么,要想清楚
  • :从记忆或文件里精准检索,不是一股脑全倒进去
  • :上下文快满时压缩成摘要,但关键决策不能丢
  • :子 Agent 在独立上下文窗口跑,主线程不受污染

关键:隔离子 Agent 上下文。主 Agent 委派任务给子 Agent,子 Agent 拿到干净窗口,只装任务和必要文件,完成后返回摘要——不是返回完整对话记录。

STEP03 写对工具定义

没有类型化的工具 Schema,模型会自己编造调用格式、参数结构、权限边界。

生产级字段:

  • 前置条件:调用执行前必须满足的条件
  • 副作用声明:让下游调用者知道会产生什么影响
  • 需要审批:把调用路由到人工检查点
  • 黑名单目标:Harness 强制执行,模型绕不过去

第二层:协作层

STEP04 用隔离上下文创建子 Agent

子 Agent 不是主 Agent 的复制品。它是有自己上下文、自己工具集、跑在更便宜模型上的专业单元。

成本模型精妙之处:编排器用 Opus(贵但管思路),子 Agent 用 Sonnet 或 Haiku(便宜管执行)。同时推进任务量是纯 Opus 方案的 5-10 倍,总成本还更低。

STEP05 设计编排器:只规划、只委派、不执行

编排器是整棵 Agent 树最上面的节点。它只做三件事:规划、委派、汇总。

关键:编排器一旦自己干活,就会把上下文污染掉,再也看不清全局。

STEP06 建一个共享任务列表

没有共享状态,"团队"就是一堆人各干各的。

共享任务列表三要素:

  • 明确的分配人 → 两个 Agent 永远不会抢同一个任务
  • 明确的依赖关系 → 前置任务没完成,后面的不会启动
  • 明确的状态字段 → 编排器不用读对话记录就能知道进度

第三层:生产级团队

STEP07 加记忆、加持久化、加沙箱

  • 记忆:结构化存储,主动往里写事实、决策、约定
  • 持久化:每一步执行前后动作和结果落盘,崩溃后从轨迹恢复
  • 沙箱:Agent 跑在容器或受限子进程里,只访问被明确授权的东西

STEP08 接上评估和轨迹检查

三层测量:

  • 评估集:20-100个冻结任务,带已知正确答案,每次改动后跑一遍
  • 轨迹检查:不只是"任务有没有完成",还要看"工具调用顺序对不对"
  • CI 回归门禁:评估集在 PR 上自动跑,通过率跌破阈值直接拦截

STEP09 上线:权限和人工检查点

权限文件声明:团队可以自主做什么、什么需要人类点头、什么绝对不能碰。

python
## 始终允许(无需审批)
- 读取项目目录下任何文件
- 运行测试
- 创建分支

## 需要审批
- 合并 PR
- 部署到任何环境
- 安装新依赖

## 绝对禁止
- force push 到 main、production、staging
- 直接访问密钥或凭证
- 修改 permissions.md

十大错误

  1. 没有真正的 Loop("请逐步思考"不是 Agent)
  2. 自由拼接的上下文
  3. 没有类型化的工具
  4. 子 Agent 没有隔离
  5. 编排器自己干活
  6. 没有共享任务列表
  7. 没有持久化
  8. 没有评估
  9. 没有权限文件

关键洞察

  1. 结构比分工更重要:2026年那些真正交付多Agent系统的团队,用的模型和其他人一样。多出来的是 Agent 之间那九层结构

  2. 从漏掉的那一层开始补:最常被跳过的是共享状态和权限文件

  3. 按阶段建,不是一夜灵感:一个能交付的 Agent 团队是按阶段建出来的,不是用一个周末的灵感搭出来的

Released under the MIT License.