从零搭建AI Agent团队：9个阶段，从第一个Agent到生产级协作

Anthropic 工程团队实践总结：10个多Agent项目里，9个走不出Demo阶段。问题不是模型不够强，是缺Agent之间的结构。

核心问题

如果你试过让多个 AI Agent 一起干活，大概率遇到过：

一个 Agent 在五个标签页里自言自语
两个 Agent 抢同一件事做
第三个 Agent 跑完了没人知道
第四个 Agent 每一步都在重新理解整个任务

问题出在哪？ 缺的不是更强的模型，缺的是 Agent 之间的结构。

三层九阶段框架

第一层：把单个 Agent 做对
  STEP01 定义 Agent Loop
  STEP02 工程化上下文：写、选、压、隔
  STEP03 写对工具定义

第二层：让 Agent 之间能协作
  STEP04 用隔离上下文创建子 Agent
  STEP05 设计编排器：只规划、只委派、不执行
  STEP06 建一个共享任务列表

第三层：让整个系统可以上线跑
  STEP07 加记忆、加持久化、加沙箱
  STEP08 接上评估和轨迹检查
  STEP09 上线：权限和人工检查点

第一层：把单个 Agent 做对

STEP01 定义 Agent Loop

Agent Loop 核心是在代码里写死循环结构：模型接收状态 → 选择动作 → 执行 → 得到结果 → 更新状态 → 继续循环。

三件很多人忽略的事：

审批闸门：危险操作必须卡住
日志钩子：每一步做了什么、为什么做，必须记录
明确的停止条件：最大迭代次数（通常设30-50轮），一个跑飞的Agent比一个慢的Agent可怕得多

STEP02 工程化上下文：写、选、压、隔

上下文管理四操作：

写：每一步往上下文里加什么，要想清楚
选：从记忆或文件里精准检索，不是一股脑全倒进去
压：上下文快满时压缩成摘要，但关键决策不能丢
隔：子 Agent 在独立上下文窗口跑，主线程不受污染

关键：隔离子 Agent 上下文。主 Agent 委派任务给子 Agent，子 Agent 拿到干净窗口，只装任务和必要文件，完成后返回摘要——不是返回完整对话记录。

STEP03 写对工具定义

没有类型化的工具 Schema，模型会自己编造调用格式、参数结构、权限边界。

生产级字段：

前置条件：调用执行前必须满足的条件
副作用声明：让下游调用者知道会产生什么影响
需要审批：把调用路由到人工检查点
黑名单目标：Harness 强制执行，模型绕不过去

第二层：协作层

STEP04 用隔离上下文创建子 Agent

子 Agent 不是主 Agent 的复制品。它是有自己上下文、自己工具集、跑在更便宜模型上的专业单元。

成本模型精妙之处：编排器用 Opus（贵但管思路），子 Agent 用 Sonnet 或 Haiku（便宜管执行）。同时推进任务量是纯 Opus 方案的 5-10 倍，总成本还更低。

STEP05 设计编排器：只规划、只委派、不执行

编排器是整棵 Agent 树最上面的节点。它只做三件事：规划、委派、汇总。

关键：编排器一旦自己干活，就会把上下文污染掉，再也看不清全局。

STEP06 建一个共享任务列表

没有共享状态，"团队"就是一堆人各干各的。

共享任务列表三要素：

明确的分配人 → 两个 Agent 永远不会抢同一个任务
明确的依赖关系 → 前置任务没完成，后面的不会启动
明确的状态字段 → 编排器不用读对话记录就能知道进度

第三层：生产级团队

STEP07 加记忆、加持久化、加沙箱

记忆：结构化存储，主动往里写事实、决策、约定
持久化：每一步执行前后动作和结果落盘，崩溃后从轨迹恢复
沙箱：Agent 跑在容器或受限子进程里，只访问被明确授权的东西

STEP08 接上评估和轨迹检查

三层测量：

评估集：20-100个冻结任务，带已知正确答案，每次改动后跑一遍
轨迹检查：不只是"任务有没有完成"，还要看"工具调用顺序对不对"
CI 回归门禁：评估集在 PR 上自动跑，通过率跌破阈值直接拦截

STEP09 上线：权限和人工检查点

权限文件声明：团队可以自主做什么、什么需要人类点头、什么绝对不能碰。

python

## 始终允许（无需审批）
- 读取项目目录下任何文件
- 运行测试
- 创建分支

## 需要审批
- 合并 PR
- 部署到任何环境
- 安装新依赖

## 绝对禁止
- force push 到 main、production、staging
- 直接访问密钥或凭证
- 修改 permissions.md

十大错误

没有真正的 Loop（"请逐步思考"不是 Agent）
自由拼接的上下文
没有类型化的工具
子 Agent 没有隔离
编排器自己干活
没有共享任务列表
没有持久化
没有评估
没有权限文件

关键洞察

结构比分工更重要：2026年那些真正交付多Agent系统的团队，用的模型和其他人一样。多出来的是 Agent 之间那九层结构
从漏掉的那一层开始补：最常被跳过的是共享状态和权限文件
按阶段建，不是一夜灵感：一个能交付的 Agent 团队是按阶段建出来的，不是用一个周末的灵感搭出来的

从零搭建AI Agent团队：9个阶段，从第一个Agent到生产级协作 ​

核心问题 ​

三层九阶段框架 ​

第一层：把单个 Agent 做对 ​

STEP01 定义 Agent Loop ​

STEP02 工程化上下文：写、选、压、隔 ​

STEP03 写对工具定义 ​

第二层：协作层 ​

STEP04 用隔离上下文创建子 Agent ​

STEP05 设计编排器：只规划、只委派、不执行 ​

STEP06 建一个共享任务列表 ​

第三层：生产级团队 ​

STEP07 加记忆、加持久化、加沙箱 ​

STEP08 接上评估和轨迹检查 ​

STEP09 上线：权限和人工检查点 ​

十大错误 ​

关键洞察 ​