Skip to content

多智能体架构设计 v2

基于联网调研的对抗性分析版本,对原有多 Agent 架构进行勘误、丰富与升级。聚焦 2025-2026 年主流框架深度对比与编排模式决策树。


一、框架演进:从「单 Agent」到「多 Agent 系统」

原版问题

原版提到 CrewAI 作为多 Agent 框架的代表性方案,但存在以下不足:

  1. 未区分 CrewAI 和 LangGraph 的本质差异:两者代表两种完全不同的架构哲学
  2. 框架成熟度未更新:2026 年 LangGraph 已有 126K+ GitHub stars,CrewAI 44.6K,数据已过时
  3. 缺少决策树:面对具体场景,团队无法快速判断选择哪个框架
  4. 缺少「混合架构」实践:LangGraph + CrewAI 组合方案未被提及

行业背景(2026)

Gartner 报告:2024 Q1 至 2025 Q2,多 Agent 系统咨询量增长 1,445%

LangGraph GitHub stars:126,000+ CrewAI GitHub stars:44,600+

主流框架格局已稳定:

框架架构成熟度适用场景
LangGraph图论/状态机复杂状态管理、生产级
CrewAI角色团队快速原型、角色分明
AutoGen对话协作人类在回路场景
Claude Agent SDK工具链Claude 生态
OpenAI Agents SDK工具链OpenAI 生态

二、两种核心架构哲学深度对比

LangGraph:计算隐喻(Computational Metaphor)

LangGraph 重新定义了 AI 系统架构——从「类人 AI」到「计算图」。

核心概念:
├─ Node(节点)= 计算单元(Python 函数或 Agent)
├─ Edge(边)= 控制流路径
│   ├─ 普通边 → 固定路由
│   └─ 条件边 → 根据状态动态路由
├─ State(状态)= 显式状态 schema
└─ Checkpointer = 持久化状态,支持断点恢复

本质:Directed Acyclic Graph(DCG)+ 状态机

优势:
├─ 精确控制每个步骤
├─ 内置循环和反馈(反馈循环是 Agent 改进的引擎)
├─ 显式递归限制防止成本暴走
├─ 人在回路(Breakpoint)first-class 支持
└─ 调试友好(每步状态可见)

CrewAI:社交隐喻(Social Metaphor)

CrewAI 将多 Agent 系统建模为「人类团队」。

核心概念:
├─ Agent = 有角色、目标、背景故事的团队成员
├─ Task = 分配给 Agent 的具体任务及期望输出
├─ Tool = Agent 可使用的工具
├─ Crew = Agent 团队
└─ Process = Agent 协作方式(Sequential/Hierarchical/Consensus)

协作方式:
├─ Sequential(顺序)→ A → B → C
├─ Hierarchical(层级)→ Supervisor 分配任务
└─ Consensus(共识)→ 多 Agent 讨论达成一致

优势:
├─ 直观自然,角色映射清晰
├─ 快速构建原型(数小时上手)
└─ Flow + Crew 组合:既有编排骨架又有自主协作

三、编排模式决策树

三种基础模式

1. Sequential Pipeline(顺序流水线)
   A → B → C → D
   适用:步骤明确、顺序固定的链式任务
   代表:文档处理、内容多阶段加工

2. Hierarchical Delegation(层级委托)
          Supervisor
         /    |    \
      WorkerA WorkerB WorkerC
   适用:复杂任务需专门子 Agent
   代表:研究系统(Planner→Researcher→Writer→Reviewer)

3. Collaborative Network(协作网络)
      A ↔ B
      ↕   ↕
      C ↔ D
   适用:Peer-to-Peer 讨论、迭代优化
   代表:代码评审、内容共创

框架选择决策树

你的工作流有几个条件分支?
    │
    ├── 0-1 个(接近线性)
    │       └── CrewAI(简单 Crew)
    │
    ├── 2-4 个(中等复杂)
    │       ├── 需要精确控制 / 容错 / 断点恢复
    │       │       └── LangGraph
    │       └── 团队角色自然 / 快速原型优先
    │               └── CrewAI
    │
    └── 5+ 个(高度复杂)
            ├── 需循环/重试步骤
            ├── 状态必须显式管理
            └── 调试需要全流程可见
                    └── LangGraph(优先)

场景与框架匹配表(更新版)

场景推荐框架理由
客服机器人(固定流程)CrewAI快速构建角色分工
研究助手(多步骤+验证)LangGraph需要 Review 循环
代码审查 AgentLangGraph复杂决策树,精确控制
内容创作流水线CrewAIResearcher→Writer→Editor 角色分明
金融分析 AgentLangGraph多步工作流+状态跟踪关键
法律合同审查LangGraph验证循环+checkpointing
客户支持编排(动态路由)LangGraph复杂状态+容错
营销活动 AgentCrewAIStrategist→Copywriter→Designer 自然

四、CrewAI vs LangGraph 深度对比(2026 更新)

详细对比表

维度LangGraphCrewAI
架构模型图论/状态机角色团队
状态管理显式 State Schema + Checkpointing隐式(任务输出传递)
条件分支条件边(first-class)需自定义逻辑
循环/重试内置递归限制+反馈循环,健壮可能死循环,需手动限制
人在回路Breakpoint first-class基础回调
流式输出每节点 token 流有限
调试能力优秀(状态可见,时间旅行)中等
学习曲线陡(1-2 周)缓(数小时)
生产就绪度中(原型→生产有复杂度墙)
LangSmith 集成原生基础日志
MCP 支持
模型无关性是(任何 LLM)是(任何 LLM)
Python only否(JS 版本也有)
最适合复杂状态管理、生产级快速原型、角色分明

CrewAI 的「复杂度墙」

Reddit 2025 年讨论和多个生产案例揭示了 CrewAI 的典型问题:

「CrewAI 在快速原型阶段表现优秀,但推入真实生产环境后,遇到不可预测的循环、上下文窗口混乱、Agent 间通信不清晰等问题,扩展性和可靠性变得困难。」

CrewAI 适合的场景:想法验证内部工具非严格 SLA 要求的系统。

LangGraph 的优势场景

LangGraph 的状态机模型在以下场景有显著优势:

  • 长流程容错:某个步骤失败可从 checkpoint 恢复,无需从头开始
  • 复杂条件路由:5+ 个条件分支的场景用 CrewAI 难以维护
  • 精确超时控制:每个节点独立设置超时,防止单一慢节点阻塞整个流程

五、混合架构:LangGraph + CrewAI 组合

核心思路

LangGraph 是可靠的「骨架」,CrewAI 是灵活的「执行者」。

架构:
LangGraph(State Machine 骨架)
  │
  ├── 外层(控制流、可观测性、容错)
  │
  └── 内部节点(需要创意/协作的任务)
        └── 实例化 CrewAI 对象

示例:研究系统
├─ LangGraph 骨架:
│     Router_Node → Review_Node → Deploy_Node
│     ↑
│     条件边:根据审查结果路由
│
└─ CrewAI 执行者:
      Brainstorm_Node 实例化临时 CrewAI
      ├─ Agent-A:创意生成
      ├─ Agent-B:创意评估
      └─ 输出 → 捕获 → 更新全局 State → 关闭 Crew

适用场景

需要严格可靠性创意灵活性兼备的系统:

  • 研究报告生成(结构化输出 + 创意内容)
  • 代码生成(精确语法 + 创意解决方案)
  • 复杂文档处理(严格流程 + 多角度分析)

六、生产级多 Agent 架构三要素

1. 弹性层(Resilience Layer)

无论选择哪个框架,生产级系统必须包含:

重试+退避:
├─ 每个工具调用幂等
├─ 超时设置(各节点独立)
└─ 指数退避(1s → 2s → 4s → 放弃)

熔断器:
└─ 连续 N 次失败 → 降级兜底

2. 可观测性层(Observability Layer)

结构化日志:
├─ 每个 Agent 输入/输出
├─ Token 消耗(成本追踪)
├─ 执行时间(延迟分析)
└─ 错误日志(根因分析)

工具:
├─ LangSmith(LangGraph 原生)
├─ 自定义 OTLP + Prometheus
└─ 成本 Budget Guard(防止异常消耗)

3. 安全层(Safety Layer)

预算护栏:
├─ 最大 Token 预算
├─ 最大递归深度(LangGraph recursion_limit)
└─ 最大执行时间

输入/输出过滤:
├─ 提示词注入检测
└─ 输出内容安全审核

七、多 Agent 客服场景具体方案

场景:电商客服(订单查询+退换货+投诉)

方案 A:纯 CrewAI(快速但有限)
├─ Triage Agent(分诊:FAQ / 订单 / 退换货 / 投诉)
├─ Order Agent(订单查询)
├─ Return Agent(退换货处理)
└─ Escalation Agent(升级人工)

方案 B:纯 LangGraph(精确但复杂)
├─ State: {user_id, session_id, intent, order_info, resolved}
├─ Nodes: triage_node, order_query_node, return_node, escalate_node
├─ Edges: 条件边路由(根据意图和置信度)
└─ Checkpointer:多轮对话状态持久化

方案 C:LangGraph + CrewAI 混合(推荐生产级)
├─ LangGraph 外层:路由 + 状态管理 + 容错
└─ CrewAI 内层:
      └─ Complaint Handling Crew
          ├─ Apology Agent(安抚情绪)
          ├─ Investigation Agent(调查问题)
          └─ Resolution Agent(生成解决方案)

推荐方案

  • 简单客服(FAQ 为主):CrewAI 即可
  • 复杂客服(含多步操作+转人工):LangGraph
  • 高复杂度客服(需情感处理+投诉):混合架构

八、关键修正总结

原版问题v2 修正
未区分 LangGraph 和 CrewAI 本质差异深度对比两种架构哲学(计算隐喻 vs 社交隐喻)
框架成熟度数据未更新更新为 2026 年数据(126K+ vs 44.6K stars)
缺少框架选择决策树新增决策树 + 场景匹配表
未提及 CrewAI 复杂度墙新增生产风险分析
未提及混合架构新增 LangGraph + CrewAI 组合方案
缺少生产级三要素新增弹性层、可观测性层、安全层

九、参考资料

Released under the MIT License.