Skip to content

技术选型对比 v2

基于联网调研的对抗性分析版本,对原有技术选型进行勘误、丰富与升级。聚焦 2025-2026 年模型许可证、框架成熟度等关键变化。


一、原版问题总结

原版「技术选型对比」存在以下不足:

  1. LLM 选型数据过时:未提及 DeepSeek R1(2025 年 1 月发布,MIT 许可证)和 Qwen3 系列
  2. 许可证风险缺失:未分析各模型的商业许可限制
  3. 框架成熟度未量化:LangGraph vs CrewAI 的生产就绪度对比缺失具体数据
  4. 部署路径未讨论:自托管 vs API vs AWS Bedrock 三种路径的选择标准缺失

二、LLM 模型选型(2026 更新)

国产开源三巨头对比

模型许可证商用限制本地部署中文优化推荐场景
DeepSeek R1MIT(最宽松)无明确限制优秀成本敏感、合规要求高、中文深度优化
Qwen3 系列Apache 2.0月活 >100M 需商业许可优秀有生态需求(通义千问配套)
GLM-4自定义许可证禁止竞争应用良好仅内部工具(非客户Facing)

许可证风险详解

DeepSeek R1(MIT):
├─ 最宽松
├─ 可自由修改、部署、商业使用
└─ 推荐:面向客户的 SaaS 产品首选

Qwen2.5(Apache 2.0 + 100M 限制):
├─ 通用场景无影响
└─ 警告:如果月活超过 1 亿,需商业谈判

GLM-4(自定义许可证):
├─ 限制竞争应用
├─ 适合:内部工具、客服辅助
└─ 警告:面向客户的产品需先确认条款

开源权重 vs 开源:
├─ DeepSeek R1、Qwen、GLM 均为「开源权重」
├─ 不等于开源治理(训练数据和决策不透明)
└─ 如需完全开源,需关注 Llama 系列

Qwen3 更新(2025-2026)

Qwen3.5-Max 发布(2025-02):
├─ 20 万亿 tokens 预训练
├─ SFT + RLHF 后训练
├─ Arena-Hard、LiveBench、LiveCodeBench 表现优于 DeepSeek V3
└─ API 可用(qwen-max-2025-01-25)

Qwen3 即将发布:
├─ 下一代基模
└─ 预计进一步提升推理能力

Qwen3-Coder-Next(2025):
├─ SWE-Bench 70.6 分
├─ 46GB 4-bit 量化可本地运行
├─ OpenAI 兼容 API
└─ 直接集成 Claude Code

选型决策树

第一步:你的数据是否敏感?
    │
    ├── 是(医疗/金融/政府)
    │       └── 自托管(DeepSeek R1 / Qwen2.5)
    │
    └── 否
            ├── 预算敏感 / 中文深度优化
            │       └── DeepSeek R1(MIT,最灵活)
            │
            ├── 已有阿里云生态
            │       └── Qwen3(Apache 2.0,配套完善)
            │
            └── 追求前沿能力
                    └── Qwen3.5-Max API 或 Claude/GPT

Coding 模型专项对比(2025-2026)

模型SWE-Bench本地运行Claude Code 集成推荐
GLM-4.774.2需高端 GPUOpenAI 兼容最高分
Qwen3-Coder-Next70.6✅(46GB 4-bit)OpenAI 兼容最易部署
DeepSeek-V3.270.2云端(Bedrock/Azure)OpenAI 兼容云端优先

三、Embedding 模型选型

原版未深入

原版仅提到「Qwen3 Embedding」。v2 补充腾讯优图实战方案:

腾讯优图 2B 级 Embedding 模型(2025):
├─ 多阶段训练
├─ Reranker 分层蒸馏
├─ 结构化表检索能力
└─ 图检索优化

选型建议:
├─ 多语言检索、超长文档 → Qwen3 Embedding
├─ 复杂文档(含表格/结构化数据)→ 腾讯优图方案
└─ 通用场景 → paraphrase-multilingual-MiniLM-L12-v2

四、框架成熟度量化对比(2026)

多 Agent 编排框架

框架GitHub Stars生产就绪度维护活跃度学习曲线
LangGraph126K+⭐⭐⭐⭐⭐极高陡(1-2周)
CrewAI44.6K⭐⭐⭐缓(数小时)
AutoGen30K+⭐⭐⭐
Claude Agent SDKN/A⭐⭐⭐⭐
OpenAI Agents SDKN/A⭐⭐⭐

LangGraph 生产就绪度分析

LangGraph 的生产优势:
├─ 状态机模型 → 精确控制每个步骤
├─ Checkpointing → 断点恢复,无需从头开始
├─ 递归限制 → 防止成本暴走
├─ Breakpoint → 人在回路
├─ LangSmith → 内置可观测性
└─ 模型无关 → 可随时切换 LLM

LangGraph 的生产风险:
├─ 学习曲线陡(需要状态机思维)
├─ 代码量多(比 CrewAI 多 2-3 倍)
└─ 调试需要图论知识

CrewAI 生产就绪度分析

CrewAI 的原型优势:
├─ 数小时上手
├─ 角色映射自然
├─ Flow + Crew 组合灵活
└─ 快速构建多 Agent 协作

CrewAI 的生产风险(「复杂度墙」):
├─ 长流程容错差(失败后难以精确恢复)
├─ 条件分支需自定义逻辑(比 LangGraph 脆弱)
├─ 循环/重试不易控制
└─ 中等复杂度场景(5+ Agent)后维护困难

五、向量数据库选型

2025-2026 选型矩阵

数据库数据规模持久化性能维护成本推荐场景
FAISS小-中❌(重启丢失)最快MVP、实验
Chroma小-中✅(SQLite)快速原型
Qdrant中-大生产级轻量
Milvus大-海量企业级海量
Pinecone中-大✅(云托管)低(托管)云原生
Redis + RediSearch小-中已有 Redis 栈

推荐原则

规模 < 10M 向量:Chroma(轻量)
规模 10M - 100M:Qdrant(性价比)
规模 > 100M:Milvus(分布式)
已有云厂商:Pinecone / 云自带向量服务
不想运维:Pinecone(完全托管)

六、部署路径决策

三种部署路径

1. Proprietary API(最简单)
   └─ OpenAI / Claude / Qwen API
   ├─ 优点:零基础设施,即用
   └─ 缺点:全价付费,数据经过第三方

2. Self-Hosted Open-Weight(最灵活)
   └─ DeepSeek R1 / Qwen2.5 本地部署
   ├─ 优点:完全控制,最低边际成本(大批量)
   └─ 缺点:需 GPU 资源和 ML-Ops 能力

3. AWS Bedrock Managed Open-Weight(平衡方案)
   └─ DeepSeek / Qwen / Kimi K2 on Bedrock
   ├─ 优点:企业 SLA,数据不出 AWS,零运维
   └─ 缺点:比自托管贵,比 API 灵活

选型标准

场景推荐路径
快速验证 MVPProprietary API
大批量推理 + 数据敏感Self-Hosted
不想运维 + 合规要求AWS Bedrock
成本极敏感 + 中文优化Self-Hosted DeepSeek R1
团队无 ML-Ops 能力Bedrock 或 API

AWS Bedrock 2025 扩展(重要更新)

2025 年 12 月 AWS Bedrock 大幅扩展:
├─ 新增 18 个完全托管的开源模型
├─ Qwen3 系列
├─ Kimi K2
├─ MiniMax M2
└─ 其他主流开源模型

优势:
├─ 企业 SLA
├─ 数据区域驻留
├─ 无 GPU 采购
├─ 无集群管理
└─ 选择模型 → 配置护栏 → 调用 API

七、关键修正总结

原版问题v2 修正
LLM 选型数据过时新增 DeepSeek R1(MIT)、Qwen3.5-Max、GLM-4.7
未分析许可证风险详细分析 MIT/Apache 2.0/自定义许可证及商业限制
未提及 Coding 模型对比新增 SWE-Bench 专项对比
框架成熟度未量化新增 GitHub stars、生产就绪度量化数据
部署路径讨论不足新增三种路径决策标准 + AWS Bedrock 2025 扩展
未提及 Embedding 模型新增腾讯优图 2B 级 Embedding 方案

八、参考资料

Released under the MIT License.