AI研发自动化范式:Wiki + Skill + Harness
LLM-Wiki(持续生长型知识库)+ 领域专家 SKILL 包(6 大研发环节的原子能力)+ Harness 规则体系(门禁/编排/护栏/回滚)= 全自动化研发
定义
AI 研发自动化范式指用三件套把"AI 辅助写代码"升级到"用户给 PRD,剩下全交给 agent"的工程化体系:
- Wiki:让 AI 拥有团队长期积累的知识(持续维护而非每次检索)
- Skill:让 AI 在每个研发环节都有"原子能力 + 评测门禁"
- Harness:让 AI 能长跑(编排任务 + 质量门禁 + 自动回滚)
核心洞察(3 条)
1. 知识库必须"复利化",否则只是 RAG 包装
传统 RAG = chunks + 向量数据库,知识增长是线性的(多一份源 = 多一些 chunk),答案质量不增长。LLM-Wiki = markdown 实体/概念/综述页 + Obsidian + Git,知识增长是复利的(多一份源 = 整张网被重写一次),好答案要写回 wiki。Wiki 是持续编译、持续保鲜的产物,不是查询时生成的临时答案。
2. 每个研发环节的"Skill + 评测门禁"是规模化的前提
光有 skill 没评测 = skill 不可信;光有评测没 skill = 评测是空架子。两者配套才能:
- skill 产出的代码/方案/用例能自动打分
- 评测不达预期自动回滚,不污染下游
- 评测结果回流做 skill 优化("评测系统打分" + "用户反馈" → LLM 出优化建议 → 再走评测验证)
3. Harness 是 LLM 全自动研发的"导演"
LLM 是执行者(单步推理、产出),Harness 是导演(编排、门禁、护栏、回滚)。Harness 不替 LLM 思考,但负责让 LLM 能在长跑中不跑偏——本质是给 AI 装一套"工程纪律"。
三件套架构
┌─────────────────────────────────────────────────────────┐
│ Harness 规则体系(导演) │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌────────────┐│
│ │ 任务编排 │ │ 质量门禁 │ │ 护栏/巡检 │ │ 自动回滚 ││
│ └─────────┘ └─────────┘ └─────────┘ └────────────┘│
├─────────────────────────────────────────────────────────┤
│ Skill 包(执行者) │
│ 写技术方案 | 开发代码 | 技术评审 | 自动化测试 | 答疑 | 排障│
├─────────────────────────────────────────────────────────┤
│ Wiki 知识库(记忆) │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ Sources │→ │ Summaries│→ │ Concepts│ │
│ │ (只读) │ │ (精读) │ │ (知识页) │ │
│ └─────────┘ └─────────┘ └─────────┘ │
└─────────────────────────────────────────────────────────┘
6 大 Skill 评测门禁(100 分制)
| Skill | 关键维度(扣分项) |
|---|---|
| 写技术方案 | 抽象描述无落点 -3 / 重复造轮子 -3~-8 / 编造 -5~-10 |
| 开发代码 | 位置不正确 -X / 业务逻辑错 -X / 引入仓内零先例 -X / 不识别回归 -X |
| 技术评审 | 仅描述无定位证据 -3/条 / 仅默认接受原方案 -X |
| 自动化测试 | 只覆盖正常流程 -X / 缺执行细节 -X |
| 问题排查 | 单点猜测 -X / 仅一句建议 -X / 缺复现命令 -X |
反编造分级:编造不存在的类/接口/字段/表,按 L1~L3 分级扣 -5 ~ -10。这是评测系统的核心——把"AI 幻觉"量化为可执行的扣分项。
与 [[llm-wiki]] 的关系
本文是 [[llm-wiki]] 在研发域的工程化实现:
| 维度 | llm-wiki(理论) | 本文(实践) |
|---|---|---|
| 知识载体 | markdown 实体/概念/综述页 | mkt-link-kb 业务专属 vault |
| 维护者 | LLM | LLM + Harness 巡检 |
| 操作 | Ingest/Query/Lint | + Skill 评测 + 自动优化 |
| 边界 | 通用知识 | 聚焦研发环节(6 大 Skill) |
与 [[harness-engineering]] 的关系
[[harness-engineering]] 是 Harness 进化的理论框架(Prompt → Context → Harness)。本文把"harness 规则体系"具体化为:
- 评测系统(tech_solution / coding / tech_review / pre_test / problem_solve 5 套 100 分制)
- 任务编排(多 skill 串联成研发流水线)
- 自动回滚(评测不达预期 → 上一版本)
- 巡检(KB lint + skill 健康分)
与 [[ai-local-brain]] 的关系
[[ai-local-brain]] 是同一作者的另一篇:本地知识库 + Skill 体系让 AI 长期能帮忙。
- 本文是它的企业级升级版:从"个人助理"升级到"团队研发流水线"
- 共同点:知识本地化(不依赖云 RAG)、Skill 体系、Harness 编排
实施路径(参考 mkt-link 案例)
| 阶段 | 内容 |
|---|---|
| Phase 1 | 基础设施(目录、qmd、CLAUDE.md、Obsidian 插件) |
| Phase 2 | 文档知识化(首批 ~100 文档) |
| Phase 3 | 代码知识化(静态分析 + LLM 摘要) |
| Phase 4 | 集成验证(搜索、图谱、导航、lint) |
| Phase 5 | 持续运营(摄入流程、Skill 评测、自动化优化) |
何时不要用
- 小团队/小项目:6 大 Skill 的维护成本大于收益,直接让 LLM 写就行
- 早期 0 → 1:Harness 是规模化的产物,0 → 1 阶段反被 Harness 拖累速度
- 非研发域:本文专攻研发,其他域(写作/销售/运营)有各自的"Wiki + Skill + Harness"形态
关联概念
- [[llm-wiki]] — 同源理论
- [[harness-engineering]] — Harness 进化论
- [[ai-local-brain]] — 同作者个人助理版
- [[agentic-architectures]] — Agent 架构综述
- [[task-decomposition-thinking-loop]] — 任务分解思维循环,skill 内部设计的基础
- [[multi-agent]] — 多 agent 协作,6 大 skill 可以由不同 agent 承担