Skip to content

AI研发自动化范式:Wiki + Skill + Harness

LLM-Wiki(持续生长型知识库)+ 领域专家 SKILL 包(6 大研发环节的原子能力)+ Harness 规则体系(门禁/编排/护栏/回滚)= 全自动化研发

定义

AI 研发自动化范式指用三件套把"AI 辅助写代码"升级到"用户给 PRD,剩下全交给 agent"的工程化体系:

  • Wiki:让 AI 拥有团队长期积累的知识(持续维护而非每次检索)
  • Skill:让 AI 在每个研发环节都有"原子能力 + 评测门禁"
  • Harness:让 AI 能长跑(编排任务 + 质量门禁 + 自动回滚)

核心洞察(3 条)

1. 知识库必须"复利化",否则只是 RAG 包装

传统 RAG = chunks + 向量数据库,知识增长是线性的(多一份源 = 多一些 chunk),答案质量不增长。LLM-Wiki = markdown 实体/概念/综述页 + Obsidian + Git,知识增长是复利的(多一份源 = 整张网被重写一次),好答案要写回 wiki。Wiki 是持续编译、持续保鲜的产物,不是查询时生成的临时答案。

2. 每个研发环节的"Skill + 评测门禁"是规模化的前提

光有 skill 没评测 = skill 不可信;光有评测没 skill = 评测是空架子。两者配套才能:

  • skill 产出的代码/方案/用例能自动打分
  • 评测不达预期自动回滚,不污染下游
  • 评测结果回流做 skill 优化("评测系统打分" + "用户反馈" → LLM 出优化建议 → 再走评测验证)

3. Harness 是 LLM 全自动研发的"导演"

LLM 是执行者(单步推理、产出),Harness 是导演(编排、门禁、护栏、回滚)。Harness 不替 LLM 思考,但负责让 LLM 能在长跑中不跑偏——本质是给 AI 装一套"工程纪律"。

三件套架构

┌─────────────────────────────────────────────────────────┐
│  Harness 规则体系(导演)                                │
│  ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌────────────┐│
│  │ 任务编排 │  │ 质量门禁 │  │ 护栏/巡检 │  │ 自动回滚   ││
│  └─────────┘  └─────────┘  └─────────┘  └────────────┘│
├─────────────────────────────────────────────────────────┤
│  Skill 包(执行者)                                       │
│  写技术方案 | 开发代码 | 技术评审 | 自动化测试 | 答疑 | 排障│
├─────────────────────────────────────────────────────────┤
│  Wiki 知识库(记忆)                                       │
│  ┌─────────┐  ┌─────────┐  ┌─────────┐                 │
│  │ Sources │→ │ Summaries│→ │ Concepts│                 │
│  │ (只读)   │  │ (精读)   │  │ (知识页) │                 │
│  └─────────┘  └─────────┘  └─────────┘                 │
└─────────────────────────────────────────────────────────┘

6 大 Skill 评测门禁(100 分制)

Skill关键维度(扣分项)
写技术方案抽象描述无落点 -3 / 重复造轮子 -3~-8 / 编造 -5~-10
开发代码位置不正确 -X / 业务逻辑错 -X / 引入仓内零先例 -X / 不识别回归 -X
技术评审仅描述无定位证据 -3/条 / 仅默认接受原方案 -X
自动化测试只覆盖正常流程 -X / 缺执行细节 -X
问题排查单点猜测 -X / 仅一句建议 -X / 缺复现命令 -X

反编造分级:编造不存在的类/接口/字段/表,按 L1~L3 分级扣 -5 ~ -10。这是评测系统的核心——把"AI 幻觉"量化为可执行的扣分项。

与 [[llm-wiki]] 的关系

本文是 [[llm-wiki]] 在研发域的工程化实现

维度llm-wiki(理论)本文(实践)
知识载体markdown 实体/概念/综述页mkt-link-kb 业务专属 vault
维护者LLMLLM + Harness 巡检
操作Ingest/Query/Lint+ Skill 评测 + 自动优化
边界通用知识聚焦研发环节(6 大 Skill)

与 [[harness-engineering]] 的关系

[[harness-engineering]] 是 Harness 进化的理论框架(Prompt → Context → Harness)。本文把"harness 规则体系"具体化为:

  • 评测系统(tech_solution / coding / tech_review / pre_test / problem_solve 5 套 100 分制)
  • 任务编排(多 skill 串联成研发流水线)
  • 自动回滚(评测不达预期 → 上一版本)
  • 巡检(KB lint + skill 健康分)

与 [[ai-local-brain]] 的关系

[[ai-local-brain]] 是同一作者的另一篇:本地知识库 + Skill 体系让 AI 长期能帮忙。

  • 本文是它的企业级升级版:从"个人助理"升级到"团队研发流水线"
  • 共同点:知识本地化(不依赖云 RAG)、Skill 体系、Harness 编排
阶段内容
Phase 1基础设施(目录、qmd、CLAUDE.md、Obsidian 插件)
Phase 2文档知识化(首批 ~100 文档)
Phase 3代码知识化(静态分析 + LLM 摘要)
Phase 4集成验证(搜索、图谱、导航、lint)
Phase 5持续运营(摄入流程、Skill 评测、自动化优化)

何时不要用

  • 小团队/小项目:6 大 Skill 的维护成本大于收益,直接让 LLM 写就行
  • 早期 0 → 1:Harness 是规模化的产物,0 → 1 阶段反被 Harness 拖累速度
  • 非研发域:本文专攻研发,其他域(写作/销售/运营)有各自的"Wiki + Skill + Harness"形态

关联概念

  • [[llm-wiki]] — 同源理论
  • [[harness-engineering]] — Harness 进化论
  • [[ai-local-brain]] — 同作者个人助理版
  • [[agentic-architectures]] — Agent 架构综述
  • [[task-decomposition-thinking-loop]] — 任务分解思维循环,skill 内部设计的基础
  • [[multi-agent]] — 多 agent 协作,6 大 skill 可以由不同 agent 承担

Released under the MIT License.