Skip to content

AI研发自动化:Wiki知识库+技能包

阿里哥伦实战:把 AI 研发自动化拆成 LLM-Wiki 知识库(持续生长型)+ 领域专家 SKILL 包(写方案/写代码/评审/测试/答疑/排障),最终用户只给 PRD,剩下全交给 agent。

一、定位

两条腿走路,缺一不可:

  • LLM-WIKI 知识库:持续生长型,服务于研发提效/自动化
  • 领域专家 SKILL 包:写技术方案 | 开发代码 | 技术评审 | 自动化测试 | 专业答疑 | 问题排查

团队视角:成员共享,多 agent 平台可用。 最终目标:全自动研发流程——用户提供 PRD,剩下工作全交给它。

二、背景介绍

2.1 LLM-Wiki 知识库

2.1.1 主题思想

LLM-Wiki 是 Andrej Karpathy 于 2026 年 4 月提出的"新知识库模式"——本质就是一个 SKILL / md 文件。

核心思想:把 LLM 从"每次查询时重新检索的 RAG 引擎"变成"持续维护个人 Wiki 的全职编辑"。知识不再每次重新发现,而是被一次次摄入、合并、交叉引用,沉淀为一份"不断变厚的、活的、可演化"的知识库。

为什么 work:维护知识库的累活不是"读"和"想",而是迭代 wiki(更新交叉引用、改综述、标矛盾、保一致性)。人类放弃 wiki 是因为维护成本随规模超线性增长;但 LLM 不会累、不会忘、一次能改多个文件,维护成本被压到接近零,wiki 才能长期活着。

2.1.2 KB 架构(三层)

内容规则
L1: Sources文档/图片/代码LLM 只读不写,真相之源
L2: Wikimarkdown 文件集合(实体/概念/综述/对比页)LLM 全权拥有,人只读不写
L3: Schema目录约定、摄入流程、查询/巡检流程写给 LLM 的"工作规范",是把 LLM 从通用 chatbot 变成有纪律的 wiki 维护者的关键

2.1.3 核心操作

  • Ingest(摄入):丢一份新数据源 → LLM 读 → 与你讨论要点 → 写摘要页 → 逐一更新被影响的实体页/概念页 → 更新 index → 追加 log。一次摄入触达多个页面。
  • Query(查询):基于 wiki 答题,好答案要写回 wiki——让探索也变成沉淀,不消失在聊天历史里。
  • Lint(巡检):定期让 LLM 自检——找矛盾、找过时、找孤页、找该独立成页但还没有的概念、补交叉引用、提建议性研究方向。

2.1.4 LLM-Wiki vs RAG

维度传统 RAGLLM-Wiki
知识形态chunks + 向量索引结构化、互链的人类可读 markdown 页面
核心动作Retrieve → GenerateIngest(摄入并融合)→ Read(直接读结论)
知识载体向量数据库(不可读、不可改)Git 仓库 + Obsidian(可读、可改、可版本)
合成时机查询时摄入时
知识增长线性(多一份源 = 多一些 chunk)复利式(多一份源 = 整张网被重写一次)
答案质量随用增长不变持续变好(每次问答都能沉淀回 wiki)
典型代表NotebookLM, ChatGPT file upload, LangChain RAGObsidian + Claude/Codex + 一份 schema

关键洞察:Wiki 是一个持续编译、持续保鲜的产物(compounding artifact),不是查询时才生成的临时答案。

2.2 Obsidian 平台

Obsidian 是以 Markdown 笔记为基础的本地知识管理工具。一句话核心思想:用普通 Markdown 文件记录内容,通过双向链接、标签、图谱把知识连接起来

关键功能:双向链接、Markdown 原生、图谱视图、本地化存储、插件生态(Dataview、Graph View、Web Clipper 等)。

三、团队定位

  • 产品/前端/后端/测试同学共享 KB + Skill,跨角色复用同一份知识
  • 多人协作通过 Obsidian Sync/Git 解决并发
  • 团队规模不是问题,关键是 LLM 是 wiki 维护者

四、Skill 包设计

每个 Skill 都是一个 SKILL.md 文件,描述"在什么场景、用什么方法、调什么工具、输出什么产物"。核心模块:

模块职责
大模型选型按场景选 LLM(推理/长文本/代码/多模态)
工具调用(tool_use)skill 内部的工具链:读文件/查库/调子 agent
SOP 流程标准化作业流程,可执行可评测
评测系统对 skill 输出打分,决定是否上线/回滚
反馈机制用户使用反馈 → 自动回流到 skill 优化

五、Skill 包实例(6 大场景)

Skill场景关键能力
写技术方案给 PRD 出设计稿业务覆盖度 + 设计合理性 + 粒度 + 风险回滚 + 反编造
开发代码按方案出代码位置正确性 + 业务逻辑 + 风格一致 + 编译通过 + 兼容回归 + 变更说明
技术评审给方案/代码挑刺维度全面 + 高优问题定位 + 编造检测 + 修订可操作 + 立场独立
自动化测试按 PRD 出用例场景覆盖 + 可执行性 + 数据需求 + 异常边界 + 回归点
专业答疑业务/技术问题调用 KB + 工具验证 + 假设标注
问题排查线上问题定位SLS 查询 + 代码定位 + 根因证据 + 修复分层 + 复现步骤

mkt-link 是某阿里营销业务的 DDD 工程,3038 个 Java 文件,6 大模块(client/controller/domain/infrastructure/service/dump)。作者以此为实例,演示如何把上面的 Skill 包真实落地:

  • KB 结构:kb-source(只读原始) + mkt-link-kb(LLM 维护 vault) + CLAUDE.md(Schema)
  • 代码知识化粒度:核心模块详细(类级),辅助模块简略(模块级)
  • 检索引擎 qmd:BM25 + 向量检索 + LLM 重排序

评测系统(核心质量门)

每个 Skill 都有 100 分制的多维度评分(对称的加分 vs 扣分),按 stage 选对应维度:

  • tech_solution:业务覆盖度 25 + 设计合理性 25 + 详细设计粒度 20 + 风险与回滚 15 + 反编造 15
  • tech_review:维度全面性 25 + 高优问题识别 25 + 编造检测 20 + 修订可操作性 15 + 立场独立性 15
  • coding:位置正确性 20 + 业务逻辑 27 + 风格一致 13 + 编译检查 17 + 兼容回归 13 + 变更说明 10
  • pre_test:场景覆盖 30 + 可执行性 25 + 数据需求 20 + 异常边界 15 + 回归点 10
  • problem_solve:SLS 查询 25 + 代码定位 25 + 根因可信 25 + 修复建议 15 + 复现步骤 10

反编造分级:识别 LLM 编造的不存在的类/接口/字段/表,按 L1~L3 分级扣分(-5 ~ -10)。

七、各 Skill 优化方向

文章逐个列了 6 大 skill 的当前问题和解法(详见原文):

  • 写技术方案:避免抽象描述、重复造轮子 → 强制 PRD 字段对齐 + 调用真实 utility
  • 开发代码:位置正确性 + 编译通过 → 真实文件:行号 + javac 单文件验证
  • 技术评审:高优问题定位 + 立场独立 → 行号证据 + 独立反查
  • 自动化测试:异常边界 + 回归点 → 覆盖参数异常/下游失败/超时/空数据
  • 问题排查:SLS 查询 + 根因证据 → 多条独立证据收敛 + 短中长期分层修复

八、未来规划

  1. 知识库的维护 & 质量监管:新文档进入/更新严格把关;关注 lint 健康分;过期/错误知识及时清理。
  2. Skill 的自动优化:基于"评测系统打分"与"用户使用反馈",LLM 定期给每个技能出优化建议,并通过 6.3 评测系统验证是否为正向优化。
  3. 跨多知识库发展:mkt-link-kb / tmc-datacube-kb / mkt-gemini-kb / mkt-zelda-kb。
  4. 全自动化的发展:当前已具备"自动化研发"每步骤的原子能力,再加一层 harness 规则体系——LLM 全托管式研发。
    • 核心思想:LLM 是执行者,Harness 是导演——不替 LLM 思考,但负责编排、门禁、护栏、回滚。

九、鸣谢

青扉(实习,参与 6.2/6.3 评测系统建设)、三半、辰涛、萱霏、瑜尘。

参考链接

配图清单

文章 32 张图,主要是架构图/SOP 流程图/评分标准可视化。详见 ../images/ai-rd-automation-wiki-skill/

Released under the MIT License.