AI研发自动化:Wiki知识库+技能包
阿里哥伦实战:把 AI 研发自动化拆成 LLM-Wiki 知识库(持续生长型)+ 领域专家 SKILL 包(写方案/写代码/评审/测试/答疑/排障),最终用户只给 PRD,剩下全交给 agent。
一、定位
两条腿走路,缺一不可:
- LLM-WIKI 知识库:持续生长型,服务于研发提效/自动化
- 领域专家 SKILL 包:写技术方案 | 开发代码 | 技术评审 | 自动化测试 | 专业答疑 | 问题排查
团队视角:成员共享,多 agent 平台可用。 最终目标:全自动研发流程——用户提供 PRD,剩下工作全交给它。
二、背景介绍
2.1 LLM-Wiki 知识库
2.1.1 主题思想
LLM-Wiki 是 Andrej Karpathy 于 2026 年 4 月提出的"新知识库模式"——本质就是一个 SKILL / md 文件。
核心思想:把 LLM 从"每次查询时重新检索的 RAG 引擎"变成"持续维护个人 Wiki 的全职编辑"。知识不再每次重新发现,而是被一次次摄入、合并、交叉引用,沉淀为一份"不断变厚的、活的、可演化"的知识库。
为什么 work:维护知识库的累活不是"读"和"想",而是迭代 wiki(更新交叉引用、改综述、标矛盾、保一致性)。人类放弃 wiki 是因为维护成本随规模超线性增长;但 LLM 不会累、不会忘、一次能改多个文件,维护成本被压到接近零,wiki 才能长期活着。
2.1.2 KB 架构(三层)
| 层 | 内容 | 规则 |
|---|---|---|
| L1: Sources | 文档/图片/代码 | LLM 只读不写,真相之源 |
| L2: Wiki | markdown 文件集合(实体/概念/综述/对比页) | LLM 全权拥有,人只读不写 |
| L3: Schema | 目录约定、摄入流程、查询/巡检流程 | 写给 LLM 的"工作规范",是把 LLM 从通用 chatbot 变成有纪律的 wiki 维护者的关键 |
2.1.3 核心操作
- Ingest(摄入):丢一份新数据源 → LLM 读 → 与你讨论要点 → 写摘要页 → 逐一更新被影响的实体页/概念页 → 更新 index → 追加 log。一次摄入触达多个页面。
- Query(查询):基于 wiki 答题,好答案要写回 wiki——让探索也变成沉淀,不消失在聊天历史里。
- Lint(巡检):定期让 LLM 自检——找矛盾、找过时、找孤页、找该独立成页但还没有的概念、补交叉引用、提建议性研究方向。
2.1.4 LLM-Wiki vs RAG
| 维度 | 传统 RAG | LLM-Wiki |
|---|---|---|
| 知识形态 | chunks + 向量索引 | 结构化、互链的人类可读 markdown 页面 |
| 核心动作 | Retrieve → Generate | Ingest(摄入并融合)→ Read(直接读结论) |
| 知识载体 | 向量数据库(不可读、不可改) | Git 仓库 + Obsidian(可读、可改、可版本) |
| 合成时机 | 查询时 | 摄入时 |
| 知识增长 | 线性(多一份源 = 多一些 chunk) | 复利式(多一份源 = 整张网被重写一次) |
| 答案质量 | 随用增长不变 | 持续变好(每次问答都能沉淀回 wiki) |
| 典型代表 | NotebookLM, ChatGPT file upload, LangChain RAG | Obsidian + Claude/Codex + 一份 schema |
关键洞察:Wiki 是一个持续编译、持续保鲜的产物(compounding artifact),不是查询时才生成的临时答案。
2.2 Obsidian 平台
Obsidian 是以 Markdown 笔记为基础的本地知识管理工具。一句话核心思想:用普通 Markdown 文件记录内容,通过双向链接、标签、图谱把知识连接起来。
关键功能:双向链接、Markdown 原生、图谱视图、本地化存储、插件生态(Dataview、Graph View、Web Clipper 等)。
三、团队定位
- 产品/前端/后端/测试同学共享 KB + Skill,跨角色复用同一份知识
- 多人协作通过 Obsidian Sync/Git 解决并发
- 团队规模不是问题,关键是 LLM 是 wiki 维护者
四、Skill 包设计
每个 Skill 都是一个 SKILL.md 文件,描述"在什么场景、用什么方法、调什么工具、输出什么产物"。核心模块:
| 模块 | 职责 |
|---|---|
| 大模型选型 | 按场景选 LLM(推理/长文本/代码/多模态) |
| 工具调用(tool_use) | skill 内部的工具链:读文件/查库/调子 agent |
| SOP 流程 | 标准化作业流程,可执行可评测 |
| 评测系统 | 对 skill 输出打分,决定是否上线/回滚 |
| 反馈机制 | 用户使用反馈 → 自动回流到 skill 优化 |
五、Skill 包实例(6 大场景)
| Skill | 场景 | 关键能力 |
|---|---|---|
| 写技术方案 | 给 PRD 出设计稿 | 业务覆盖度 + 设计合理性 + 粒度 + 风险回滚 + 反编造 |
| 开发代码 | 按方案出代码 | 位置正确性 + 业务逻辑 + 风格一致 + 编译通过 + 兼容回归 + 变更说明 |
| 技术评审 | 给方案/代码挑刺 | 维度全面 + 高优问题定位 + 编造检测 + 修订可操作 + 立场独立 |
| 自动化测试 | 按 PRD 出用例 | 场景覆盖 + 可执行性 + 数据需求 + 异常边界 + 回归点 |
| 专业答疑 | 业务/技术问题 | 调用 KB + 工具验证 + 假设标注 |
| 问题排查 | 线上问题定位 | SLS 查询 + 代码定位 + 根因证据 + 修复分层 + 复现步骤 |
六、mkt-link 实操案例
mkt-link 是某阿里营销业务的 DDD 工程,3038 个 Java 文件,6 大模块(client/controller/domain/infrastructure/service/dump)。作者以此为实例,演示如何把上面的 Skill 包真实落地:
- KB 结构:kb-source(只读原始) + mkt-link-kb(LLM 维护 vault) + CLAUDE.md(Schema)
- 代码知识化粒度:核心模块详细(类级),辅助模块简略(模块级)
- 检索引擎 qmd:BM25 + 向量检索 + LLM 重排序
评测系统(核心质量门)
每个 Skill 都有 100 分制的多维度评分(对称的加分 vs 扣分),按 stage 选对应维度:
- tech_solution:业务覆盖度 25 + 设计合理性 25 + 详细设计粒度 20 + 风险与回滚 15 + 反编造 15
- tech_review:维度全面性 25 + 高优问题识别 25 + 编造检测 20 + 修订可操作性 15 + 立场独立性 15
- coding:位置正确性 20 + 业务逻辑 27 + 风格一致 13 + 编译检查 17 + 兼容回归 13 + 变更说明 10
- pre_test:场景覆盖 30 + 可执行性 25 + 数据需求 20 + 异常边界 15 + 回归点 10
- problem_solve:SLS 查询 25 + 代码定位 25 + 根因可信 25 + 修复建议 15 + 复现步骤 10
反编造分级:识别 LLM 编造的不存在的类/接口/字段/表,按 L1~L3 分级扣分(-5 ~ -10)。
七、各 Skill 优化方向
文章逐个列了 6 大 skill 的当前问题和解法(详见原文):
- 写技术方案:避免抽象描述、重复造轮子 → 强制 PRD 字段对齐 + 调用真实 utility
- 开发代码:位置正确性 + 编译通过 → 真实文件:行号 + javac 单文件验证
- 技术评审:高优问题定位 + 立场独立 → 行号证据 + 独立反查
- 自动化测试:异常边界 + 回归点 → 覆盖参数异常/下游失败/超时/空数据
- 问题排查:SLS 查询 + 根因证据 → 多条独立证据收敛 + 短中长期分层修复
八、未来规划
- 知识库的维护 & 质量监管:新文档进入/更新严格把关;关注 lint 健康分;过期/错误知识及时清理。
- Skill 的自动优化:基于"评测系统打分"与"用户使用反馈",LLM 定期给每个技能出优化建议,并通过 6.3 评测系统验证是否为正向优化。
- 跨多知识库发展:mkt-link-kb / tmc-datacube-kb / mkt-gemini-kb / mkt-zelda-kb。
- 全自动化的发展:当前已具备"自动化研发"每步骤的原子能力,再加一层 harness 规则体系——LLM 全托管式研发。
- 核心思想:LLM 是执行者,Harness 是导演——不替 LLM 思考,但负责编排、门禁、护栏、回滚。
九、鸣谢
青扉(实习,参与 6.2/6.3 评测系统建设)、三半、辰涛、萱霏、瑜尘。
参考链接
- Obsidian: https://obsidian.md/download
- (其余为内网工具:a1-CLI / odps / holo / igraph / oceanBase / mySql / SLS)
配图清单
文章 32 张图,主要是架构图/SOP 流程图/评分标准可视化。详见 ../images/ai-rd-automation-wiki-skill/。