AI研发自动化：Wiki知识库+技能包

阿里哥伦实战：把 AI 研发自动化拆成 LLM-Wiki 知识库（持续生长型）+ 领域专家 SKILL 包（写方案/写代码/评审/测试/答疑/排障），最终用户只给 PRD，剩下全交给 agent。

一、定位

两条腿走路，缺一不可：

LLM-WIKI 知识库：持续生长型，服务于研发提效/自动化
领域专家 SKILL 包：写技术方案 | 开发代码 | 技术评审 | 自动化测试 | 专业答疑 | 问题排查

团队视角：成员共享，多 agent 平台可用。 最终目标：全自动研发流程——用户提供 PRD，剩下工作全交给它。

二、背景介绍

2.1 LLM-Wiki 知识库

2.1.1 主题思想

LLM-Wiki 是 Andrej Karpathy 于 2026 年 4 月提出的"新知识库模式"——本质就是一个 SKILL / md 文件。

核心思想：把 LLM 从"每次查询时重新检索的 RAG 引擎"变成"持续维护个人 Wiki 的全职编辑"。知识不再每次重新发现，而是被一次次摄入、合并、交叉引用，沉淀为一份"不断变厚的、活的、可演化"的知识库。

为什么 work：维护知识库的累活不是"读"和"想"，而是迭代 wiki（更新交叉引用、改综述、标矛盾、保一致性）。人类放弃 wiki 是因为维护成本随规模超线性增长；但 LLM 不会累、不会忘、一次能改多个文件，维护成本被压到接近零，wiki 才能长期活着。

2.1.2 KB 架构（三层）

层	内容	规则
L1: Sources	文档/图片/代码	LLM 只读不写，真相之源
L2: Wiki	markdown 文件集合（实体/概念/综述/对比页）	LLM 全权拥有，人只读不写
L3: Schema	目录约定、摄入流程、查询/巡检流程	写给 LLM 的"工作规范"，是把 LLM 从通用 chatbot 变成有纪律的 wiki 维护者的关键

2.1.3 核心操作

Ingest（摄入）：丢一份新数据源 → LLM 读 → 与你讨论要点 → 写摘要页 → 逐一更新被影响的实体页/概念页 → 更新 index → 追加 log。一次摄入触达多个页面。
Query（查询）：基于 wiki 答题，好答案要写回 wiki——让探索也变成沉淀，不消失在聊天历史里。
Lint（巡检）：定期让 LLM 自检——找矛盾、找过时、找孤页、找该独立成页但还没有的概念、补交叉引用、提建议性研究方向。

2.1.4 LLM-Wiki vs RAG

维度	传统 RAG	LLM-Wiki
知识形态	chunks + 向量索引	结构化、互链的人类可读 markdown 页面
核心动作	Retrieve → Generate	Ingest（摄入并融合）→ Read（直接读结论）
知识载体	向量数据库（不可读、不可改）	Git 仓库 + Obsidian（可读、可改、可版本）
合成时机	查询时	摄入时
知识增长	线性（多一份源 = 多一些 chunk）	复利式（多一份源 = 整张网被重写一次）
答案质量	随用增长不变	持续变好（每次问答都能沉淀回 wiki）
典型代表	NotebookLM, ChatGPT file upload, LangChain RAG	Obsidian + Claude/Codex + 一份 schema

关键洞察：Wiki 是一个持续编译、持续保鲜的产物（compounding artifact），不是查询时才生成的临时答案。

2.2 Obsidian 平台

Obsidian 是以 Markdown 笔记为基础的本地知识管理工具。一句话核心思想：用普通 Markdown 文件记录内容，通过双向链接、标签、图谱把知识连接起来。

关键功能：双向链接、Markdown 原生、图谱视图、本地化存储、插件生态（Dataview、Graph View、Web Clipper 等）。

三、团队定位

产品/前端/后端/测试同学共享 KB + Skill，跨角色复用同一份知识
多人协作通过 Obsidian Sync/Git 解决并发
团队规模不是问题，关键是 LLM 是 wiki 维护者

四、Skill 包设计

每个 Skill 都是一个 SKILL.md 文件，描述"在什么场景、用什么方法、调什么工具、输出什么产物"。核心模块：

模块	职责
大模型选型	按场景选 LLM（推理/长文本/代码/多模态）
工具调用（tool_use）	skill 内部的工具链：读文件/查库/调子 agent
SOP 流程	标准化作业流程，可执行可评测
评测系统	对 skill 输出打分，决定是否上线/回滚
反馈机制	用户使用反馈 → 自动回流到 skill 优化

五、Skill 包实例（6 大场景）

Skill	场景	关键能力
写技术方案	给 PRD 出设计稿	业务覆盖度 + 设计合理性 + 粒度 + 风险回滚 + 反编造
开发代码	按方案出代码	位置正确性 + 业务逻辑 + 风格一致 + 编译通过 + 兼容回归 + 变更说明
技术评审	给方案/代码挑刺	维度全面 + 高优问题定位 + 编造检测 + 修订可操作 + 立场独立
自动化测试	按 PRD 出用例	场景覆盖 + 可执行性 + 数据需求 + 异常边界 + 回归点
专业答疑	业务/技术问题	调用 KB + 工具验证 + 假设标注
问题排查	线上问题定位	SLS 查询 + 代码定位 + 根因证据 + 修复分层 + 复现步骤

六、mkt-link 实操案例

mkt-link 是某阿里营销业务的 DDD 工程，3038 个 Java 文件，6 大模块（client/controller/domain/infrastructure/service/dump）。作者以此为实例，演示如何把上面的 Skill 包真实落地：

KB 结构：kb-source（只读原始） + mkt-link-kb（LLM 维护 vault） + CLAUDE.md（Schema）
代码知识化粒度：核心模块详细（类级），辅助模块简略（模块级）
检索引擎 qmd：BM25 + 向量检索 + LLM 重排序

评测系统（核心质量门）

每个 Skill 都有 100 分制的多维度评分（对称的加分 vs 扣分），按 stage 选对应维度：

tech_solution：业务覆盖度 25 + 设计合理性 25 + 详细设计粒度 20 + 风险与回滚 15 + 反编造 15
tech_review：维度全面性 25 + 高优问题识别 25 + 编造检测 20 + 修订可操作性 15 + 立场独立性 15
coding：位置正确性 20 + 业务逻辑 27 + 风格一致 13 + 编译检查 17 + 兼容回归 13 + 变更说明 10
pre_test：场景覆盖 30 + 可执行性 25 + 数据需求 20 + 异常边界 15 + 回归点 10
problem_solve：SLS 查询 25 + 代码定位 25 + 根因可信 25 + 修复建议 15 + 复现步骤 10

反编造分级：识别 LLM 编造的不存在的类/接口/字段/表，按 L1~L3 分级扣分（-5 ~ -10）。

七、各 Skill 优化方向

文章逐个列了 6 大 skill 的当前问题和解法（详见原文）：

写技术方案：避免抽象描述、重复造轮子 → 强制 PRD 字段对齐 + 调用真实 utility
开发代码：位置正确性 + 编译通过 → 真实文件:行号 + javac 单文件验证
技术评审：高优问题定位 + 立场独立 → 行号证据 + 独立反查
自动化测试：异常边界 + 回归点 → 覆盖参数异常/下游失败/超时/空数据
问题排查：SLS 查询 + 根因证据 → 多条独立证据收敛 + 短中长期分层修复

八、未来规划

知识库的维护 & 质量监管：新文档进入/更新严格把关；关注 lint 健康分；过期/错误知识及时清理。
Skill 的自动优化：基于"评测系统打分"与"用户使用反馈"，LLM 定期给每个技能出优化建议，并通过 6.3 评测系统验证是否为正向优化。
跨多知识库发展：mkt-link-kb / tmc-datacube-kb / mkt-gemini-kb / mkt-zelda-kb。
全自动化的发展：当前已具备"自动化研发"每步骤的原子能力，再加一层 harness 规则体系——LLM 全托管式研发。
- 核心思想：LLM 是执行者，Harness 是导演——不替 LLM 思考，但负责编排、门禁、护栏、回滚。

九、鸣谢

青扉（实习，参与 6.2/6.3 评测系统建设）、三半、辰涛、萱霏、瑜尘。

参考链接

Obsidian: https://obsidian.md/download
(其余为内网工具：a1-CLI / odps / holo / igraph / oceanBase / mySql / SLS)

配图清单

文章 32 张图，主要是架构图/SOP 流程图/评分标准可视化。详见 ../images/ai-rd-automation-wiki-skill/。

AI研发自动化：Wiki知识库+技能包 ​

一、定位 ​

二、背景介绍 ​

2.1 LLM-Wiki 知识库 ​

2.1.1 主题思想 ​

2.1.2 KB 架构（三层） ​

2.1.3 核心操作 ​

2.1.4 LLM-Wiki vs RAG ​

2.2 Obsidian 平台 ​

三、团队定位 ​

四、Skill 包设计 ​

五、Skill 包实例（6 大场景） ​

六、mkt-link 实操案例 ​

评测系统（核心质量门） ​

七、各 Skill 优化方向 ​

八、未来规划 ​

九、鸣谢 ​

参考链接 ​

配图清单 ​