企业级知识库检索优化:从 RAG 到 Graph RAG
企业非结构化数据的检索痛点,以及从传统 RAG 到 Graph RAG 的演进方案。
核心痛点
企业积累了大量非结构化数据:
- 会议纪要、设计文档、汇报材料
- 员工手册、规章制度
- 培训视频、讲话录音
最大痛点:如何让系统自动管理这些信息,当需要时能迅速检索到。
RAG 基础
RAG(Retrieval-Augmented Generation) = 检索增强生成
为什么不能直接把文档丢给 AI?
| 问题 | 说明 |
|---|---|
| 上下文限制 | AI 处理信息有大小限制,企业数据量远超容量 |
| 准确度下降 | 上下文太多会干扰系统准确度 |
| 成本增加 | 处理大量数据提高成本 |
标准做法
- 将文档规范化建立索引
- 查询时先按相关性搜索候选文档
- 缩小范围后丢给 AI 回答
一、数据清洗和整理
这一步直接决定后续查询的完整性和准确度。
处理流程
| 文档类型 | 处理方式 |
|---|---|
| PPT/PDF/Word | 提取结构化信息,OCR 识别图片 |
| 音频/视频 | 提取文字内容 |
| 图像 | OCR 文字识别 |
关键点:保留文档段落的层次结构信息,方便后续检索。
二、数据索引和存储
这一步决定查询的准确度和速度。
标准向量 RAG 流程
1. 文档切成多个文本块(chunk)
2. 每个 chunk 转成 embedding
3. embedding 存入向量数据库
4. 用户提问 → 问题转成 embedding
5. 向量库检索 Top K 相似片段
6. 问题 + 检索片段 → 交给大模型
7. 大模型生成最终答案
示例
原文:入职满 1 年年假 5 天。年假可优先抵扣当年事假。
问题:入职满 1 年,事假超标可以先用年假抵扣吗?
答案:入职满 1 年拥有 5 天年假,年假可以优先抵扣当年事假。
层级结构索引
对于政策法规类文档,普通分块策略会导致:
- 查询信息不完整
- 根本查询不到
解决方案:结合文档层级结构和前后引用关系重建索引,在给子级段落建索引时注入上级层级结构信息。
三、传统 RAG 的局限
问题场景
问题:A 的经理的经理是谁?
传统 RAG 难以处理:
- 需要先查员工 A 属于哪个团队
- 再查 A 的直属经理是谁
- 再查这个经理的上级
答案藏在组织关系链里,不在单个段落中。
另一个例子
知识库内容:
- 文档 1:订单系统 依赖 用户数据库
- 文档 2:用户数据库 今晚进行停机维护
问题:今晚数据库维护,会造成哪些系统无法使用?
传统 RAG:只能分别提及数据库维护、订单系统,无法建立依赖关系。
四、Graph RAG:知识图谱增强
核心思路
Graph RAG = 在文本检索能力之外,补充结构化关系分析能力
核心载体:知识图谱
知识图谱构成
| 组成 | 说明 | 示例 |
|---|---|---|
| 实体 | 业务对象 | 人员、部门、产品、零件、供应商 |
| 关系 | 实体间联系 | 供货、使用、汇报、负责 |
Graph RAG 适用场景
| 场景 | 说明 |
|---|---|
| 影响分析 | 一个变化会影响哪些下游对象? |
| 依赖分析 | 某个系统、组件、供应商被哪些对象依赖? |
| 组织关系查询 | 某个人属于哪个团队,汇报链是什么? |
| 审批链查询 | 一个流程要经过哪些角色? |
| 供应链分析 | 某个零件短缺会影响哪些产品? |
| 因果链解释 | 一个事件如何在系统中传播? |
运行架构
原始数据
↓
┌─────────────┐ ┌─────────────┐
│ 向量搜索 │ │ 知识图谱 │
│ (语义检索) │ │ (关系分析) │
└─────────────┘ └─────────────┘
↓ ↓
└────────┬─────────┘
↓
查询结果
双维度处理:
- 沿用经典向量搜索:文本切片、向量化、语义检索
- 新增图谱方案:抽取实体与关系、搭建知识图谱
五、查询过滤和精排
6 步标准流程
| 步骤 | 说明 | Graph RAG 增强 |
|---|---|---|
| Query 预处理 | 清洗、改写、拆分、实体识别 | 区分多跳问句、关系类问句 |
| 多路粗召回 | 向量库语义召回、关键词召回 | 增加知识图谱遍历/实体路径检索 |
| 重排序(Rerank) | 细粒度打分、排序、过滤 | 叠加 Graph Boost 优化路径排序 |
| 上下文拼接与截断 | 整合片段、控制长度 | 剔除冗余、重复内容 |
| Prompt 组装 | 问题 + 上下文 + 指令模板 | 组合完整提示词 |
| LLM 生成 | 大模型基于上下文作答 | 部分场景增加结果校验 |
关键优化:短路返回
FAQ 命中 → 直接返回,不经过大模型处理(降低延迟和成本)
未命中 FAQ → 结合实体关系模型和 boosting 做召回率提升
六、总结
| 维度 | 传统 RAG | Graph RAG |
|---|---|---|
| 检索方式 | 向量相似度 | 向量 + 关系遍历 |
| 适用场景 | 单段落答案 | 跨文档/跨实体答案 |
| 复杂度 | 低 | 中高 |
| 准确度 | 单点高,跨点低 | 全局高 |
核心洞察:企业知识库不是"丢给 AI 就行",需要系统性的数据清洗、索引构建、多路召回和精排优化。
信息来源
| 来源 | URL | 访问时间 |
|---|---|---|
| 微信公众号 - 知识库检索不准?看我们是如何做的 | https://mp.weixin.qq.com/s/CAv7RQr_Ob1lYANd0e_2Gg | 2026-06-08 |