Skip to content

企业级知识库检索优化:从 RAG 到 Graph RAG

企业非结构化数据的检索痛点,以及从传统 RAG 到 Graph RAG 的演进方案。

核心痛点

企业积累了大量非结构化数据:

  • 会议纪要、设计文档、汇报材料
  • 员工手册、规章制度
  • 培训视频、讲话录音

最大痛点:如何让系统自动管理这些信息,当需要时能迅速检索到。


RAG 基础

RAG(Retrieval-Augmented Generation) = 检索增强生成

为什么不能直接把文档丢给 AI?

问题说明
上下文限制AI 处理信息有大小限制,企业数据量远超容量
准确度下降上下文太多会干扰系统准确度
成本增加处理大量数据提高成本

标准做法

  1. 将文档规范化建立索引
  2. 查询时先按相关性搜索候选文档
  3. 缩小范围后丢给 AI 回答

一、数据清洗和整理

这一步直接决定后续查询的完整性和准确度

处理流程

文档类型处理方式
PPT/PDF/Word提取结构化信息,OCR 识别图片
音频/视频提取文字内容
图像OCR 文字识别

关键点:保留文档段落的层次结构信息,方便后续检索。


二、数据索引和存储

这一步决定查询的准确度和速度

标准向量 RAG 流程

1. 文档切成多个文本块(chunk)
2. 每个 chunk 转成 embedding
3. embedding 存入向量数据库
4. 用户提问 → 问题转成 embedding
5. 向量库检索 Top K 相似片段
6. 问题 + 检索片段 → 交给大模型
7. 大模型生成最终答案

示例

原文:入职满 1 年年假 5 天。年假可优先抵扣当年事假。

问题:入职满 1 年,事假超标可以先用年假抵扣吗?

答案:入职满 1 年拥有 5 天年假,年假可以优先抵扣当年事假。

层级结构索引

对于政策法规类文档,普通分块策略会导致:

  • 查询信息不完整
  • 根本查询不到

解决方案:结合文档层级结构和前后引用关系重建索引,在给子级段落建索引时注入上级层级结构信息。


三、传统 RAG 的局限

问题场景

问题:A 的经理的经理是谁?

传统 RAG 难以处理:

  • 需要先查员工 A 属于哪个团队
  • 再查 A 的直属经理是谁
  • 再查这个经理的上级

答案藏在组织关系链里,不在单个段落中

另一个例子

知识库内容

  • 文档 1:订单系统 依赖 用户数据库
  • 文档 2:用户数据库 今晚进行停机维护

问题:今晚数据库维护,会造成哪些系统无法使用?

传统 RAG:只能分别提及数据库维护、订单系统,无法建立依赖关系。


四、Graph RAG:知识图谱增强

核心思路

Graph RAG = 在文本检索能力之外,补充结构化关系分析能力

核心载体:知识图谱

知识图谱构成

组成说明示例
实体业务对象人员、部门、产品、零件、供应商
关系实体间联系供货、使用、汇报、负责

Graph RAG 适用场景

场景说明
影响分析一个变化会影响哪些下游对象?
依赖分析某个系统、组件、供应商被哪些对象依赖?
组织关系查询某个人属于哪个团队,汇报链是什么?
审批链查询一个流程要经过哪些角色?
供应链分析某个零件短缺会影响哪些产品?
因果链解释一个事件如何在系统中传播?

运行架构

原始数据
    ↓
┌─────────────┐    ┌─────────────┐
│ 向量搜索    │    │ 知识图谱    │
│ (语义检索)  │    │ (关系分析)  │
└─────────────┘    └─────────────┘
    ↓                  ↓
    └────────┬─────────┘
             ↓
         查询结果

双维度处理

  • 沿用经典向量搜索:文本切片、向量化、语义检索
  • 新增图谱方案:抽取实体与关系、搭建知识图谱

五、查询过滤和精排

6 步标准流程

步骤说明Graph RAG 增强
Query 预处理清洗、改写、拆分、实体识别区分多跳问句、关系类问句
多路粗召回向量库语义召回、关键词召回增加知识图谱遍历/实体路径检索
重排序(Rerank)细粒度打分、排序、过滤叠加 Graph Boost 优化路径排序
上下文拼接与截断整合片段、控制长度剔除冗余、重复内容
Prompt 组装问题 + 上下文 + 指令模板组合完整提示词
LLM 生成大模型基于上下文作答部分场景增加结果校验

关键优化:短路返回

FAQ 命中 → 直接返回,不经过大模型处理(降低延迟和成本)

未命中 FAQ → 结合实体关系模型和 boosting 做召回率提升


六、总结

维度传统 RAGGraph RAG
检索方式向量相似度向量 + 关系遍历
适用场景单段落答案跨文档/跨实体答案
复杂度中高
准确度单点高,跨点低全局高

核心洞察:企业知识库不是"丢给 AI 就行",需要系统性的数据清洗、索引构建、多路召回和精排优化。


信息来源

来源URL访问时间
微信公众号 - 知识库检索不准?看我们是如何做的https://mp.weixin.qq.com/s/CAv7RQr_Ob1lYANd0e_2Gg2026-06-08

Released under the MIT License.