1. 什么是知识库?
一句话:公司里所有结构化、非结构化的信息,都可以放进知识库。
它可以包含:
- 规章制度
- 流程说明
- 合同模板
- 历史审批案例
- 员工手册
- 项目文档
- 邮件、聊天记录(如果允许)
- 扫描件、PDF、图片里的文字内容(经 OCR 处理后)
在 AI 时代,知识库不是给人“翻”的,而是给 AI“读”的。
2. 什么是向量数据库?
一句话:把文字变成“数学向量”,然后用向量数据库来存、来查。
为什么要这么做?
因为计算机看不懂文字,但能看懂向量。
向量可以表达语义,比如:
“请假流程”
“如何申请年假”
“年假怎么批”
这三句话的向量会非常接近,因为意思差不多。
向量数据库做的事情就是:
- 把文档内容转成向量
- 当你提问时,也把问题转成向量
- 用向量相似度快速找到“意思相近”的内容
常见的向量数据库:Milvus、Pinecone、Weaviate、FAISS 等。
3. 什么是召回?
一句话:从海量数据里,快速把“可能相关”的内容捞出来。
它不是最终答案,只是“候选集”。
比如你问:
“年假怎么申请?”
召回阶段可能会从知识库中捞出:
- 年假流程文档
- 请假制度 PDF
- 历史审批案例中含“年假”的记录
- 员工手册中关于休假的章节
这些是“可能有用”的内容,数量一般是几十到几百条。
召回之后,才会进入 AI 的“精排”阶段,让 AI 从这些候选里挑最有用的来生成回答。
4. 一个具体的 OA + AI 场景(非常典型)
假设你们公司有一个 OA 系统,里面有:
- 10000+ 份历史审批记录
- 500+ 份制度文档
- 200+ 份流程说明
- 大量合同模板、会议纪要等
现在员工在 OA 的 AI 助手对话框里输入:
“我想请 3 天年假,需要谁审批?”
下面我带你看整个流程:
第一步:问题进入系统
用户输入:
“我想请 3 天年假,需要谁审批?”
第二步:把问题转成向量
AI 模型(如 Embedding 模型)把这句话转成一个向量,比如:
[0.12, -0.34, 0.56, … , 0.09]
第三步:向量数据库“召回”相关内容
系统拿着这个向量去向量数据库里搜索,找到最相似的向量对应的文档,比如:
- 《员工休假管理制度》
- 《年假申请流程说明》
- 历史审批案例:员工 A 请 3 天年假,由直属经理审批
- 历史审批案例:员工 B 请 5 天年假,由经理 + 部门负责人审批
- 《OA 请假操作指南》
这些就是“召回”出来的候选内容。
第四步:AI 精读这些内容,生成回答
AI 拿到这些候选文档后,会阅读并总结,最终给用户一个清晰的答案:
“根据公司制度,3 天年假需要直属经理审批。流程是:在 OA 中提交请假申请 → 经理审批 → 自动归档。”
第五步:如果需要,还能给出引用来源
比如:
- 来自《员工休假管理制度》第 3.2 条
- 参考案例:员工 A,2025-06-12
这样用户更信任。
5. 这个场景里三个概念的角色总结
- 知识库:存放所有制度、流程、案例等原始信息
- 向量数据库:把这些信息转成向量并提供快速相似度检索
- 召回:根据用户问题,从海量文档中快速捞出最相关的一批内容,供 AI 精排
三者配合,让 OA 的 AI 助手能回答复杂问题,而不是只会“关键词匹配”。