【AI】----什么是知识库？什么是向量数据库？应用场景是什么？-程序员充电站

1. 什么是知识库？

一句话：公司里所有结构化、非结构化的信息，都可以放进知识库。

它可以包含：

规章制度
流程说明
合同模板
历史审批案例
员工手册
项目文档
邮件、聊天记录（如果允许）
扫描件、PDF、图片里的文字内容（经 OCR 处理后）

在 AI 时代，知识库不是给人“翻”的，而是给 AI“读”的。

2. 什么是向量数据库？

一句话：把文字变成“数学向量”，然后用向量数据库来存、来查。

为什么要这么做？
因为计算机看不懂文字，但能看懂向量。
向量可以表达语义，比如：

“请假流程”
“如何申请年假”
“年假怎么批”

这三句话的向量会非常接近，因为意思差不多。

向量数据库做的事情就是：

把文档内容转成向量
当你提问时，也把问题转成向量
用向量相似度快速找到“意思相近”的内容

常见的向量数据库：Milvus、Pinecone、Weaviate、FAISS 等。

3. 什么是召回？

一句话：从海量数据里，快速把“可能相关”的内容捞出来。

它不是最终答案，只是“候选集”。

比如你问：
“年假怎么申请？”

召回阶段可能会从知识库中捞出：

年假流程文档
请假制度 PDF
历史审批案例中含“年假”的记录
员工手册中关于休假的章节

这些是“可能有用”的内容，数量一般是几十到几百条。

召回之后，才会进入 AI 的“精排”阶段，让 AI 从这些候选里挑最有用的来生成回答。

4. 一个具体的 OA + AI 场景（非常典型）

假设你们公司有一个 OA 系统，里面有：

10000+ 份历史审批记录
500+ 份制度文档
200+ 份流程说明
大量合同模板、会议纪要等

现在员工在 OA 的 AI 助手对话框里输入：

“我想请 3 天年假，需要谁审批？”

下面我带你看整个流程：

第一步：问题进入系统

用户输入：
“我想请 3 天年假，需要谁审批？”

第二步：把问题转成向量

AI 模型（如 Embedding 模型）把这句话转成一个向量，比如：

[0.12, -0.34, 0.56, … , 0.09]

第三步：向量数据库“召回”相关内容

系统拿着这个向量去向量数据库里搜索，找到最相似的向量对应的文档，比如：

《员工休假管理制度》
《年假申请流程说明》
历史审批案例：员工 A 请 3 天年假，由直属经理审批
历史审批案例：员工 B 请 5 天年假，由经理 + 部门负责人审批
《OA 请假操作指南》

这些就是“召回”出来的候选内容。

第四步：AI 精读这些内容，生成回答

AI 拿到这些候选文档后，会阅读并总结，最终给用户一个清晰的答案：

“根据公司制度，3 天年假需要直属经理审批。流程是：在 OA 中提交请假申请 → 经理审批 → 自动归档。”

第五步：如果需要，还能给出引用来源

比如：

来自《员工休假管理制度》第 3.2 条
参考案例：员工 A，2025-06-12

这样用户更信任。

5. 这个场景里三个概念的角色总结

知识库：存放所有制度、流程、案例等原始信息
向量数据库：把这些信息转成向量并提供快速相似度检索
召回：根据用户问题，从海量文档中快速捞出最相关的一批内容，供 AI 精排

三者配合，让 OA 的 AI 助手能回答复杂问题，而不是只会“关键词匹配”。

IQuest-Coder-V1性能瓶颈突破：多GPU并行推理部署教程

IQuest-Coder-V1性能瓶颈突破：多GPU并行推理部署教程 1. 为什么你需要关注IQuest-Coder-V1-40B-Instruct 如果你正在为大型代码生成任务发愁——比如批量生成完整函数、自动修复跨文件缺陷、或构建能自主执行SWE-Bench测试的智能体，那么你大概率已经遇…

李华

5步搞定IQuest-Coder-V1部署：镜像一键启动实战推荐

5步搞定IQuest-Coder-V1部署：镜像一键启动实战推荐 1. 为什么这款代码模型值得你花5分钟部署？ 你有没有过这样的经历：想快速验证一个算法思路，却卡在环境配置上——装依赖、调版本、改路径，一小时过去，连…

李华

FSMN VAD长音频处理：内存溢出预防措施

FSMN VAD长音频处理：内存溢出预防措施 1. 为什么长音频会让FSMN VAD“喘不过气”？ 你可能已经试过——上传一段30分钟的会议录音，点击“开始处理”，结果页面卡住、终端报错、甚至整个WebUI直接崩溃。这不是你的电脑太旧&#xf…

李华

训练数据来源说明：unet隐私合规性审查教程

训练数据来源说明：UNet人像卡通化隐私合规性审查教程 1. 为什么需要做隐私合规性审查？ 你可能已经用过这款“人像卡通化”工具——上传一张自拍，几秒钟后就生成一张风格鲜明的卡通头像。效果很酷，但有没有想过：这张照…

李华

通义千问3-14B降本部署实战：单卡运行，成本省60%优化案例

通义千问3-14B降本部署实战：单卡运行，成本省60%优化案例 1. 为什么是Qwen3-14B？一个被低估的“性价比守门员” 你有没有遇到过这样的困境：项目需要强推理能力，但预算只够配一张消费级显卡；想用大模型处理…

李华

NewBie-image-Exp0.1学术研究案例：用于动漫风格迁移的实验配置

NewBie-image-Exp0.1学术研究案例：用于动漫风格迁移的实验配置 1. 为什么这个镜像特别适合动漫风格迁移研究做动漫图像生成研究，最让人头疼的往往不是模型本身，而是环境配置、Bug修复、权重下载这些“看不见的工程活”。NewBie-image-Exp0…

李华