news 2026/4/18 8:31:45

【AI】----什么是知识库?什么是向量数据库?应用场景是什么?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【AI】----什么是知识库?什么是向量数据库?应用场景是什么?

1. 什么是知识库?

一句话:公司里所有结构化、非结构化的信息,都可以放进知识库。

它可以包含:

  • 规章制度
  • 流程说明
  • 合同模板
  • 历史审批案例
  • 员工手册
  • 项目文档
  • 邮件、聊天记录(如果允许)
  • 扫描件、PDF、图片里的文字内容(经 OCR 处理后)

在 AI 时代,知识库不是给人“翻”的,而是给 AI“读”的。


2. 什么是向量数据库?

一句话:把文字变成“数学向量”,然后用向量数据库来存、来查。

为什么要这么做?
因为计算机看不懂文字,但能看懂向量。
向量可以表达语义,比如:

“请假流程”
“如何申请年假”
“年假怎么批”

这三句话的向量会非常接近,因为意思差不多。

向量数据库做的事情就是:

  • 把文档内容转成向量
  • 当你提问时,也把问题转成向量
  • 用向量相似度快速找到“意思相近”的内容

常见的向量数据库:Milvus、Pinecone、Weaviate、FAISS 等。


3. 什么是召回?

一句话:从海量数据里,快速把“可能相关”的内容捞出来。

它不是最终答案,只是“候选集”。

比如你问:
“年假怎么申请?”

召回阶段可能会从知识库中捞出:

  • 年假流程文档
  • 请假制度 PDF
  • 历史审批案例中含“年假”的记录
  • 员工手册中关于休假的章节

这些是“可能有用”的内容,数量一般是几十到几百条。

召回之后,才会进入 AI 的“精排”阶段,让 AI 从这些候选里挑最有用的来生成回答。


4. 一个具体的 OA + AI 场景(非常典型)

假设你们公司有一个 OA 系统,里面有:

  • 10000+ 份历史审批记录
  • 500+ 份制度文档
  • 200+ 份流程说明
  • 大量合同模板、会议纪要等

现在员工在 OA 的 AI 助手对话框里输入:

“我想请 3 天年假,需要谁审批?”

下面我带你看整个流程:


第一步:问题进入系统

用户输入:
“我想请 3 天年假,需要谁审批?”


第二步:把问题转成向量

AI 模型(如 Embedding 模型)把这句话转成一个向量,比如:

[0.12, -0.34, 0.56, … , 0.09]


第三步:向量数据库“召回”相关内容

系统拿着这个向量去向量数据库里搜索,找到最相似的向量对应的文档,比如:

  1. 《员工休假管理制度》
  2. 《年假申请流程说明》
  3. 历史审批案例:员工 A 请 3 天年假,由直属经理审批
  4. 历史审批案例:员工 B 请 5 天年假,由经理 + 部门负责人审批
  5. 《OA 请假操作指南》

这些就是“召回”出来的候选内容。


第四步:AI 精读这些内容,生成回答

AI 拿到这些候选文档后,会阅读并总结,最终给用户一个清晰的答案:

“根据公司制度,3 天年假需要直属经理审批。流程是:在 OA 中提交请假申请 → 经理审批 → 自动归档。”


第五步:如果需要,还能给出引用来源

比如:

  • 来自《员工休假管理制度》第 3.2 条
  • 参考案例:员工 A,2025-06-12

这样用户更信任。


5. 这个场景里三个概念的角色总结

  • 知识库:存放所有制度、流程、案例等原始信息
  • 向量数据库:把这些信息转成向量并提供快速相似度检索
  • 召回:根据用户问题,从海量文档中快速捞出最相关的一批内容,供 AI 精排

三者配合,让 OA 的 AI 助手能回答复杂问题,而不是只会“关键词匹配”。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:04:18

IQuest-Coder-V1性能瓶颈突破:多GPU并行推理部署教程

IQuest-Coder-V1性能瓶颈突破:多GPU并行推理部署教程 1. 为什么你需要关注IQuest-Coder-V1-40B-Instruct 如果你正在为大型代码生成任务发愁——比如批量生成完整函数、自动修复跨文件缺陷、或构建能自主执行SWE-Bench测试的智能体,那么你大概率已经遇…

作者头像 李华
网站建设 2026/4/18 1:00:09

5步搞定IQuest-Coder-V1部署:镜像一键启动实战推荐

5步搞定IQuest-Coder-V1部署:镜像一键启动实战推荐 1. 为什么这款代码模型值得你花5分钟部署? 你有没有过这样的经历:想快速验证一个算法思路,却卡在环境配置上——装依赖、调版本、改路径,一小时过去,连…

作者头像 李华
网站建设 2026/4/18 3:50:29

FSMN VAD长音频处理:内存溢出预防措施

FSMN VAD长音频处理:内存溢出预防措施 1. 为什么长音频会让FSMN VAD“喘不过气”? 你可能已经试过——上传一段30分钟的会议录音,点击“开始处理”,结果页面卡住、终端报错、甚至整个WebUI直接崩溃。这不是你的电脑太旧&#xf…

作者头像 李华
网站建设 2026/4/18 7:50:25

训练数据来源说明:unet隐私合规性审查教程

训练数据来源说明:UNet人像卡通化隐私合规性审查教程 1. 为什么需要做隐私合规性审查? 你可能已经用过这款“人像卡通化”工具——上传一张自拍,几秒钟后就生成一张风格鲜明的卡通头像。效果很酷,但有没有想过:这张照…

作者头像 李华
网站建设 2026/4/18 8:05:11

通义千问3-14B降本部署实战:单卡运行,成本省60%优化案例

通义千问3-14B降本部署实战:单卡运行,成本省60%优化案例 1. 为什么是Qwen3-14B?一个被低估的“性价比守门员” 你有没有遇到过这样的困境:项目需要强推理能力,但预算只够配一张消费级显卡;想用大模型处理…

作者头像 李华
网站建设 2026/4/17 12:07:20

NewBie-image-Exp0.1学术研究案例:用于动漫风格迁移的实验配置

NewBie-image-Exp0.1学术研究案例:用于动漫风格迁移的实验配置 1. 为什么这个镜像特别适合动漫风格迁移研究 做动漫图像生成研究,最让人头疼的往往不是模型本身,而是环境配置、Bug修复、权重下载这些“看不见的工程活”。NewBie-image-Exp0…

作者头像 李华