news 2026/4/17 21:30:42

搜索技术是RAG的核心组成部分,没有搜索就不存在RAG

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
搜索技术是RAG的核心组成部分,没有搜索就不存在RAG

说到RAG检索增强,很多人都知道它是和大模型应用有关的技术,而且网上也有很多介绍RAG的文章和代码;作者在之前的文章中也介绍过RAG的本质并不是指一项具体的技术,而是一种方法论;因此,RAG更像是多种技术的组合体。

RAG——中文名称叫检索增强生成,其实RAG是由两部分组成,检索和增强生成;检索类似于传统的搜索技术,而增强生成才是和大模型相关的内容。

检索增强生成和搜索

RAG检索增强生成的目的是为了解决大模型的缺陷问题:

  • 知识更新不及时

  • 模型幻觉问题

  • 知识时效性问题

所以,为了解决这些问题,在模型进行生成之前,先使用搜索技术从外部知识库中检索到与问题相关的内容,然后再用这些内容构建上下文,交给大模型,让模型根据这些外部知识进行内容生成,这就达到了检索增强生成的目的。

为什么说RAG是一种方法论,而不是指某一项具体的技术?

原因就在于,RAG本身并没有约束你使用那种搜索技术,也没约束你怎么构建大模型上下文进行更好的内容生成。

对大模型来说,它只关注你构建的上下文质量怎么样,不要超出上下文窗口限制;但上下文中的内容是怎么来的,就不是它关心的事了。

因此,大模型生成的内容怎么样,一是看你的上下文构建方式,二是看你检索到的数据质量。

所以,如果说上下文管理技术决定了模型生成的质量,那么搜索技术就是保证上下文质量的核心组件。

搜索技术

自搜索引擎出现以来,搜索技术就已经渗透到我们生活的方方面面;我们平常遇到问题使用百度或谷歌,买东西时在购物APP中搜索需要的商品,在视频网站搜索我们想看的电影,这些都属于搜索技术的范畴。

但这些都是从用户的角度来看的,那么从技术的角度来说,有哪些常见的搜索技术呢?

事实上搜索技术涉及的范围非常广,在不同的场景中有不同的解决方案和技术栈;如搜索引擎的搜索技术和电商APP的搜索技术就不尽相同。

而作为开发人员,我们经常用到的所谓的搜索技术,应该就是基于数据库的字符匹配方式了;通过完整的字符串匹配获取最终的结果,基于缓存的搜索方式同样如此。

只不过,在类似于搜索引擎和大模型自然语言对话场景中,基于字符串匹配的方式就不太行了;这时就需要用到分词技术和语义相似度检索技术。

原因就是,用户可能说了一段话,但这段话中并没有完整的字符匹配内容,这时通过分词,从用户问题中提取关键字和词,进行数据匹配,以实现搜索的目的。

而语义相似度检索方式,是人工智能技术发展的产物,其原理是通过向量计算,来计算文本的语义相似度,这样就可以根据问题找到与问题相关的内容。

但是,这些基于分词和语义匹配的方式虽然好用,但如果针对格式化数据应该怎么办呢?比如说表数据?

这时,你可能说这不就是字符匹配的方式吗?

基于表结构的数据检索确实是字符匹配,但在自然语言对话中,用户说的是自然语言并不是专业术语,这个应该怎么办?

这种方式使用语义检索明显不是一个好的办法,因此这时大模型的语义理解能力就有用武之地了。

通过让大模型理解用户的问题,然后根据问题去生成查询语句或查询参数,这样就可以通过SQL或调用API的方式来获取数据。

最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

如果你也想通过学大模型技术去帮助自己升职和加薪,可以扫描下方链接👇👇
​​

为什么我要说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解


⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:29:50

垂直标签页管理革命:重新定义Chrome浏览器工作流

垂直标签页管理革命:重新定义Chrome浏览器工作流 【免费下载链接】vertical-tabs-chrome-extension A chrome extension that presents your tabs vertically. Problem solved. 项目地址: https://gitcode.com/gh_mirrors/ve/vertical-tabs-chrome-extension …

作者头像 李华
网站建设 2026/4/18 8:38:40

8、电子邮件附件处理与网页浏览指南

电子邮件附件处理与网页浏览指南 一、电子邮件附件的发送与处理 在日常邮件交流中,除了文字消息,我们还常常需要发送文件附件。比如,向总部发送费用报告,或者和家人朋友分享照片等。 (一)添加文件附件到邮件 如果你要与他人分享文件,可以将其作为附件添加到邮件中。…

作者头像 李华
网站建设 2026/4/13 20:03:42

支付行业冷知识:这些专业术语你都懂吗?

一、备付金 支付机构为保障客户资金安全,专门留存的资金储备,通常存放于指定专用账户,可在必要时快速调用。 二、分账 依据既定比例或规则,将一笔交易款项拆分并划拨给多个相关参与方的操作。例如在线交易平台会自动拆分订单金额…

作者头像 李华
网站建设 2026/4/18 10:06:40

3分钟原型:快速验证类加载问题的解决方案

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个Java项目原型生成器,能够:1. 快速生成带有预设类加载问题的项目模板 2. 一键应用常见解决方案 3. 实时查看修改效果 4. 导出可运行项目。使用Kimi-K…

作者头像 李华
网站建设 2026/4/17 19:55:24

Kotaemon药物说明书查询:安全用药智能助手

Kotaemon药物说明书查询:安全用药智能助手 在日常生活中,很多人有过这样的经历:感冒时翻出家里的药箱,面对几盒药品说明书上密密麻麻的文字却无从下手;孕妇担心用药影响胎儿,反复搜索“这个药能不能吃”却得…

作者头像 李华
网站建设 2026/4/18 6:42:56

C++中引用类型变量 int

1️⃣ 什么是引用&#xff08;int&&#xff09;int& 是 int 变量的别名&#xff0c;不是新变量。int a 10; int& b a; // b 是 a 的引用此时&#xff1a;a 和 b 指向 同一块内存。修改 b 就等于修改 a。b 20; cout << a; // 输出 202️⃣ 引用的本质引用…

作者头像 李华