news 2026/6/10 1:22:44

生成式AI革新多模态信息检索

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
生成式AI革新多模态信息检索

利用生成式AI进行多模态信息检索

过去十年的大部分时间里,机器学习严重依赖于嵌入的概念:模型学习将输入数据转换为向量,使得向量空间内的几何关系具有语义含义。例如,在表示空间中嵌入相近的词可能具有相似的含义。嵌入概念意味着一个明显的信息检索范式:查询被嵌入到表示空间中,模型选择嵌入最接近它的响应。这也适用于多模态信息检索,因为文本和图像可以被嵌入到同一个空间。

然而,最近生成式AI主导了机器学习研究。在2025年计算机视觉与模式识别会议上,我们发表了一篇论文,将基于机器学习的信息检索更新到生成式AI时代。我们的模型被命名为GENIUS,是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。

与将查询向量与每个可能的响应向量进行比较相比,我们的模型将查询作为输入并生成一个单一的ID代码作为输出。这种方法以前尝试过,但GENIUS显著改进了先前基于生成的信息检索方法。在使用三个不同指标的测试中,GENIUS比先前性能最佳的生成检索模型的性能提升了22%到36%。当我们随后使用传统的基于嵌入的方法对生成的前几个候选响应进行重新排序时,性能进一步提升了31%到56%,显著缩小了基于生成的方法与基于嵌入的方法之间的差距。

范式转变
信息检索是从大型数据库中查找相关信息的过程。传统的基于嵌入的检索将查询和数据库项都映射到高维空间,并使用余弦相似度等度量来测量相似性。虽然有效,但随着数据库的增长,这些方法面临可扩展性问题,因为索引构建、维护和最近邻搜索的成本在增加。

生成式检索已成为一种有前景的替代方案。生成模型不嵌入项目,而是直接基于查询生成目标数据的标识符。这种方法能够实现恒定时间的检索,而不管数据库大小如何。然而,现有的生成方法通常是特定于任务的,在性能上不及基于嵌入的方法,并且难以处理多模态数据。

GENIUS
与局限于单模态任务或特定基准的先前方法不同,GENIUS可以推广到文本、图像和图文对的检索,保持高速度和具有竞争力的准确性。其相对于先前基于生成的模型的优势基于两项关键创新:

语义量化
在训练期间,模型的目标输出ID通过残差量化生成。每个ID实际上是一个代码序列,第一个代码定义了数据项的模态,随后的代码更具体地定义了数据项在表示空间中的区域。模型试图从输入编码中学习重现代码序列。

查询增强
语义量化产生了一个模型,可以为熟悉类型的对象和文本生成准确的ID代码,但可能难以泛化到新的数据类型。为了解决这个限制,我们使用查询增强。对于具有代表性的查询-ID对样本,我们通过在表示空间中的初始查询和目标ID之间进行插值来生成新查询。这样,模型学习到多种查询可以映射到同一个目标,这有助于其泛化。

结果
在使用M-BEIR基准的实验中,GENIUS在COCO数据集上的文本到图像检索的Recall@5指标上超越了最佳生成检索方法28.6分。通过基于嵌入的重新排序,GENIUS在M-BEIR基准上经常取得接近基于嵌入基线模型的结果,同时保留了生成式检索的效率优势。

GENIUS在生成式方法中实现了最先进的性能,并缩小了生成式方法与基于嵌入方法之间的性能差距。随着数据集的增长,其效率优势变得更加显著,无需像基于嵌入的方法那样进行昂贵的索引构建即可保持高检索速度。因此,它代表了生成式多模态检索领域的重要进展。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:08:18

大专学历进入大型制造企业担任采购助理的路径分析

采购助理的核心职责与技能要求大型制造企业对采购助理的要求通常包括订单处理、供应商沟通、库存管理等基础操作能力。随着数字化转型,数据分析能力逐渐成为加分项,尤其在成本控制、供应链优化等环节。采购数据分析的必要性在制造业中,采购数…

作者头像 李华
网站建设 2026/6/10 10:48:26

【小程序毕设源码分享】基于SSM+小程序的中医“知源”小程序的设计与实现(程序+文档+代码讲解+一条龙定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/10 1:20:12

1688获得商品类目调取商品榜单

获取商品类目 ID(alibaba.category.get) 该接口用于拉取 1688 全量类目树,获取目标类目的唯一categoryId,是调用榜单接口的前提。 1. 接口基础信息 请求地址:https://gw.open.1688.com/openapi/param2/2/portals.op…

作者头像 李华
网站建设 2026/6/10 15:02:56

来,今天咱们手把手盘一个COMSOL里特别带劲的介质球模型。这玩意儿在等离子体清洗、材料表面处理这些工业场景里挺常见,就拿氩气和氦气这两种常见工作气体说事儿

[COMSOL空气(氩气,氦气)介质球模型],采用等离子体模块,有需要的可以参考。先看模型骨架:直径5cm的球形反应腔,中间怼个直径1cm的介质球。重点是这个等离子体模块的骚操作…

作者头像 李华
网站建设 2026/6/10 12:36:02

亲测好用9个降AIGC平台 千笔·降AIGC助手帮你降AI率

AI降重工具,帮你轻松应对论文查重难题 在如今的学术写作中,越来越多的学生开始依赖AI工具进行内容创作。然而,随之而来的高AIGC率和重复率问题也让许多同学感到困扰。如何在保持文章逻辑与语义的前提下,有效降低AI痕迹和查重率&a…

作者头像 李华
网站建设 2026/6/10 14:14:03

智能体的设计模式探讨

大家还记得年初Meta以超过20亿美元的价格收购了Manus,同时Claude Code的运行规模也突破了10亿美元的年化收入。在这样的背景下,看看大模型智能体设计中都出现了什么共同的模式,就显得特别有意思。这篇文章汇总了许多有趣的博客、论文和讨论&a…

作者头像 李华