一文掌握Qwen3-VL多模态Embedding：从架构解析到工程实战，大模型开发者必学干货-程序员充电站

文章详细解析了Qwen3-VL-Embedding和Reranker模型技术，采用双塔架构处理多模态输入，通过三阶段训练流程实现高质量检索。特别介绍了MRL套娃表示和QAT量化感知训练技术，帮助开发者根据业务场景选择合适架构方案，在视觉密集型任务中表现优异，为多模态RAG提供了突破性解决方案。

过去我们做多模态 RAG，要么拿 VLM 给图片写个 Caption，然后当纯文本搜；要么就是用 CLIP 或者 SigLIP 这种模型去做端到端，虽然 SigLIP 作为 CLIP 的改进版，在 Zero-shot 场景下确实能打，处理非统一分辨率图片时也更灵活。但是，在某些情况下，这两种方法都不太够用——比如当你的知识库里混合了长文本、复杂的统计图表、视频流时，单纯依靠 CLIP 这种粗粒度的双塔结构，往往需要大量的预处理和微调工作，而且很难捕捉到细粒度的图文交互信息。

今年 6 月份，Qwen3-Embedding（纯文本版）刚出时我就测过，它在跨语言检索和自定义维度（MRL）上的表现确实不错。而就在最近，Qwen 团队把这个能力延伸到了多模态领域，发布了 Qwen3-VL-Embedding 和 Reranker。

它不仅在 MMEB-v2 榜单上以 77.8 分拿下了 SOTA，它还两个工程上的痛点：一是统一了视觉文档（Visual Document）和视频的检索空间，不再需要拼凑多个模型；二是继承了套娃表示（MRL）和量化训练（QAT）。这意味着我们在部署时，可以像处理纯文本一样灵活地用 Int8 甚至更低精度来换取显存和速度，这对生产环境很友好。

今天这篇文章，我们就来解读一下Qwen3-VL-Embedding&Reranker的原论文吧，本文目录如下：

架构解析
训练方法：三阶段训练流水线
工程落地实战：MRL、QAT 与架构权衡

架构解析

模型架构概览：左图 (Embedding)：展示了 Vision Encoder 和 LM Dense Decoder 的结合。注意末尾提取 embedding 的位置是在 PAD token 处，这与 BERT 时代的[CLS]类似，但适配了 LLM 的 Decoder-only 架构。右图 (Reranking)：Query 和 Document 被拼接输入，通过 LM Head 直接输出“yes/no”的概率，实现了 token 级别的细粒度交互。

Embedding 模型

Embedding 模型采用双塔架构（Bi-encoder），负责将多模态输入转化为稠密向量。

核心机制：输入不仅支持 Text，还支持 Image 和 Video Token。模型巧妙地使用了最后一个 PAD token (<|endoftext|>) 的隐藏状态（Last Hidden State）作为整个输入的向量表示。
输入模板：

<|im_start|>system {Instruction} <|im_end|><|im_start|>user {Instance} <|im_end|><|endoftext|>

这里Instance可以是纯文本、图片或视频。

Reranker 模型 (Cross-encoder)

Reranker 模型采用交叉编码器架构（Cross-encoder），虽然计算成本高，但能捕捉深层的图文交互。

判定逻辑：它不再输出向量，而是作为一个二分类器。通过计算模型预测下一个 Token 是“yes”还是“no”的概率差值，来得出相关性分数。
公式：

训练方法：三阶段训练流水线

本文中采用了精心设计的三阶段训练范式。这套流程将海量弱监督数据转化为高质量的检索能力，也很值得我们借鉴。

训练数据

构建种子池：对原始图像/视频进行分辨率、长宽比、完整性过滤。再进行跨模态对齐，排除置信度低的标注和视觉-文本对应性差的样本。最后基于 Qwen3-VL-32B生成类别标签，对类别进行平衡（包括3类图像和4类视频任务）。
正负样本优化：两阶段实现：
Recall阶段：基于余弦相似度，筛选查询最相关的候选文档。
相关性过滤：保留高相关性正样本，以及与正样本相似度接近的硬负样本，提升模型判别能力。

三阶段训练策略

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 的多阶段训练流程

Stage 1: 对比预训练 (Contrastive Pre-training)

在海量弱监督、噪声数据上进行对比学习，建立相关性理解的基本能力，产出 s0 版本模型。

**检索任务：**第一阶段采用InfoNCE损失：

其中表示余弦相似度，聚合了正样本、难负样本、其他批次、其他批次中文档与对比、其他批次中文档与对比：

表示相似度得分

第二阶段移除了query-query/doc-doc对比项。

**分类数据：**也视为对比学习，待分类样本视为查询，其类别的标签视为文档,负样本视为错误标签。
语义文本相似度：数据是对称的（没有query和document区别），采用Cosent损失

表示这对数据的ground-truth分数。

Stage 2: 多任务对比学习 (Multi-Task Contrastive Learning)

基于s0模型数据挖掘出高质量数据，在各类任务上进行对比学习微调，每类任务采用定制化的对比目标，产出 s1 版本 Embedding 模型。损失函数与上一致。并同时训练出 Reranker 模型，训练目标为二分类交叉熵损失：其中标签为“yes”或“no”

最终相关性分数通过 logit 差值计算：

Stage 3: 蒸馏与模型合并 (Distillation & Merging)

利用 Reranker 的精细判别能力对 Embedding 模型进行知识蒸馏（产出 s2 版本 Embedding 模型）。最后通过模型合并技术平衡各项任务表现，得到最终的 s3 版本Embedding 模型。蒸馏损失为交叉熵，1个正样本，k个负样本：

工程落地实战：MRL、QAT 与架构权衡

MRL：自定义维度的魔法

引入了 Matryoshka Representation Learning (套娃表示学习)。

原理：训练时强迫模型把核心语义“往前排”。
效果：你可以把 4096 维的向量直接砍成 512 维用。论文数据显示，从 1024 维降到 512 维，检索性能几乎无损，但存储成本砍半，检索速度翻倍。这对于拥有十亿级向量库的业务来说，是巨大的成本节省。

QAT：量化感知训练

支持Int8 甚至 Binary（二进制）量化。

技术细节：采用了LSQ (Learned Step Size Quantization)，让模型在训练时就适应量化带来的噪声。这意味着我们可以直接部署 Int8 版本的向量，显存占用减少 75%，而不用担心精度崩塌。

架构选择

最后，我们需要理性看待一个数据：在 MTEB 纯文本检索榜单上，Qwen3-VL-Embedding (69.4分) 确实略低于纯文本版的 Qwen3-Embedding (74.3分)。这是多模态对齐带来的必然代价（Alignment Tax）。因此：

如果你的业务主要是文字，偶尔有图：建议依然采用双流架构。文字部分继续用 BGE 或 Qwen-Text 这种特种兵，保证高精度；只把 Qwen3-VL 当作处理图片的外援。最后用Qwen3-VL-Reranker做统一收口，因为它在重排序阶段能同时看懂图文，哪怕召回源头不同也能排得准。
如果你的业务是视觉密集型（如 PDF 解析、视频库）：直接上全套 Qwen3-VL。在这种场景下，统一表征空间带来的维护便利性和对视觉信息的理解能力，远大于那 5% 的纯文本指标损失。特别是对于 Visual Document（图表混排文档），Qwen3-VL 的效果是碾压级的。

如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

一文掌握Qwen3-VL多模态Embedding：从架构解析到工程实战，大模型开发者必学干货