news 2026/4/18 7:03:53

【程序员必看】Qwen-VL进化全解析:多模态大模型的架构与训练演进

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【程序员必看】Qwen-VL进化全解析:多模态大模型的架构与训练演进

文章分析了Qwen-VL系列多模态大模型的进化历程,从Qwen-VL到Qwen3-VL始终遵循"视觉编码层+对齐层+文本编码层"的三段式架构和"模态对齐、全参预训练、指令微调"的训练流程。进化主要体现在视觉感知能力从固定分辨率到动态分辨率的提升,对齐机制从Cross-Attention到MLP+DeepStack的优化,以及训练策略从基础问答到思维链推理和超长文本理解的高阶能力发展。这种渐进式优化而非范式颠覆的进化路径,使模型能力不断提升。


用全面的、辩证的、发展的眼光看问题。

说起Qwen-VL,大家应该都有所耳闻,可以说是国产开源界多模态理解大模型(Visual Language Model,以下简称VLM)“顶流”之一了,Qwen也是国内最早开始做VLM的团队之一了,2024年初我写过一篇[分析VLM的文章]里,就有介绍Qwen-VL。

从2023年8月至今,Qwen开源了4款VLM:Qwen-VL、Qwen2-VL、Qwen2.5-VL和Qwen3-VL,能力越来越强;那么“AI大模型学习笔记”系列的第六期,咱们就一起用几张表来看看Qwen-VL的进化史。

因为介绍Qwen-VL系列的技术文章有很多,咱们主要是想让大家用“发展”的眼光整体把握Qwen-VL系列的“进化”过程,所以本期咱们不采用流水线式的技术讲解,而是帮助大家体会和对比Qwen-VL系列总体上的异同。

Qwen-VL系列的异同点

1.相同点:三段式的模型架构

模型视觉编码层(ViT)视觉-文本对齐层文本编码&融合层(LLM)
Qwen-VLOpenCLIP [5] 初始化Cross-AttnQwenLM
Qwen2-VLDFN [6] 初始化MLPQwenLM
Qwen2.5-VL自研重构 ViTMLPQwenLM
Qwen3-VLSigLIP-2MLP+DeepStackQwenLM(Dense&MoE)

从上表可以看出,Qwen-VL系列整体都遵循“视觉编码层+中间对齐层+文本编码&融合层”的三段式整体架构,这样的架构基于的一个“假设”其实是:文本语言模型是基础,图像可以通过编码模型转换对齐到语义可以理解的表示,再进行多模态的融合。

那么,基于这样的思考,Qwen-VL两个进化的核心点显而易见:

  1. 怎么更好地编码图像特征;
  2. 怎么更好地融合多模态。

A. 怎么更好地编码图像特征——ViT的进化

模型ViT原型分辨率策略注意力机制位置编码方式
Qwen-VLOpenCLIP ViT-bigG静态分辨率全局注意力绝对位置编码
Qwen2-VLDFN ViT动态分辨率全局注意力2D-RoPE
Qwen2.5-VL自研重构 ViT动态分辨率窗口注意力+全局注意力2D-RoPE
Qwen3-VLSigLIP-2动态分辨率全局注意力2D-RoPE

这里再展开说一下ViT原型的进化。

ViT和CLIP相关的基础概念可以看我这一篇:

图文理解大模型简述

从Qwen-VL到Qwen2.5-VL,其实主要都在采用CLIP的思想训练ViT,即通过大规模图文对语料,用对比学习的方式训练,帮助模型理解图片整体的语义信息;但是Qwen3-VL采用的SigLIP2,则是谷歌提出的,特地为多模态大语言模型训练的ViT模型,除了有图文整体语义的对比学习之外,还通过额外的任务帮助模型建立细粒度感知和密集预测的能力。

B. 怎么更好地融合多模态——对齐与融合

模型中间视觉-文本对齐LLM层的融合——位置编码
Qwen-VLCross-Attn绝对位置编码
Qwen2-VLMLPM-RoPE(t,h,w)
Qwen2.5-VLMLPM-RoPE(对齐绝对时间)
Qwen3-VLMLP+DeepStackInterleaved MRoPE (thw交错频率)

一提到图文信息对齐,早期的一般做法就是Cross-Attention的做法,如经典的CLIP。所以我猜想当时的Qwen-VL开发者也是受此启发,沿用了这种对齐方式。Qwen-VL 的连接层是一个单层的 Cross-Attention 模块,它使用一组固定数量(256 个)的可学习查询向量(Query Embeddings)来压缩视觉特征。无论输入图像的分辨率是高是低,最终都会被“强制压缩”成 256 个 Token。这种方式虽然通过固定序列长度降低了计算量,但对于高分辨率图像,这种激进的压缩会导致大量细节信息的丢失,限制了模型的细粒度感知能力。

但是为了支持更多样的图像,Qwen2-VL开始就引入了 Naive Dynamic Resolution(原生动态分辨率),旨在处理任意分辨率和长宽比的图像。为了实现“看多大图就出多少特征”,模型不能再将特征压缩到一个固定的长度。所以Qwen2-VL 及其后续模型采用的对齐方式,是将相邻的 2x2 个视觉 Token 通过MLP合并为一个。这种方式生成的 Token 数量与输入图像的分辨率成线性正比。这使得模型能够根据图像实际的清晰度和尺寸,动态地保留相应数量的视觉信息,从而更符合人类感知的过程。

再到Qwen3-VL,为了让模型进一步获取到视觉编码器中的图像的多层信息,DeepStack模块被引入到对齐过程中,将视觉编码器的低层-中层-高层特征都注入到大语言模型(LLM)的对应层中,实现了视觉与语言的深度融合,而不仅仅是拿最后一层输出的视觉特征与文本融合。

文本、图片和视频中,位置信息都对模型编码起到了重要的理解作用,但是这三者的位置信息分别是一维(长)、二维(长×宽)和三维(时×长×宽)的;而Qwen提出M-RoPE的目的,就是想在最后的纯文本大模型编码中把图片、视频和文本用统一的位置编码融合起来,如下图所示:

对于M-RoPE的详细介绍,推荐感兴趣的读者移步去看猛猿的文章,我这里不再重复写了:https://zhuanlan.zhihu.com/p/1921289925552210138

2.相同点:三段式的训练流程

Qwen-VL的训练过程,从始至终都贯穿着如下图所示的三段式训练过程:

模型阶段一:主训练ViT和中间对齐层阶段二:全部模型都训练阶段三:主训练LLM
Qwen-VL使用约 1.4T 弱标签数据,更新 ViT 和适配器增加数据多样性,解除冻结进行端到端优化主要针对 VQA 和视觉对话进行指令对齐
Qwen2-VL训练量约 600B tokens,侧重 OCR 和分类引入 800B tokens 混合数据,包含 VQA 和多任务数据集引入 VL-Agent 训练,强化 UI 操作、机器人控制等智能体能力
Qwen2.5-VL进行 CLIP 风格预训练,从头训练重新设计的视觉编码器预训练规模大幅跃升至 4.1T tokens,强化文档解析和物体定位采用 SFT + DPO 双阶段优化,重点强化文档“全解析”能力
Qwen3-VLS0 阶段:仅训练 Merger 层(约 67B tokens),极速建立模态关联多阶段上下文扩展:在 1T 数据基础上,将上下文从 8K 扩展到 256KSFT+RL训练优化,并且思维链(CoT)分化:分为非思考版与思考版,后者专门针对长路径推理进行 RL 优化

总结

从架构上看,Qwen-VL 系列始终坚守着“视觉编码层(ViT)+ 对齐层(Adapter/Merger)+ 文本编码层(LLM)”的三段式结构;从流程上看,也一直遵循着“模态对齐、全参预训练、指令微调”的三段式训练法则。这一套大框架的稳定性,为模型能力的迭代提供了坚实的基座。

然而,在不变的框架之下,是每一个组件能力的“精雕细琢”:

  • 视觉感知的升维:从最初的固定分辨率,进化到 Qwen2-VL 的动态分辨率,再到 Qwen2.5/3-VL 的原生动态时空编码,视觉编码器不仅学会了“看”,更学会了如何“高效且精准”地捕捉不同比例、长短视频中的每一丝细节。
  • 对齐机制的重构:从简单的 Cross-Attention 到更复杂的分层注入与 Merger 优化,视觉与文本模态的融合变得愈发深层和自然。
  • 训练策略的深耕:训练数据从 1.4T 弱标签对扩展到 4T+ 的高质量、长上下文混合数据,训练重点从基础问答转向了具备思维链(CoT)推理、复杂智能体(Agent)操作以及 256K 超长文本理解的高阶领域。

总之,Qwen-VL 的进化史并非对原有范式的颠覆,而是通过对每一个环节的不断打磨,Qwen 团队不断提升这套框架的能力上限。

但是,也不是说这套框架就“完美无缺”,例如,现阶段一直采用的硬Patch分割是不是在富文本图片的理解中是合理的?图片分割后的Patch排序是不是应该总是固定的?再比如,文本信息是否该对图片编码过程也引入作为Attention的指导作用?这些其实还有很多值得探索的地方,希望未来可以看到更强大的VLM。

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:06:32

正点原子linux驱动开发Imx6ull第四期如何直接上手

最近在学习正点原子驱动部分的章节中,遇到了问题就是如何配置开发环境以及配置网络环境还有挂在文件系统等问题。为了方便之后的朋友可以直接上手正点原子第四期的驱动开发视频,在这里将我的学习流程为大家写出来。 资源网址正点原子i.MX6ULL Linux阿尔…

作者头像 李华
网站建设 2026/4/18 5:43:30

AI原生应用:图像相似度匹配的深度学习方案

AI原生应用:图像相似度匹配的深度学习方案 关键词:图像相似度匹配、深度学习、特征提取、度量学习、对比学习、嵌入向量、Siamese网络 摘要:本文从“找相似图片”的日常需求出发,系统讲解基于深度学习的图像相似度匹配技术。我们将…

作者头像 李华
网站建设 2026/4/18 7:36:52

构建高性能车型识别与计数全栈系统——YOLOv5/v8/v10实战详解

摘要在智能交通管理、智慧城市建设及商业停车场运营中,车型识别与车辆计数是两项至关重要的计算机视觉任务。传统方法受限于复杂场景的鲁棒性,而深度学习,尤其是以YOLO (You Only Look Once) 系列为代表的单阶段目标检测算法,凭借…

作者头像 李华
网站建设 2026/4/17 17:51:08

收藏!大模型从入门到精通:LLM、Transformer、Agent等核心概念全解析

目录 1 LLM (大语言模型) 2 Transformer (自注意力机制) 3 Prompt (提示词) 4 理解API 5 Function Calling (函数调用) 6 Agent (智能体) 7 MCP (模型上下文协议) 8 A2A (Agent通信协议) 9 未来假想 本文尽量用最简单的方式, 帮读者理解 LLM, Transformer, Prompt, Function ca…

作者头像 李华