news 2026/4/18 15:23:43

Vision Transformer (ViT):当Transformer遇见图像,CV的范式革命

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Vision Transformer (ViT):当Transformer遇见图像,CV的范式革命

如果你关注人工智能,尤其是计算机视觉(CV)和自然语言处理(NLP)领域,你可能听过一个响亮的名字:Transformer。这个在NLP领域凭借自注意力机制横扫一切的架构,如今已跨越界限,正在重塑我们处理图像的方式。而这场革命的开端,便是2020年由Google Research提出的Vision Transformer(ViT)

在这篇博文中,我们将一起揭开ViT的神秘面纱,看看它是如何用看待语言序列的方式“阅读”图像,并引发计算机视觉领域深刻变革的。

传统王者的局限:卷积神经网络(CNN)

在ViT出现之前,计算机视觉几乎是卷积神经网络(CNN)的天下。从AlexNet到ResNet,CNN通过其卷积核,像扫描器一样在图像上滑动,高效地提取局部特征(如边缘、纹理),并通过层层堆叠,逐步理解更复杂的模式。

然而,CNN有一个与生俱来的特性:局部性。每个卷积核一次只能看到图像的一小块区域(感受野),虽然深层网络能间接扩大感受野,但模型要理解图像中两个距离较远部分之间的关系(例如,判断一只猫是否在看画面角落的飞虫),仍然是一个间接且低效的过程。这就像是“只见树木,难见森林”。

ViT的核心思想:化整为零,再合而为一

ViT做了一个大胆的假设:我们可以像处理句子中的单词一样,来处理一张图片。

具体来说,它分为以下几个关键步骤,其处理流程可直观地通过以下示意图来理解:

原始图像

第1步: 分块
将图像划分为多个小方块(Patch)

第2步: 序列化
将每个Patch视为一个'词'

第3步: 线性投影
将每个Patch转换为特征向量(嵌入)

第4步: 添加位置与类别信息
加入位置编码与CLS标记

第5步: 核心处理
送入Transformer Encoder
(多头自注意力)

第6步: 输出
由CLS标记的特征进行分类

第一步:分块
将一张完整的图片(例如224x224像素)分割成一个一个固定大小的小方块,比如16x16像素。这样,一张图就被“切割”成了196个图像块。

第二步:线性投影
每个小方块被展平成一个向量,并通过一个线性层映射到一个固定的维度(例如768维)。此时,图片就变成了一个长度为196、每个元素是768维向量的序列。这类似于将一个句子处理成长度为N、每个词是D维的词嵌入序列。

第三步:引入位置与任务信息

  • 可学习的[class]标记:在序列的开头插入一个特殊的、可学习的向量。这个标记最终将承载整个图像的“摘要”信息,用于分类任务。
  • 位置嵌入:由于Transformer本身没有位置概念,ViT会为每个图像块的位置(如第1块,第2块…)也学习一个编码向量,并加到其对应的特征上,让模型知道各个块原本在图像中的位置。

第四步:Transformer编码器
这个“加料”后的序列(196个图像块 + 1个[class]标记)被送入一个标准的Transformer Encoder。这是ViT的灵魂所在。Transformer Encoder中的多头自注意力机制允许序列中的任何一个“图像块”去关注所有其他“图像块”,并从中提取信息。这意味着,模型在训练伊始,就具备了全局的、动态的感受野。角落里的一个特征可以直接与中心区域的另一个特征建立联系,从而更高效地建模图像的全局语义。

第五步:分类输出
最终,我们只取那个特殊的[class]标记对应的输出向量,通过一个轻量的多层感知机(MLP Head)进行分类,得到图片属于哪个类别的预测。

ViT的震撼与反思

ViT的提出带来了两个重要的启示和一个挑战:

启示一:卷积并非必须。ViT的成功证明了,即使在图像领域,CNN的归纳偏置(平移不变性、局部性)也不是不可撼动的“铁律”。纯粹的、基于自注意力的架构同样可以,甚至在数据充足时做得更好。

启示二:注意力即连接。自注意力机制提供了一种比卷积更灵活、更强大的特征整合方式。它让模型能够根据内容动态地决定哪些区域需要被重点关注,从而实现更智能的视觉理解。

核心挑战:对数据的“胃口”巨大。ViT的弱点也很明显:它在相对较小的数据集(如ImageNet-1k)上从头训练时,效果往往不如精心调优的ResNet。这是因为Transformer结构本身“记忆”的东西少,它不像CNN那样内置了“图像具有局部相关性”的强先验知识。因此,ViT需要海量的数据来从零开始学习这些视觉世界的底层规律。

从ViT到未来:蓬勃发展的视觉Transformer家族

ViT打开了一扇新世界的大门,随后涌现出大量优化和改进的视觉Transformer模型,以解决其计算复杂度高、数据需求大等问题:

  • Swin Transformer:引入了分层架构移位窗口自注意力,像CNN一样构建特征金字塔,使其在目标检测、分割等下游任务上取得了SOTA效果,并大幅降低了计算量。
  • DeiT:通过引入一种特殊的蒸馏token,让ViT能够从一个强大的CNN教师模型中学习,从而在不使用海量外部数据的情况下,仅用ImageNet就在ImageNet上达到了SOTA,极大降低了ViT的训练门槛。
  • MViT:将多尺度思想融入Transformer,更高效地处理视频和图像的多层次特征。

更重要的是,ViT的出现为多模态大模型奠定了基石。如今,我们看到像CLIP这样的模型,它使用一个图像编码器(通常是ViT或其变体)和一个文本编码器(Transformer),将图片和文字映射到同一语义空间,实现了令人惊艳的零样本图文理解能力,这正是ViT所代表的视觉基础模型强大生命力的体现。

结语

Vision Transformer不仅仅是一个新的图像分类模型,它更代表了一种思维范式的转变——用统一的Transformer架构来处理不同模态的数据。它模糊了NLP与CV之间的界限,推动了基础模型和多模态AI的研究热潮。

虽然CNN因其高效和成熟,在诸多场景中仍不可替代,但ViT及其家族无疑为我们指明了一个充满潜力的方向:一个更加通用、统一、能够融会贯通地理解世界的AI架构。

未来,也许我们不再需要为“视觉任务”和“语言任务”设计截然不同的模型大脑,而只需一个更强大的、基于注意力的统一心智。ViT,正是这趟激动人心旅程的第一块里程碑。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 2:02:50

Elsevier Tracker浏览器插件深度使用教程

Elsevier Tracker浏览器插件深度使用教程 【免费下载链接】Elsevier-Tracker 项目地址: https://gitcode.com/gh_mirrors/el/Elsevier-Tracker Elsevier Tracker是一款专为学术作者打造的Chrome浏览器扩展程序,旨在提供Elsevier期刊投稿状态的实时追踪服务。…

作者头像 李华
网站建设 2026/4/18 1:59:15

纪念币预约终极指南:全自动抢购神器助你轻松收藏

纪念币预约终极指南:全自动抢购神器助你轻松收藏 【免费下载链接】auto_commemorative_coin_booking 项目地址: https://gitcode.com/gh_mirrors/au/auto_commemorative_coin_booking 还在为心仪的纪念币而彻夜不眠吗?每次预约时面对缓慢的页面加…

作者头像 李华
网站建设 2026/4/18 2:00:37

CK2DLL双字节补丁:告别中文乱码,畅享完美游戏体验

CK2DLL双字节补丁:告别中文乱码,畅享完美游戏体验 【免费下载链接】CK2dll Crusader Kings II double byte patch /production : 3.3.4 /dev : 3.3.4 项目地址: https://gitcode.com/gh_mirrors/ck/CK2dll 还在为《十字军之王2》中那些令人头疼的…

作者头像 李华
网站建设 2026/4/18 1:59:12

纪念币预约革命:智能工具让抢购成功率暴增300%

纪念币预约革命:智能工具让抢购成功率暴增300% 【免费下载链接】auto_commemorative_coin_booking 项目地址: https://gitcode.com/gh_mirrors/au/auto_commemorative_coin_booking 还在为纪念币预约失败而苦恼吗?那种千军万马过独木桥的紧张感&…

作者头像 李华
网站建设 2026/4/18 1:58:33

移动投屏与设备控制终极指南:从零基础到高效应用

移动投屏与设备控制终极指南:从零基础到高效应用 【免费下载链接】QtScrcpy QtScrcpy 可以通过 USB / 网络连接Android设备,并进行显示和控制。无需root权限。 项目地址: https://gitcode.com/GitHub_Trending/qt/QtScrcpy 还在为手机屏幕太小而烦…

作者头像 李华
网站建设 2026/4/17 18:27:49

纪念币预约终极指南:零基础快速上手

纪念币预约终极指南:零基础快速上手 【免费下载链接】auto_commemorative_coin_booking 项目地址: https://gitcode.com/gh_mirrors/au/auto_commemorative_coin_booking 还在为抢不到心仪的纪念币而烦恼吗?这款纪念币预约自动化工具能够帮你轻松…

作者头像 李华