收藏必备！小白程序员快速入门大模型：从视觉到多模态的深度解析-程序员充电站

本文深入浅出地介绍了计算机视觉中的单模态任务，如图像分类、目标检测、图像分割等，并详细解析了卷积神经网络（CNN）的核心概念——卷积核。此外，文章还探讨了ResNet、ViT、Swin Transformer、CLIP和ViLT等前沿模型，阐述了它们在视觉和语言融合方面的突破。最后，文章展望了视觉大模型的未来发展趋势，强调了其在多模态领域的重要性和潜在应用价值。

什么是多模态？

简单来说，如果输入和输出都是同一种形式，比如输入文字、输出文字，或者输入图片、输出图片，这都属于单模态。而多模态，关键在于“混合”–当输入包含多种形式（如文字加图片），而输出是另一种形式（如文字）时，就构成了多模态。本质上，多模态就是处理和融合多种媒体形式（如文本、图像、音频等）的能力。

接下来，我们先从视觉类的单模态讲起，再逐步深入到多模态。

一、常见的视觉任务

1、图像分类

这是计算机视觉中最基础的任务。它的核心目标是让模型“看懂”一张图片的整体内容，并将其归类到预定义的类别中。例如，给模型输入一张动物的图片，它需要判断出这是“猫”还是“狗”。

2、目标检测

目标检测不仅需要识别出图片中有哪些物体，还需要精确定位它们的位置。具体来说，模型需要在识别出物体（如人、马、狗、车）的同时，用一个矩形框将它们框选出来。这个矩形框的专业术语叫做“边界框”（Bounding Box）。

你可能会注意到框上有一个数值，例如0.992。这个数值代表“置信度”，即模型判断该物体属于所识别类别的概率。数值越高，表示模型越“自信”地认为这个物体就是它所标注的类别。

3、图像分割

如果说目标检测是用矩形框“粗略”地框出物体，那么图像分割则是对图片进行“像素级”的精细理解。它要求模型对图片中的每一个像素点进行分类，判断它属于哪一个物体。

图像分割主要分为两类：

语义分割：只区分物体的类别。例如，图片中有六个人，语义分割会将这六个人的所有像素点都标记为“人”这一类别，通常用同一种颜色表示。

实例分割：在区分类别的同时，还要区分出不同的个体。例如，虽然六个人都属于“人”这一类别，但实例分割会将他们标记为六个不同的“实例”，通常用不同颜色区分，以表明他们是六个不同的人。

4、人脸识别

人脸识别是计算机视觉中一个高度专业化的领域。它通常包含以下几个步骤：

①特征点定位：模型会在人脸图像上定位数百个关键的特征点，例如眼角、鼻尖、眉心、嘴唇轮廓等。这些特征点周围的区域具有非常丰富的信息，是区分人脸与其他物体（如动物脸）或区分不同个体的关键。

②人脸检测与定位：在包含多张人脸的图片中，模型首先需要检测出人脸的存在，并确定每张人脸的位置（通常用边界框表示）。

**③身份识别：基于提取的特征，**模型可以进一步判断这张脸属于哪一个具体的人。

需要注意的是，与自然语言处理领域（如GPT等大模型）通常使用一个通用的“基座模型”来处理多种任务不同，计算机视觉领域的不同任务往往需要使用完全不同的专用模型。例如，用于图像分类的模型、用于目标检测的模型和用于人脸识别的模型通常是各自独立、互不通用的。

5、姿态识别

姿态识别是另一个常见的视觉任务，旨在理解人体的姿态和动作。给定一张照片或一段视频，模型能够识别出人体上多个重要的关节点，例如膝盖、脚踝、肘部、手腕等。

例如，通过分析关节点的相对位置和运动轨迹，可以判断一个人是站立、坐着、奔跑，还是在进行打架等异常行为。这在安防监控、体育分析和人机交互等领域有广泛应用。

6、视觉问答

接下来我们聊聊视觉问答（VQA）。这其实是我们现在接触得非常多的一类任务，像 GPT-4o 这样的多模态大模型，其核心能力就属于视觉问答。

为什么需要视觉问答？

因为很多问题光靠文字描述不清，光看图片也无法理解意图。只有将图片和文字结合起来，才能完成精准的问答。

举个例子：针对一张披萨的图片，如果你问模型“这个披萨被切成了多少份？”或者“这是一个素食披萨吗？”，模型必须同时具备两种能力：一是“看懂”图片里的内容（视觉理解），二是“读懂”你的问题（自然语言理解）。只有融合这两种模态的信息，它才能给出正确的答案。这种需要联合处理图像和文本的交互式任务，就是典型的视觉问答。

7、视觉生成

与“看懂”图片相对的，是“创造”图片和视频，这就是视觉生成领域。像 Sora 这样的模型，以及近期备受关注的豆包Seedance 2.0，都属于这一类型。它们的核心任务是根据文本描述或其它条件，生成全新的、逼真的视觉内容。

二、CNN卷积神经网络

无论是前面提到的图像分类、目标检测，还是视觉问答和视觉生成，这些任务背后都离不开一个核心的深度学习模型–卷积神经网络（Convolutional Neural Network, CNN）。

为了方便大家理解，我们可以做一个简单的对比：

RNN (循环神经网络)：在处理序列数据（比如文字、语音）时非常有效，因此常被用于自然语言处理（NLP）任务。

CNN (卷积神经网络)：擅长捕捉图像中的局部特征和空间结构，因此是计算机视觉（CV）领域的基石。

在接下来的内容中，我们将重点深入探讨 CNN 的核心–卷积核（Convolutional Kernel）。很多人觉得视觉模型比语言模型难理解，往往就是卡在了“卷积核”这个概念上。它确实有些抽象，但只要理解了它，整个计算机视觉的大门就为你打开了。

首先，什么是卷积核？我们可以把它看作是一个在原图上滑动的“小探测器”。

假设这是一张原图，我们在计算机里存储图片时，会把每个像素变成 0 到 255 之间的数字，RGB 三个通道分别代表红、绿、蓝。既然图片本质上就是一堆数字，那我们就可以对它进行数学运算。

图片作为一个输入进入神经网络，经过一番计算后得到一个输出，这个输出通常也是一张图片。而中间这个“计算”的过程，核心就是卷积核在起作用。

图中展示的这个卷积核是一个 3x3 的核，意味着它有三行三列。这张原始的数字矩阵经过这样一个卷积核的处理，就会生成一张新的数字矩阵（输出图片）。

规则其实很简单，就是“滑动”和“计算”。假设我们要计算输出图片中第二行第三列这个位置的像素值，我们就回到原图对应的位置（也就是绿色区域的中心）。因为卷积核是 3x3 的，所以我们以这个中心点为基准，在原图上画一个 3x3 的框，框住了九个像素。

接下来，我们让这九个像素的数值，与卷积核里对应的九个数值进行“逐元素相乘”然后再相加。比如卷积核左上角是 -1，原图对应位置是某个数，两者相乘；中间是 0，对应位置的数乘以 0；右下角是 1，对应位置的数乘以 1。把这九个乘积加起来，得到的总和就是输出图片中那个位置的数值。在这个例子中，算下来正好等于 0。

这个绿色的区域（也就是卷积核覆盖的区域）会在整张图片上像打字机一样从左到右、从上到下不停地滑动。每滑动到一个位置，就进行一次这样的计算，算出输出图片中对应位置的值。通过这种遍历，我们就能把目标输出矩阵里的每一个数值都填满。

刚才这个卷积核是一个样例，它的数值设定为左边一列是 -1，中间是 0，右边是一列 1。你觉得这样的卷积核有什么作用？其实它是在做“边缘提取”。因为它本质上是在用右边一列的像素值减去左边一列的像素值。如果一个地方的像素值发生了剧烈变化（比如从黑变白），说明这里有明显的边缘；如果变化平缓，说明是平滑的区域。所以这种核能敏锐地捕捉到图像中的垂直边缘。

如果我们换一个卷积核呢？比如下图这样一个核，中间是 4，周围是 1 和 2，最后再乘以 1/16。这其实是一个“模糊”核。它的工作原理是让每个像素都跟它周围的“邻居”像素求平均。虽然中间像素的权重（4/16）比周围的（1/16 或 2/16）大一些，但因为掺杂了周围的信息，原本锐利的边界就会被“抹平”，从而让图片看起来变模糊了。

比如下图中清晰的眼角、帽檐，在经过这种计算后就会变得柔和、模糊。

左边清楚，右边模糊，这就是这种核的效果。如果我们连续做多次这样的卷积操作，图片就会越来越模糊。

但是，世界上的卷积核有无数种。每一种不同的卷积核都能起到不同的作用，比如美白、祛痘、增强对比度等等。在真正的卷积神经网络里，我们并不需要手动去设计这些核（比如专门写代码让它变模糊或变清晰）。

在模型训练开始时，这些卷积核里的数值都是随机的。它到底最终会变成一个“边缘检测器”，还是一个“纹理探测器”，完全取决于它要识别什么任务。模型会通过大量的数据训练，自动调整这些数值（参数），找到最适合完成当前任务的卷积核组合。这也就是 CNN 智能的来源。

所以卷积核到底是干嘛用的？它的核心使命就一个字：“抽”，也就是提取特征。

这里还有一个很有意思的细节：卷积核的大小。

我们常见的卷积核都是 3x3、5x5、7x7 这种正方形，而且通常是奇数。为什么不用长方形？为什么不用 8x8？

①正方形 vs 长方形：图像通常是各向同性的（虽然有时候也有方向性），正方形核在设计上更通用，计算上也更规整。虽然理论上可以用长方形，但在通用模型设计中，大家更倾向于用堆叠的小正方形来代替，这样灵活性更高。

②奇数：用奇数（3, 5, 7）主要是为了有一个明确的中心点。就像你在地图上画个圈，有个中心点才好对齐位置。如果是偶数（比如 4x4），就没有一个绝对的中心像素，做特征对齐时会很麻烦。

所以，卷积核就是 CNN 的眼睛，它通过这种“滑动窗口”的方式，把一张图从像素层面，一步步拆解成计算机能理解的特征语言。

尺度究竟是什么？简单来说，它指的就是我们观察和分析事物时所采用的范围和精细程度。

为了让你更直观地理解，我们可以借助一个生活中的例子：观察一架飞机。

想象你眼前有一张非常清晰的飞机照片。因为图片很大，离你很近，你能看清许许多多的细节：机身上的标识、窗户的颜色，甚至轮子上的纹理。这个时候，你就是在小尺度（或高分辨率）下观察，关注的是局部的、精细的细节。

现在，如果我们将这张图片不断缩小，飞机在画面中会变得越来越小。当它缩到很小的时候，你已经看不清任何细节了，但你依然能一眼认出它的整体轮廓，知道它是一架飞机，而不是一只鸟或一个风筝。这时，你就是在大尺度（或低分辨率）下观察，关注的是整体的形状和结构。

这个概念在计算机视觉中至关重要，尤其是在卷积神经网络（CNN）里。我们可以把网络中的“卷积核”想象成一个固定大小的取景框（比如5x5像素）。当这个取景框放在一张巨大的图片上时，它可能只能捕捉到飞机的一个小零件，比如一小段机翼边缘，也就是纹理特征。但当图片被整体缩小后，同样大小的取景框，却能覆盖飞机的很大一部分，甚至整个机身，从而捕捉到形状和结构特征。

所以，一个优秀的模型必须具备“多尺度”的识别能力。它需要学会，无论飞机在图片中是巨大还是渺小，是只露出一个尾巴还是完整的机身，都能准确判断出“这是一架民航客机”。这种能力确保了模型在面对各种尺寸、各种距离的现实照片时，都能稳定地工作。

多尺度是视觉领域的核心概念。它与自然语言处理有很大不同，文字的语义不会因为我们离得远近而改变。当然，从图片中识别文字的OCR技术属于视觉任务，不在我们讨论的语言模型范畴之内。理解了尺度，我们就能更好地理解卷积核是如何工作的了。

还记得我们之前文章提到的那个识别手写数字的案例吗？使用的是 MNIST 数据库。在这个案例里，输入的图片其实很小，只有一张 28×28 像素的黑白照片，总共 784 个像素点。如上图，也就是一个手写的数字“2”。

首先，原始图像进入卷积层。假设我们使用 n1 个不同的卷积核（例如 5×5 大小），每个卷积核会生成一张特征图。由于未做填充（padding），28×28 的图像经过 5×5 卷积核处理后，尺寸会缩小一圈，变为 24×24。因此，这一步会得到 n1 张 24×24 的特征图。

接下来是池化层，通常采用最大池化（Max Pooling）。以 2×2 的池化窗口为例，它会将每个 2×2 的区域压缩为一个值（取最大值），从而使特征图的尺寸减半。因此，n1 张 24×24 的特征图经过池化后，会变成 n1 张 12×12 的特征图。这一操作不仅减少了数据量，还保留了最显著的特征。

随后，网络会再次进行卷积和池化操作。假设这次使用了 n2 个 5×5 的卷积核。每个卷积核会扫描上一步输出的所有特征图，并生成新的特征图。通常 n2 会大于 n1（例如两倍），以提取更复杂的特征。经过卷积后，12×12 的特征图会再次缩小为 8×8，然后再经过一次 2×2 的池化操作，尺寸进一步减半为 4×4。最终，我们得到了 n2 张 4×4 的特征图。

最后一步是全连接层。首先，将所有特征图“拉平”成一个一维向量。例如，若 n2=8，则总共有 4×4×8=128 个数值。这个 128 维的向量作为输入，进入全连接神经网络进行最终的分类计算。网络的输出是 10 个概率值，分别对应数字 0 到 9。

整个过程的核心是特征提取与分类。卷积层和池化层负责从图像中逐层提取关键特征，而全连接层则基于这些特征做出最终判断。其中，所有可训练的参数都集中在卷积核的数值中。

三、ResNet – Residual neural network

论文下载地址：https://arxiv.org/pdf/1512.03385

首先，我们来看一下“ResNet”这篇非常重要的论文。这篇论文源自微软亚洲研究院，其核心作者是著名的华人科学家何恺明。这是他在2015年关于卷积神经网络领域的一项里程碑式的研究成果。

实际上，这与我们开发语言模型的思路有共通之处，即卷积神经网络也倾向于通过堆叠多层结构来构建模型。正如我们所知，随着网络层数的增加，比如从六层、八层继续加深，理论上能够提取出更深层次、更抽象的特征。为了说明这一点，我们可以设想一个图像识别任务：假设你的目标是判断一张输入图片中是否有人。通常，我们会设计特定的卷积神经网络架构，并在最后接上一个线性层来执行“有人”或“无人”的二分类判断。

在这个过程中，我们可以调整任务的难度。比如，识别“机器人”和识别“人类”，哪一个更简单？显然，识别人类相对更简单。因为机器人的结构和形状往往与人类相似，但其质地通常具有明显区别，比如金属质感、特定的关节结构以及各种零件。如果我们将任务难度进一步提升，例如识别图片中是否存在“变形金刚”这类特定的机器人，问题就变得更加复杂了。因为变形金刚不仅具有机械特征，还包含大黄蜂、擎天柱等不同角色特有的外观细节，以及高达等不同形态。为了准确识别，模型不仅需要判断物体是否由机械构成，还需要提取更细致的纹理特征和结构特征，比如机械关节的灵活性或特定的装甲设计。这就促使我们不自觉地构建更深的网络结构，来提取出这些深层特征。

然而，随着网络深度的不断增加，一个反直觉的现象出现了：模型的效果并没有显著提升，反而出现了下降。

正如论文中展示的实验结果所示，当网络变得非常深时，其训练误差甚至会高于较浅的网络。例如，在图表中，红色线条代表的56层深度神经网络，其训练错误率反而高于黄色线条代表的20层神经网络。这说明，单纯增加深度并不总能带来性能增益。

造成这一现象的原因主要有两个方面。第一是训练过程中的“退化问题”，即随着层数加深，梯度在反向传播时需要经过大量的层，导致梯度消失或梯度爆炸，使得网络前端的参数难以得到有效更新。第二是过拟合风险，当模型层数过多、参数量过大，而训练数据集的规模没有相应增加时，模型的拟合能力会过强。它不仅记住了关键特征，还记住了训练数据中的噪音和无关细节，比如特定的背景草地或天空，导致模型在面对新数据时泛化能力变差。

为了解决这一难题，何恺明团队提出了“残差连接”的方法。其基本原理是，在构建多层网络时，改变传统的信息流动方式。通常，输入 X 经过某一层计算得到输出 F(x)，然后 F(x) 作为下一层的输入。但在残差网络中，我们增加一条“捷径”，将原始输入 X 直接与计算结果 F(x) 相加，使得下一层的输入变为 F(x)+X。这意味着，每一层的输出不再仅仅是变换后的结果，而是原始输入与变换结果的叠加。

这种设计的核心逻辑在于“保持下限”。假设我们有一个表现良好的20层模型，现在想要通过增加层数来提升性能。如果没有残差连接，新增的层可能会破坏原有的特征表示。但有了残差连接后，即使新增的层在训练初期效果不佳，甚至只需要将残差 F(x) 学习为0，网络也能退化为一个较浅的网络。换句话说，如果新增的层没有起到积极作用，至少不会破坏原来已经有效的信息流。这种机制允许信息和梯度在多层网络间畅通无阻地流动，极大地缓解了梯度消失问题。

这种结构就是我们所说的“残差连接”。自2015年被提出以来，它被证实是一种极为有效的设计。特别是在降低模型误差方面，其表现尤为突出。从实验数据可以清晰地看到这一点：在引入残差连接后，一个18层的网络所达到的误差率，竟然优于一个34层的普通网络。这个结果有力地证明了，残差连接能够让我们在增加网络深度的同时，有效避免性能下降，从而构建出功能更强大的模型。

基于这种创新，ResNet在2015年的ImageNet竞赛中取得了压倒性胜利，并迅速成为深度学习领域的基石。它使得训练500层甚至1000层的超深网络成为可能。自那以后，几乎所有的人工智能模型，包括后续的Transformer架构，都融入了这种残差结构。何恺明的这一贡献不仅解决了深度学习中的一个根本性难题，也深刻地影响了后续模型的设计范式。

四、ViT – Vision Transformer

论文下载地址：https://arxiv.org/pdf/2010.11929

接下来我们将探讨Vision Transformer（ViT）。首先需要明确的是，ViT并非残差网络，尽管此前我们讨论过的ResNet在深度卷积神经网络（CNN）领域取得了巨大成功。ResNet的核心贡献在于通过残差连接机制，突破了网络深度的限制，使得构建数百层甚至上千层的CNN成为可能。然而，在随后的几年里，计算机视觉领域似乎陷入了一段缺乏显著突破的沉寂期。

这一局面的形成与自然语言处理（NLP）领域的飞速发展密切相关。自2017年Transformer架构问世，到2018年GPT的诞生，直至2020年GPT-3引发全球关注，学术界的研究重心一度高度集中于语言模型。在此背景下，计算机视觉领域相对平静，直到2020年Google Research团队发表了一篇具有里程碑意义的论文，正式提出了Vision Transformer（ViT）。

ViT的全称即视觉Transformer，其核心思想是将原本用于处理序列数据的Transformer架构直接应用于图像处理任务。这一构想源于一个关键洞察：既然Transformer凭借自注意力机制成功取代了NLP中的循环神经网络（RNN），那么在长期依赖CNN进行特征提取的视觉领域，是否也能实现类似的替代？

如上图所示，ViT的核心方法是将输入图像分割成一系列大小固定的方形图像块（Patch），例如16×16或32×32像素的小方格。无论原始图像尺寸如何，这些图像块都可以被“拉平”成一维向量序列。以一个3×3的图像块网格为例，拉平后即形成包含9个Patch的序列。这与NLP中将文本切分为Token类似，只不过视觉领域的基本单元是图像块。

每个图像块包含16×16=256个像素，这些像素值构成了一个256维的向量。随后，这些向量会通过一个线性投影层（Linear层），映射到Transformer模型所需的高维嵌入空间。值得注意的是，这一步骤在概念上对应于NLP中的词嵌入（Word Embedding）过程，即将离散的词汇符号转化为连续的向量表示。

在完成向量化之后，ViT沿用了标准Transformer编码器的处理流程。首先，为了保留图像的空间位置信息，模型会为每个图像块向量添加相应的位置编码（Positional Encoding）。此外，ViT还会在序列的开头加入一个特殊的分类令牌（[CLS] Token）向量。这一设计借鉴了GPT-1等模型的思路，即利用特定位置的向量来聚合全局信息，最终用于图像分类任务。

当这组包含[CLS] Token和图像块Token的向量序列输入到Transformer编码器后，多头自注意力机制（Multi-Head Self-Attention）便开始发挥作用。该机制允许序列中的各个元素（即图像的不同部分）相互交换信息并计算相关性。例如，人体的胳膊与躯干、小腿与大腿由于在空间上具有强关联性，它们的向量在计算过程中会产生较高的相关度权重；而房顶与马路等不相关的部分，其相关度系数则会很低。通过这种带有加权求和的交互，模型能够逐步构建出对图像整体结构的深层理解。

值得注意的是，ViT仅使用了Transformer的编码器部分，因此不涉及解码器中的掩码机制。这意味着在计算相关性时，任意两个图像块之间都可以直接交互，不受顺序限制。

经过多层编码器的特征提取与融合，最终输出的[CLS] Token向量会被送入一个线性分类器，从而识别出图像中包含的物体类别，如鸟类、汽车或飞机等。整个过程完全摒弃了传统的卷积操作，展示了纯注意力机制在视觉任务中的可行性。

尽管在初期评测中，ViT的性能表现并非总是最优，但其设计理念极具前瞻性。它的诞生不仅仅是为了验证在图像识别任务上能否替代CNN，更是为了构建一个能够统一处理多模态数据的基础模型。

所谓“统一”愿景，即探索是否能仅用单一模型结构来处理文字、图片等多种类型的数据。ViT虽然最初仅针对单模态的图像输入，但它通过将图像转化为序列数据的方式，为实现这一宏大目标奠定了坚实的基础。

五、Swin Transformer

论文下载地址：https://arxiv.org/pdf/2103.14030

在Vision Transformer（ViT）问世后，微软亚洲研究院提出了名为Swin Transformer的技术。尽管Google在提出开创性方向（如Transformer和Vision Transformer）方面贡献巨大，但这些模型在各类榜单上的具体表现并非始终名列前茅。相比之下，微软亚洲研究院采取了更为务实的策略，他们认为尽管基础方案优秀，但模型结构中的细节仍需深入打磨，只有完善这些细节才能进一步释放模型潜力。

这种务实的态度与当年OpenAI接手并扩展Transformer架构的路径颇为相似。当时Google提出了宏大的方向，但因内部研究小组分散、资源有限，难以将这些想法推向极致。而像OpenAI和微软研究院这样的组织，则通过整合资源，将这些方向转化为具有强大竞争力的成果。Swin Transformer正是这一思路的体现。

与ViT不同，Swin Transformer并未采用全局自注意力机制，而是引入了“移位窗口”（shifted window）的概念。它将图像分割成不重叠的局部窗口，并在每个窗口内计算自注意力，从而避免了对无关区域（如图像左上角与右下角）进行冗余计算。

此外，Swin Transformer还通过多尺度设计考虑了图像的尺度变化：在浅层网络中使用较小的局部窗口捕捉细节，而在深层网络中逐步扩大窗口范围以捕获全局结构，整个过程完全摒弃了卷积操作，纯粹依赖Transformer的多头自注意力机制。

这种设计被称为“移位窗口”是因为窗口在不同层之间会进行位移，从而允许不同窗口间的patch进行信息交换。

例如，在第一轮自注意力计算中，信息在局部窗口内聚合；而在第二轮（即移位后的窗口）中，该位置有机会与相邻窗口的元素进行交互，从而实现跨区域的信息融合。这种机制不仅降低了计算复杂度，还使得模型能够有效地捕捉局部与全局的依赖关系。

Swin Transformer的性能提升显著，在多个基准测试中准确率提升了2~3个百分点。在2020年的计算机视觉领域，这样的提升幅度是非常可观的，足以在顶级会议上发表。值得注意的是，这些提升完全基于纯视觉输入和移位窗口机制，不依赖任何卷积操作。

六、CLIP – Contrastive Language-Image Pre-training

论文下载地址：https://arxiv.org/pdf/2103.00020

2021年发布的CLIP模型与Swin Transformer的论文发布时间仅相隔一两个月。但我觉得，CLIP是多模态领域首次真正意义上实现了人类语言与视觉信息的深度融合。正是它的出现催生了后续众多的多模态应用，例如文生图（如Stable Diffusion）、Midjourney以及Sora等项目；如果没有CLIP奠定的基础，这些后续发展几乎不可能实现。

关于CLIP，其名称是“Contrastive Language-Image Pre-training”的缩写，其中“C”代表Contrastive（对比），“L”代表Language（语言），“I”代表Image（图像），其核心逻辑相当简洁。

回顾当时的技术背景，以ViT、ResNet为代表的模型都在执行基于ImageNet数据集的图像识别任务。

ImageNet是一个包含约1400万张图片、超过两万个类别标签的庞大数据集。然而，早期的视觉模型存在一个根本性问题：对于机器而言，无论是“狗”、“猫”还是“汽车”这些标签，本质上都只是毫无语义的ID编号（如ID137、ID138）。模型虽然能输出“狗”这个标签，但它并不理解“狗”这个词在人类语言中的实际含义。这种机制导致模型非常僵化，一旦需要识别训练时未见过的新类别（比如从100类扩展到101类），就必须重新训练或调整模型结构。

传统图像识别技术并未真正实现语言与视觉的融合，而CLIP的目标正是连接人类的视觉与语言。这一目标之所以伟大，是因为人类的学习过程本就是多模态同步的–我们在学习语言时，往往伴随着视觉信息的输入（例如小时候父母教我们识物时，会指着杯子说“这是杯子”），而不是闭着眼睛单纯学习语言。如果一个模型能将视觉和语言结合，它就更有可能模拟人脑的运作方式。

如上图所示，CLIP的模型结构主要由两部分组成：一个Text Encoder（文本编码器，基于Transformer架构）和一个Image Encoder（图像编码器，可以是ViT或ResNet）。它准备了从互联网上收集的4亿组“图像-文本”对作为训练数据。训练的核心方法是对比学习（Contrastive Learning）：将一一对应的图文对输入两个编码器，得到对应的向量表示。模型的目标是让匹配的图文对（正样本）在向量空间中的相似度尽可能高，而不匹配的图文对（负样本）相似度尽可能低。通过这种方式，模型逐渐学会将语义相似的图文内容映射到同一数学空间的相近位置。

在推理阶段，CLIP展现出了强大的“零样本”（Zero-shot）能力。例如，在面对ImageNet等数据集的分类任务时，它不需要任何额外的训练。具体做法是将数据集的类别标签（如“dog”、“cat”）填充到预设的文本模板中（例如转换为“A photo of a dog”），生成对应的文本描述，然后通过文本编码器得到文本向量。接着，将待分类的图片通过图像编码器得到图像向量，并计算该向量与所有类别文本向量的相似度。相似度最高的类别即为最终的预测结果。

这种方法彻底打破了固定类别标签的束缚，将语言作为了分类器。无论下游任务有多少个类别，CLIP都能通过自然语言提示灵活迁移，无需针对特定任务进行微调。它成功地将人类的视觉信息和语言信息整合到了同一个数学空间中，后续的许多文生图、文生视频模型基本都是基于CLIP的这一思想构建的。

七、ViLT --Vision-and-Language Transformer

论文下载地址：https://arxiv.org/pdf/2102.03334

最后介绍的是2021年提出的Vilt模型，该模型被视为多模态领域爆发的重要标志。Vilt与Vit的核心区别在于，Vit仅为视觉转换器，而Vilt则为视觉和语言转换器。尽管Vilt与Clip在名称上相似，且都涉及视觉与语言的范畴，但二者在架构上存在关键差异。

CLIP模型采用双编码器结构，即分别使用独立的编码器处理文本和图像，并将其映射为向量，再通过比较向量相似性得出结论。

Vilt则进一步深化了这一思路，摒弃了双编码器方案，转而仅使用单一的transformer编码器同时处理文本和图像信息。具体而言，无论是文本还是图像，都先通过线性层转换为向量序列。例如，模型输入包含文本序列“a stone statue near an [MASK]”与对应的图像块，其中文本通过词嵌入（Word Embedding）处理，图像则通过展平块的线性投影（Linear Projection of Flattened Patches）处理。

在向量空间中，文本向量与图像向量以不同颜色区分，并辅以分隔符等特殊标记。经过单一的编码过程，该结构能够统一处理不同模态的数据，其输出可用于分类或判断任务。例如，在判断任务中，模型会评估文本描述与图像内容的匹配程度，若匹配则输出true，反之则输出false。

这种架构思想也体现在后续的多模态大模型中，如GPT-4o便采用了类似的结构，使其不仅能处理文本，还能同时理解和处理图像信息，并基于此进行问答和内容生成。

八、总结

至此，我们今天关于五篇论文的讲解与讨论已告一段落。简要回顾，我们首先从卷积神经网络（CNN）的基础讲起，详细拆解了卷积核这一核心概念，并探讨了CNN在各类视觉任务中的应用。随后，我们深入分析了ResNet模型，它通过引入残差连接，有效解决了深层网络中的梯度消失和过拟合问题，显著增强了CNN的性能。

从Vision Transformer（VIT）开始，研究方向出现了重要分支。尽管CNN仍在广泛应用，但学术界逐渐形成了两个流派：一派坚持使用CNN，另一派则转向完全基于Transformer的架构。目前的趋势显示，纯Transformer模型在视觉任务中略占上风，但这并不意味着CNN已被淘汰。相比之下，RNN几乎已退出历史舞台，而CNN依然占据重要地位。

ViT和Swin Transformer是纯视觉Transformer的代表，它们完全摒弃了CNN，转而依赖多头自注意力机制处理图像。这种趋势在CLIP模型中更为显著。CLIP采用了双编码器架构，分别基于Transformer和Vision Transformer，一个处理文本，一个处理图像，最终通过比较两者的向量相似度来完成任务。

而Vilt模型则走了一条更激进的路线，它仅使用单一的Transformer编码器，同时处理文本和图像信息。这种架构通过线性层将文本和图像统一映射为向量，再利用Transformer的强大建模能力进行融合。这种“单编码器”思想也体现在GPT-4o等多模态大模型中，使其能够同时理解和处理文本与图像，并基于此进行问答和内容生成。

需要指出的是，当前的视觉模型尚不具备通用性，通常只能胜任特定类别的任务。要实现像GPT那样的通用基座模型，视觉领域仍需在架构、算法和算力上取得突破。一旦视觉基座模型出现，将极大降低开发成本，例如，原本需要数百万资金才能完成的视觉任务，未来可能只需数万元即可实现，从而引发整个行业的颠覆性变革。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。