抽象与推理语料库(ARC)旨在推动对抽象推理能力的研究,这是人类智能的核心。尽管 ARC 任务本质上是视觉性的,但现有方法大多将其视为语言问题,依赖大语言模型或序列推理模型来解决,忽视了视觉视角。
为弥补这一不足,MIT何恺明团队提出 Vision ARC(VARC) 框架,首次将 ARC 重新定义为图像到图像的转换任务:将 ARC 任务中的原始输入(通常是小尺寸、离散颜色的网格)以“画布”形式重新组织成一种标准图像格式,进而直接采用标准视觉模型(如原始 Vision Transformer, ViT)进行端到端训练。模型仅在 ARC 数据上从头训练,并结合测试时训练实现对未见任务的泛化。实验表明,VARC 在 ARC-1 基准上达到 60.4% 的准确率,显著优于其他从头训练的方法,性能接近顶尖 LLM,并大幅缩小了与人类平均水平的差距。
论文标题:
ARC Is a Vision Problem!
论文链接:
https://arxiv.org/pdf/2511.14761
项目链接:
https://github.com/lillian039/VARC
01方法
图 3:ARC任务定义
(1)任务定义
ARC 基准包含数百个极少样本(如 2 到 4 个示例)的推理任务。每个任务 T 都遵循一个独特的变换规则,将一个输入 x 映射到输出 y,其中 x 和 y 均为不超过30×30的二维网格,每个格子使用 C 种颜色之一(例如 C=10)。
- 任务
任务T是ARC中的基本单元。每个任务包含演示集
- 训练集
用
- 测试集
将测试集表示为,包含l个不同的测试任务。对于任何
也存在一个演示集
模型利用演示集推断给定
(2)图像到图像转换
研究团队将每个任务上的推理问题形式化为一个图像到图像的转换问题,并将其建模为逐像素分类任务。
用一个视觉神经网络,其结构由参数集合 θ 决定,并结合任务专属的提示向量,对输入图像的每个像素进行分类,预测输出图像的颜色。训练使用标准的像素级交叉熵损失,目标是让预测颜色尽可能接近真实答案。
在这里,D表示真实标签yi与网络输出之间的逐像素交叉熵损失。
(3)视觉建模
以往针对 ARC 的方法通常在离散值 token 的空间中进行操作,其设计思路主要受语言模型的启发。而本文提出的图像到图像转换框架中,则探索了专为视觉任务而设计的原生架构,包含以下关键策略:
1)画布
为更好地适配视觉模型,将 ARC 的小尺寸输入网格放置到一个更大的“画布”(如 64×64)上,并用额外的颜色作为背景。这种表示方式不仅支持平移、缩放等视觉数据增强,还能让 ViT 在处理图像块(patch)时捕捉更丰富的颜色组合,如图5所示,从而显著提升模型的泛化能力。
图 5:VARC 中的视觉 Transformer 架构
2)平移和缩放不变性
“画布”策略的应用使得研究者可以灵活使用平移和缩放等数据增强,帮助模型学会忽略位置和大小变化,从而抓住任务中真正不变的规律——这正是标准视觉模型泛化能力的关键。
具体而言,采用以下两种增强方式:
- 尺度增强:给定原始输入网格,随机选取一个整数缩放比例 s,并将每个原始像素扩展为 s×s 的块(见图 4 左侧)。该操作类似于自然图像中的最近邻插值。
- 平移增强:在完成尺度变换后,将缩放后的网格随机放置于固定尺寸的画布内,并确保所有像素均可见(见图 4 右侧)。
图 4:原始输入经过随机的缩放和平移变换后,被放置到“画布”上
3)视觉Transformer
ViT 的核心思想是将图像分块后应用 Transformer。具体而言:
- 将画布划分为不重叠的图像块(如 2×2);
- 每个像素的离散颜色索引首先映射为可学习的连续嵌入向量;
- 图像块经线性投影后,加上位置编码,并送入多层 Transformer 块;
- 输出端通过一个线性层对每个图像块中的每个像素进行分类。
从概念上看,这种“分块”(patchification)操作可视为一种特殊的卷积:它引入了视觉任务中的关键归纳偏置,包括局部性和平移不变性。
4)2D位置嵌入
与通常被建模为一维序列的语言数据不同,图像本质上具有二维结构。如简单地将嵌入后的图像块视为一维序列,这种二维空间信息就会丢失。因此,研究团队采用可分离的二维位置编码方式:对于维度为 D 的位置嵌入,前一半通道用于编码水平坐标,后一半通道用于编码垂直坐标。
5)替代方案:卷积网络
除 ViT 外,研究团队采用经典的卷积网络 U-Net ——一种专为图像到图像翻译设计的层次化架构,来补充验证经典视觉架构解决ARC问题的有效性。
(4)两阶段训练
研究采用两阶段训练范式来学习神经网络的参数。
- 离线训练
此阶段应用于整个训练集, 即适用于
用于所有训练任务。所有任务共享相同的参数,唯一的区别是每个任务都有自己的任务条件token。
- 测试时训练
在推理阶段,给定一个新的、未见过的任务任务 T 的演示集,其中输入与输出均可见;模型需基于该演示集,进行微调并对给定的推理输入
生成相应的预测输出。
图6展示了测试时训练的效果。上方展示了当前任务的演示示例;左下为一个推理输入;右下显示了在测试时训练过程中,模型对
的预测逐步优化,最终生成了正确输出。
图 6:测试时训练的效果
(5)推理
在测试时训练完成后,将模型应用于输入
以获得最终预测。
- 单视图推理:将
按固定缩放和平移放置到画布上,用
预测输出。由于重采样可能导致原始网格中一个位置对应画布上多个像素,我们对该位置的所有 softmax 预测结果进行平均池化聚合。
- 多视图推理:参考 AlexNet 等经典做法 ,通过多种增强(不同缩放/平移)生成多个视图并融合预测。
Pass@2 准确率:ARC 默认采用 Pass@2 指标,即允许提交两个不同解,只要其中一个正确即视为任务成功。
02评估
(1)视觉先验的影响
图 7:视觉先验的影响
如图7所示,与基线相比这些视觉先验累积带来了27.7个百分点的性能提升(a→f),其中基于“画布”的设计(c→f)贡献了11.5的增益。
对各组件说明如下:
1)二维位置编码(2D Positional Embedding)
将一维位置编码扩展为二维形式是有益的,如图 7(b)→© 所示。这一改进在绝对位置编码(b)和相对位置编码(c)两种设置下均有效。
2)分块策略(Patchification)
2×2 分块带来了 2.4 个百分点的显著提升(c→d)。这是因为每个分块能像自然图像一样包含多种颜色,极大地丰富了学习所需的数据空间。
3)平移与尺度增强(Translation and Scale Augmentation)
在图 7(e) 中,在“画布”上应用平移增强。相比图 7(d) 中仅限单像素的平移,该设置额外提升了 2.9 个百分点。在图 7(f) 中,进一步引入由“画布”概念支持的尺度增强,带来了 6.2 个百分点的大幅提升。
与可以通过分块策略实现的平移不变性不同,ViT本身对尺度变化不敏感——它没有内置机制来应对图像缩放,因此,如果不额外做尺度增强,ViT 就很难泛化到不同尺度的输入;而加入尺度增强后,性能明显提升,因为这弥补了 ViT 缺乏尺度不变性归纳偏置的不足。
(2)系统级比较
单模型结果基于 ViT,报告值为四次独立实验的平均表现;集成结果将 ViT 和 U-Net 两种模型的结果进行融合,ViT和U-Net均执行了四次测试时训练。
如表3所示,LLM(如 GPT-5、Claude 等)依赖海量互联网或多模态预训练数据,而 VARC 仅用 ARC 任务本身的数据从零训练,无任何外部知识注入。尽管如此,VARC 在 ARC-1 上达到 60.4% 的准确率,媲美甚至超过部分顶级 LLM 的公开结果,大幅缩小了与人类平均水平的差距。
表 3:在 ARC-1 和 ARC-2 基准上的系统级对比
(3)定性分析
图10和图11展示了ViT模型在测试任务中的注意力模式:模型能够准确捕捉源像素与目标像素之间的复制关系,且不同网络层展现出功能分化——部分层聚焦于待复制的源像素,另一些层则专门关注八个方向上的目标位置,体现出层次化的推理能力。
图 10:像素级注意力可视化
图 11:层级注意力图的可视化
在离线训练中,模型在 ARC-1 的 400 个训练任务上学习了对应的任务嵌入,并通过 t-SNE 将其可视化到二维空间,如图12所示。结果表明,语义相似的任务在嵌入空间中彼此靠近,说明模型不仅拟合了单个任务,还捕捉到了任务之间的内在关联。这种对任务结构的隐式建模能力,正是实现抽象与推理的关键所在。
图 12:基于ARC‑1训练集学习的400个任务嵌入的t‑SNE可视化
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。