4月30日晚,DeepSeek多模态负责人陈小康在X上兴奋地宣布发布新论文,配文"Now, we see you"。不到24小时,推文删了,GitHub仓库也空了。这篇"消失"的论文,到底藏着什么秘密?
目录
前言
Thinking with Visual Primitives
1. 核心问题:指代鸿沟
2. 核心创新:思维模式转变
3. 模型架构与极致效率
4. 训练流程:专才到通才
5. 实验结果
6. 局限性
前言
DeepSeek做了件罕见的事情:在终于开始灰测多模态能力后,它放出了一篇解释背后技术的论文,但这篇论文却在发布没多久就又被悄悄撤掉。
4月29日,DeepSeek研究员陈小康在X发布一条推文——现在,我们可以看见你了。
对 DeepSeek 来说,视觉能力是让它的推理能力从文本世界延伸到真实世界的关键一步。但这次灰测的视觉能力,很快被使用者们感觉到不同:它和其他模型给语言模型底座增加多模态功能不同,更像是一个单独的模型,且不是以附庸形式定位,而是有某种原生的思考和推理能力。
就在大家好奇心增加的时候,DeepSeek发布了一篇解释它追求的视觉能力的论文:《Thinking with Visual Primitives》。
Thinking with Visual Primitives
1. 核心问题:指代鸿沟
文章指出,尽管MLLM在“感知鸿沟”(Perception Gap,即能不能看清图片细节)上通过高分辨率裁剪取得了进展,但仍存在一个更根本的瓶颈:指代鸿沟。
- 现状:目前的思维链主要在语言空间中进行。自然语言具有固有的歧义性,在描述复杂空间布局(如“左边第二个红色的球”)时,缺乏精准、无歧义的指针。
- 后果:在密集计数或拓扑推理(如迷宫导航)任务中,模型的语言“思维”容易跟丢其试图指代的视觉实体,导致逻辑崩塌和幻觉。
2. 核心创新:思维模式转变
- 传统做法:视觉定位通常被视为后置验证,即先想完再用框标出。
- 本文做法:Thinking with Visual Primitives。将空间标记(点、框)视为“最小思维单元”,让模型在推理过程中交替穿插文本和视觉原语。
- 类比:就像人类数密集物体时会用手指指着数,或者在走迷宫时用笔描画路径一样,模型通过“边指边想”,将抽象的语言思维锚定在具体的物理坐标上。
3. 模型架构与极致效率
模型基于DeepSeek-V4-Flash(MoE架构,284B总参数/13B激活参数)和自研的DeepSeek-ViT构建。
- 极致压缩:文章强调架构的高效性。通过3×3空间Token压缩和CSA(压缩稀疏注意力)机制,KV缓存被极度压缩。
- 数据对比:对于一张800×800的图像,GPT-5.4、Gemini-3-Flash等模型需要数千个KV缓存条目,而该模型仅保留约90个条目,整体压缩比达到7000倍以上。这证明了不需要海量的视觉Token也能实现强大的推理。
4. 训练流程:专才到通才
文章采用了一种“先培养专才,再合并通才”的训练策略:
- 预训练:大规模爬取网络数据,构建了超4000万的高质量样本。文章特别强调了优先扩展框数据,因为框具有确定性(点有歧义)、任务泛化性(框包含点)和信息丰富性(含尺寸)。
- 冷启动数据构建:针对四大类任务构建了高质量的推理链数据:
- 计数:分为粗粒度(如“数男人”)和细粒度(如“数白狗”)。
- 空间推理与通用VQA:利用GQA和CLEVR构建多跳推理数据。
- 迷宫导航:这是本文的一大亮点,利用DFS等算法生成不同难度的迷宫,教模型用“点”进行逐步探索和回溯。
- 路径追踪:生成纠缠的贝塞尔曲线,让模型沿特定线条追踪终点,测试其拓扑追踪能力。
- 后训练:
- 专用SFT (Specialized SFT):分别训练“带框思考”和“带点思考”两个专才模型。
- 专用RL (Specialized RL):使用GRPO算法和精心设计的奖励模型(RM)强化专才。
- *计数RM*:使用平滑指数衰减,奖励接近正确的答案,而非简单的0/1奖惩。
- *迷宫RM*:考虑了因果探索进度、探索完整性、撞墙惩罚等。
- *路径追踪RM*:双向评估(前向偏差惩罚 + 后向覆盖惩罚),防止模型“抄近道”。
- 统一RFT:将两个专才模型的能力整合到一个基础模型中。
- On-Policy Distillation:通过策略蒸馏,将专才模型的知识压缩到统一的学生模型中,弥补性能差距。
5. 实验结果
- 性能:在计数、空间推理和拓扑推理(特别是迷宫和路径追踪)任务上,该模型(284B-A13B)表现出色,与GPT-5.4、Claude-Sonnet-4.6等前沿模型持平甚至超越。
- 拓扑推理的突破:在DS_Maze_Navigation和DS_Path_Tracing任务上,其他前沿模型表现较差(GPT-5.4准确率约49.8%,Claude约49.6%),而本文模型达到了66.9%和56.7%,显示了“带点思考”在拓扑问题上的独特优势。
- 涌现能力:模型展现了整合世界知识(如识别金门大桥联想到NBA球队)、反事实推理、提供具象操作建议(如制作咖啡步骤)等能力,且支持中文思考(尽管训练数据未包含中文视觉原语数据)。
6. 局限性
- 输入分辨率限制:在极细粒度场景下,视觉原语输出可能不够精准。
- 触发词依赖:目前需要显式的触发词(Trigger Placeholder)来激活“视觉原语思考”模式,未来希望模型能自主判断何时使用。
- 泛化能力:利用点解决复杂拓扑推理仍是一个挑战,跨场景的泛化能力有限。