【DeepSeek V4】首次有视觉能力，技术论文【Thinking with Visual Primitives】却被连夜删掉-程序员充电站

4月30日晚，DeepSeek多模态负责人陈小康在X上兴奋地宣布发布新论文，配文"Now, we see you"。不到24小时，推文删了，GitHub仓库也空了。这篇"消失"的论文，到底藏着什么秘密？

前言

Thinking with Visual Primitives

1. 核心问题：指代鸿沟

2. 核心创新：思维模式转变

3. 模型架构与极致效率

4. 训练流程：专才到通才

5. 实验结果

6. 局限性

前言

DeepSeek做了件罕见的事情：在终于开始灰测多模态能力后，它放出了一篇解释背后技术的论文，但这篇论文却在发布没多久就又被悄悄撤掉。

4月29日，DeepSeek研究员陈小康在X发布一条推文——现在，我们可以看见你了。

对 DeepSeek 来说，视觉能力是让它的推理能力从文本世界延伸到真实世界的关键一步。但这次灰测的视觉能力，很快被使用者们感觉到不同：它和其他模型给语言模型底座增加多模态功能不同，更像是一个单独的模型，且不是以附庸形式定位，而是有某种原生的思考和推理能力。

就在大家好奇心增加的时候，DeepSeek发布了一篇解释它追求的视觉能力的论文：《Thinking with Visual Primitives》。

Thinking with Visual Primitives

1. 核心问题：指代鸿沟

文章指出，尽管MLLM在“感知鸿沟”（Perception Gap，即能不能看清图片细节）上通过高分辨率裁剪取得了进展，但仍存在一个更根本的瓶颈：指代鸿沟。

现状：目前的思维链主要在语言空间中进行。自然语言具有固有的歧义性，在描述复杂空间布局（如“左边第二个红色的球”）时，缺乏精准、无歧义的指针。
后果：在密集计数或拓扑推理（如迷宫导航）任务中，模型的语言“思维”容易跟丢其试图指代的视觉实体，导致逻辑崩塌和幻觉。

2. 核心创新：思维模式转变

传统做法：视觉定位通常被视为后置验证，即先想完再用框标出。
本文做法：Thinking with Visual Primitives。将空间标记（点、框）视为“最小思维单元”，让模型在推理过程中交替穿插文本和视觉原语。
类比：就像人类数密集物体时会用手指指着数，或者在走迷宫时用笔描画路径一样，模型通过“边指边想”，将抽象的语言思维锚定在具体的物理坐标上。

3. 模型架构与极致效率

模型基于DeepSeek-V4-Flash（MoE架构，284B总参数/13B激活参数）和自研的DeepSeek-ViT构建。

极致压缩：文章强调架构的高效性。通过3×3空间Token压缩和CSA（压缩稀疏注意力）机制，KV缓存被极度压缩。
数据对比：对于一张800×800的图像，GPT-5.4、Gemini-3-Flash等模型需要数千个KV缓存条目，而该模型仅保留约90个条目，整体压缩比达到7000倍以上。这证明了不需要海量的视觉Token也能实现强大的推理。

4. 训练流程：专才到通才

文章采用了一种“先培养专才，再合并通才”的训练策略：

预训练：大规模爬取网络数据，构建了超4000万的高质量样本。文章特别强调了优先扩展框数据，因为框具有确定性（点有歧义）、任务泛化性（框包含点）和信息丰富性（含尺寸）。
冷启动数据构建：针对四大类任务构建了高质量的推理链数据：
1. 计数：分为粗粒度（如“数男人”）和细粒度（如“数白狗”）。
2. 空间推理与通用VQA：利用GQA和CLEVR构建多跳推理数据。
3. 迷宫导航：这是本文的一大亮点，利用DFS等算法生成不同难度的迷宫，教模型用“点”进行逐步探索和回溯。
4. 路径追踪：生成纠缠的贝塞尔曲线，让模型沿特定线条追踪终点，测试其拓扑追踪能力。
后训练：
1. 专用SFT (Specialized SFT)：分别训练“带框思考”和“带点思考”两个专才模型。
2. 专用RL (Specialized RL)：使用GRPO算法和精心设计的奖励模型（RM）强化专才。
  - *计数RM*：使用平滑指数衰减，奖励接近正确的答案，而非简单的0/1奖惩。
  - *迷宫RM*：考虑了因果探索进度、探索完整性、撞墙惩罚等。
  - *路径追踪RM*：双向评估（前向偏差惩罚 + 后向覆盖惩罚），防止模型“抄近道”。
3. 统一RFT：将两个专才模型的能力整合到一个基础模型中。
4. On-Policy Distillation：通过策略蒸馏，将专才模型的知识压缩到统一的学生模型中，弥补性能差距。

5. 实验结果

性能：在计数、空间推理和拓扑推理（特别是迷宫和路径追踪）任务上，该模型（284B-A13B）表现出色，与GPT-5.4、Claude-Sonnet-4.6等前沿模型持平甚至超越。
拓扑推理的突破：在DS_Maze_Navigation和DS_Path_Tracing任务上，其他前沿模型表现较差（GPT-5.4准确率约49.8%，Claude约49.6%），而本文模型达到了66.9%和56.7%，显示了“带点思考”在拓扑问题上的独特优势。
涌现能力：模型展现了整合世界知识（如识别金门大桥联想到NBA球队）、反事实推理、提供具象操作建议（如制作咖啡步骤）等能力，且支持中文思考（尽管训练数据未包含中文视觉原语数据）。