news 2026/5/1 22:16:13

【DeepSeek V4】首次有视觉能力,技术论文【Thinking with Visual Primitives】却被连夜删掉

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【DeepSeek V4】首次有视觉能力,技术论文【Thinking with Visual Primitives】却被连夜删掉

4月30日晚,DeepSeek多模态负责人陈小康在X上兴奋地宣布发布新论文,配文"Now, we see you"。不到24小时,推文删了,GitHub仓库也空了。这篇"消失"的论文,到底藏着什么秘密?

目录

前言

Thinking with Visual Primitives

1. 核心问题:指代鸿沟

2. 核心创新:思维模式转变

3. 模型架构与极致效率

4. 训练流程:专才到通才

5. 实验结果

6. 局限性


前言

DeepSeek做了件罕见的事情:在终于开始灰测多模态能力后,它放出了一篇解释背后技术的论文,但这篇论文却在发布没多久就又被悄悄撤掉。

4月29日,DeepSeek研究员陈小康在X发布一条推文——现在,我们可以看见你了。

对 DeepSeek 来说,视觉能力是让它的推理能力从文本世界延伸到真实世界的关键一步。但这次灰测的视觉能力,很快被使用者们感觉到不同:它和其他模型给语言模型底座增加多模态功能不同,更像是一个单独的模型,且不是以附庸形式定位,而是有某种原生的思考和推理能力。

就在大家好奇心增加的时候,DeepSeek发布了一篇解释它追求的视觉能力的论文:《Thinking with Visual Primitives》。

Thinking with Visual Primitives

1. 核心问题:指代鸿沟

文章指出,尽管MLLM在“感知鸿沟”(Perception Gap,即能不能看清图片细节)上通过高分辨率裁剪取得了进展,但仍存在一个更根本的瓶颈:指代鸿沟

  • 现状:目前的思维链主要在语言空间中进行。自然语言具有固有的歧义性,在描述复杂空间布局(如“左边第二个红色的球”)时,缺乏精准、无歧义的指针。
  • 后果:在密集计数或拓扑推理(如迷宫导航)任务中,模型的语言“思维”容易跟丢其试图指代的视觉实体,导致逻辑崩塌和幻觉。

2. 核心创新:思维模式转变

  • 传统做法:视觉定位通常被视为后置验证,即先想完再用框标出。
  • 本文做法Thinking with Visual Primitives。将空间标记(点、框)视为“最小思维单元”,让模型在推理过程中交替穿插文本和视觉原语。
  • 类比:就像人类数密集物体时会用手指指着数,或者在走迷宫时用笔描画路径一样,模型通过“边指边想”,将抽象的语言思维锚定在具体的物理坐标上。

3. 模型架构与极致效率

模型基于DeepSeek-V4-Flash(MoE架构,284B总参数/13B激活参数)和自研的DeepSeek-ViT构建。

  • 极致压缩:文章强调架构的高效性。通过3×3空间Token压缩和CSA(压缩稀疏注意力)机制,KV缓存被极度压缩。
  • 数据对比:对于一张800×800的图像,GPT-5.4、Gemini-3-Flash等模型需要数千个KV缓存条目,而该模型仅保留约90个条目,整体压缩比达到7000倍以上。这证明了不需要海量的视觉Token也能实现强大的推理。

4. 训练流程:专才到通才

文章采用了一种“先培养专才,再合并通才”的训练策略:

  • 预训练:大规模爬取网络数据,构建了超4000万的高质量样本。文章特别强调了优先扩展框数据,因为框具有确定性(点有歧义)、任务泛化性(框包含点)和信息丰富性(含尺寸)。
  • 冷启动数据构建:针对四大类任务构建了高质量的推理链数据:
    1. 计数:分为粗粒度(如“数男人”)和细粒度(如“数白狗”)。
    2. 空间推理与通用VQA:利用GQA和CLEVR构建多跳推理数据。
    3. 迷宫导航:这是本文的一大亮点,利用DFS等算法生成不同难度的迷宫,教模型用“点”进行逐步探索和回溯。
    4. 路径追踪:生成纠缠的贝塞尔曲线,让模型沿特定线条追踪终点,测试其拓扑追踪能力。
  • 后训练
    1. 专用SFT (Specialized SFT):分别训练“带框思考”和“带点思考”两个专才模型。
    2. 专用RL (Specialized RL):使用GRPO算法和精心设计的奖励模型(RM)强化专才。
      • *计数RM*:使用平滑指数衰减,奖励接近正确的答案,而非简单的0/1奖惩。
      • *迷宫RM*:考虑了因果探索进度、探索完整性、撞墙惩罚等。
      • *路径追踪RM*:双向评估(前向偏差惩罚 + 后向覆盖惩罚),防止模型“抄近道”。
    3. 统一RFT:将两个专才模型的能力整合到一个基础模型中。
    4. On-Policy Distillation:通过策略蒸馏,将专才模型的知识压缩到统一的学生模型中,弥补性能差距。

5. 实验结果

  • 性能:在计数、空间推理和拓扑推理(特别是迷宫和路径追踪)任务上,该模型(284B-A13B)表现出色,与GPT-5.4、Claude-Sonnet-4.6等前沿模型持平甚至超越。
  • 拓扑推理的突破:在DS_Maze_Navigation和DS_Path_Tracing任务上,其他前沿模型表现较差(GPT-5.4准确率约49.8%,Claude约49.6%),而本文模型达到了66.9%和56.7%,显示了“带点思考”在拓扑问题上的独特优势。
  • 涌现能力:模型展现了整合世界知识(如识别金门大桥联想到NBA球队)、反事实推理、提供具象操作建议(如制作咖啡步骤)等能力,且支持中文思考(尽管训练数据未包含中文视觉原语数据)。

6. 局限性

  1. 输入分辨率限制:在极细粒度场景下,视觉原语输出可能不够精准。
  2. 触发词依赖:目前需要显式的触发词(Trigger Placeholder)来激活“视觉原语思考”模式,未来希望模型能自主判断何时使用。
  3. 泛化能力:利用点解决复杂拓扑推理仍是一个挑战,跨场景的泛化能力有限。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 22:11:23

ARM AMCR寄存器解析与性能监控实践

1. ARM AMCR寄存器深度解析活动监控单元(Activity Monitors Unit, AMU)是现代ARM处理器中用于性能监控的关键组件,而AMCR(Activity Monitors Control Register)则是其核心控制枢纽。作为一位长期从事ARM架构性能调优的工程师,我将在本文详细剖析AMCR的技…

作者头像 李华
网站建设 2026/5/1 22:11:22

构建可靠网络连接:从WireGuard到Tailscale的现代组网实践指南

1. 项目概述与核心价值最近在整理个人工具箱时,发现一个挺有意思的GitHub仓库,标题叫“The-40-Best-VPNs”。这个项目名乍一看,可能会让人联想到一份关于特定网络工具的推荐列表。但作为从业者,我们更应关注其背后所反映的普遍性需…

作者头像 李华
网站建设 2026/5/1 22:10:24

Visual C++运行库终极修复指南:一键解决Windows系统依赖问题

Visual C运行库终极修复指南:一键解决Windows系统依赖问题 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist Visual C运行库是Windows系统中至关重要的…

作者头像 李华
网站建设 2026/5/1 22:07:46

SparkFun Thing Plus Matter开发板:物联网多协议开发实战

1. SparkFun Thing Plus Matter开发板深度解析 作为一名长期从事物联网开发的工程师,当我第一次拿到SparkFun这款Thing Plus Matter开发板时,立刻被它的多功能性所吸引。这款基于Silicon Labs EFR32MG24芯片的开发板,完美支持Matter、Zigbee、…

作者头像 李华
网站建设 2026/5/1 22:06:16

告别CANape手动截图:用Matlab脚本批量提取MDF信号,5分钟搞定数据回灌

从MDF到Simulink:Matlab自动化信号处理全流程解析 在汽车电子控制系统开发中,数据回灌是验证算法和诊断问题的关键环节。传统方式下,工程师需要在CANape中逐个打开MDF文件,手动查找信号并截图记录,这种重复劳动不仅效率…

作者头像 李华