DS 首款多模态大模型-程序员充电站

关于五一前发了又删这件事

DeepSeek 发布其首个多模态模型Thinking with Visual Primitives，采用全新的"视觉原语"范式

与传统多模态模型（如 LLaVA 等）使用模糊自然语言描述图像不同，DeepSeek 的新模型将图像内容精确到具体坐标和点，实现细粒度语义理解

传统多模态模型的痛点:

精确度低：用自然语言描述图像（如"左边那个红色汽车"），存在语义模糊性
复杂任务表现差：在走迷宫、轨迹追踪等需要精确位置理解的任务上效果不佳
细粒度控制能力弱：无法精确到具体的点或坐标

DeepSeek 新范式的优势:

将图像元素与坐标信息一并输出
精确描述每个物体的位置，甚至可以精确到具体的点
在细粒度控制、语义理解上具有以往模型无法比拟的优势

二、模型架构

输入层 ├── 图像输入 → ViT（Vision Transformer）→ 视觉Token └── 文字输入 → 分词器 → 文本Token ↓ 语言模型（DeepSeek-V2） ↓ 输出：纯自然语言

架构参数

组件	参数
基础架构	DeepSeek-V2 with Flash Attention
总参数量	284B
推理时激活参数	13B
架构风格	简洁清晰，复杂点在于训练方法

原始图像经过以下步骤转换为Token：

原始图像：756 × 756 像素
切分成小方块：每个方块 54 × 54 像素，共 14 × 14 =196 个区域
每个区域再细分：14 × 14 的小块
总Token数：2916 个（196 × 14 × 14 / 9）

三、创新：视觉Token压缩

压缩技术路线

原始 2916 个Token ↓ 第一次压缩（3×3 线性投影） ↓ 324 个Token（减少 9 倍） ↓ 第二次压缩（CSC技术） ↓ 81 个Token

压缩效果对比

模型	Token数量	效果
其他多模态模型	2916+	基准
DeepSeek	81	Token利用率提升 36 倍

压缩效果经过实验验证，完全没有性能衰减。

意义

降低推理成本：Token是智能体场景中的敏感指标，减少Token直接降低计算成本
保持高精度：36倍压缩比下仍能保持甚至超越原模型效果
对Agent部署和实时推理场景意义重大

四、训练方法：五步流程

DeepSeek的训练方法分为5个阶段

预训练 → SFT → 强化学习 → IFT → 蒸馏

4.1 预训练（Pre-training）

训练数据格式

输入：

图片
问题（如"计算这张照片上有多少人"）

输出（思考过程 + 答案）：

思考模块：逐个标注每个人的位置坐标
最终答案：如"25人"

坐标标注方式

[左上角X, 左上角Y, 宽度, 高度]

示例：每个人的位置用红框标出，坐标以这种格式输出。

训练任务类型

1. 粗粒度任务

示例：统计图片中的人数
特点：一把输出多个框的坐标
训练目标：学会定位和计数

2. 细粒度任务

示例：“地上有多少只熊？”（排除树上的熊）
特点：逐个标注每只熊的位置坐标
训练目标：学会精确区分和定位

3. 空间推理任务

示例：“哪个紫色的球跟银白色球大小一样？”
特点：需要逐一查看每个物体，理解位置、颜色、大小关系
训练目标：学会复杂的空间关系理解

4. 迷宫导航任务

示例：从起点走到终点，输出路径坐标
特点：需要输出一系列点坐标而非框
训练目标：理解图像精确到点的级别

5. 轨迹追踪任务

示例：皇冠通过线条连接到哪个物体？
特点：需要沿路径逐点追踪
训练目标：学会复杂的连通性理解

4.2 第二阶段：SFT（监督微调）

数据拆分策略

数据类型	占比	训练目标
正常多模态数据	70%	通用多模态理解
带坐标的精细数据	30%	精确位置理解

专业化的模型拆分将基座模型通过两套独立数据微调，拆分为：

框定位模型：专门处理需要输出边框的任务
点定位模型：专门处理需要输出精确点的任务

预训练基座模型 ├── SFT（框数据）→ 框定位模型 └── SFT（点数据）→ 点定位模型

拆分原因：两类问题处理方式有差异，独立训练避免冲突

4.3 第三阶段：强化学习（RL）

强化学习的核心优势

无需标注思考过程：

传统方式：需要标注图片 + 问题 + 思考过程 + 答案
强化学习方式：只需标注图片 + 问题 + 最终答案
效果：数据标注成本大幅降低，数据量快速上升

数据难度分级

让模型对同一问题回答 N 次，根据正确率分级：

难度等级	定义	处理方式
简单	100% 正确	剔除（无训练价值）
普通	有对有错	保留训练
困难	0% 正确	剔除（超出学习能力）

核心思想：找"蹦一蹦能够得着"的数据进行学习

奖励模型设计

奖励函数分为三个主要部分：

1. 格式奖励

输出格式正确
框之间无交集（框模型）
内容不冗余

2. 质量奖励

答案准确
表述简洁

3. 准确性奖励

针对不同任务设计了不同的奖励计算方式：

计数任务奖励

准确率 = f(预测值 ŷ, 真实值 y)

完全一致：1分
偏差越大：分数平滑递减

迷宫任务奖励（5个指标）

指标	说明	奖励逻辑
穿墙惩罚	路径不能穿越墙壁	穿墙则后续点无效
探索覆盖率	死路迷宫是否探索完全部路径	覆盖率越高越好
最终路径准确性	是否正确走出迷宫	终点离目标越近越好
答案正确性	迷宫是否可解	正确判断迷宫是否可解
综合得分	前4项加权求和	-

路径追踪任务奖励（4个指标）

指标	说明	奖励逻辑
点距离	预测路径与真实路径的最近点距离	距离越近越好
曲线相似度	两条路径的贴合程度	越贴合越好
端点精度	起点终点识别准确性	正确识别得高分
连续性惩罚	路径连续性	不连续扣分

强化学习流程图

框定位模型 ←──┐ │ │ │ 强化学习 ← 框数据 + 奖励模型 │ │ ↓ │ 点定位模型 ←──┘ ↑ └──── 点数据 + 奖励模型

4.4 第四阶段：IFT（指令微调后的微调）

模型合并

将强化学习训练后的两个专业化模型合并：

强化学习后的框模型 + 点模型 ↓ 产生样本数据 ↓ 数据分级（简单/普通/困难） ↓ 保留：普通数据 + 部分简单数据 ↓ 回训预训练模型 ↓ 统一融合模型

合并的意义

保留特性：框理解和点理解能力都保留
统一输出：一个模型具备两种能力
能力整合：相当于"二合一"

4.5 第五阶段：蒸馏（Distillation）

教师模型（框模型 + 点模型） │ │ 观察学生模型生成的Token ↓ 学生模型（最终模型）

蒸馏过程

学生模型生成回答和数据
教师模型对同一问题进行回答
学生模型学习教师模型的概率分布
通过 KL 散度等方式优化

本质：学生写完作业交给老师批改，老师给出标准答案，学生学习老师的思路

总结

┌─────────────────────────────────────────────────────────┐ │ 预训练基座模型 │ └─────────────────────────────────────────────────────────┘ │ ┌──────────────────┴──────────────────┐ ↓ ↓ ┌───────────────────┐ ┌───────────────────┐ │ SFT（框数据） │ │ SFT（点数据） │ └───────────────────┘ └───────────────────┘ │ │ ↓ ↓ ┌───────────────────┐ ┌───────────────────┐ │ 强化学习（框） │ │ 强化学习（点） │ └───────────────────┘ └───────────────────┘ │ │ └──────────────────┬──────────────────┘ ↓ ┌───────────────────┐ │ 模型合并 (RFT) │ └───────────────────┘ │ ↓ ┌───────────────────┐ │ 产生训练数据 │ └───────────────────┘ │ ↓ ┌───────────────────┐ │ 蒸馏学习 │ └───────────────────┘ │ ↓ ┌─────────────────────────────────────────────────────────┐ │ 最终学生模型 │ └─────────────────────────────────────────────────────────┘

突破点

突破点	说明
视觉原语范式	从模糊自然语言描述 → 精确坐标输出，解决语义模糊性问题
Token压缩36倍	通过两次压缩（3×3投影 + CSC），2916 Token → 81 Token，无性能衰减
强化学习应用	无需标注思考过程，降低标注成本，数据量快速扩展
复杂任务能力	迷宫导航、轨迹追踪等需要精确点级理解的任务
模型拆合策略	先拆分为专业化模型，再合并融合，最终蒸馏强化