news 2026/5/7 18:21:10

DS 首款多模态大模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DS 首款多模态大模型

关于五一前发了又删这件事

DeepSeek 发布其首个多模态模型Thinking with Visual Primitives采用全新的"视觉原语"范式

与传统多模态模型(如 LLaVA 等)使用模糊自然语言描述图像不同,DeepSeek 的新模型将图像内容精确到具体坐标和点,实现细粒度语义理解

传统多模态模型的痛点:

  • 精确度低:用自然语言描述图像(如"左边那个红色汽车"),存在语义模糊性
  • 复杂任务表现差:在走迷宫、轨迹追踪等需要精确位置理解的任务上效果不佳
  • 细粒度控制能力弱:无法精确到具体的点或坐标

DeepSeek 新范式的优势:

  • 将图像元素与坐标信息一并输出
  • 精确描述每个物体的位置,甚至可以精确到具体的点
  • 在细粒度控制、语义理解上具有以往模型无法比拟的优势

二、模型架构

输入层 ├── 图像输入 → ViT(Vision Transformer)→ 视觉Token └── 文字输入 → 分词器 → 文本Token ↓ 语言模型(DeepSeek-V2) ↓ 输出:纯自然语言

架构参数

组件参数
基础架构DeepSeek-V2 with Flash Attention
总参数量284B
推理时激活参数13B
架构风格简洁清晰,复杂点在于训练方法

原始图像经过以下步骤转换为Token:

  1. 原始图像:756 × 756 像素
  2. 切分成小方块:每个方块 54 × 54 像素,共 14 × 14 =196 个区域
  3. 每个区域再细分:14 × 14 的小块
  4. 总Token数:2916 个(196 × 14 × 14 / 9)

三、创新:视觉Token压缩

压缩技术路线

原始 2916 个Token ↓ 第一次压缩(3×3 线性投影) ↓ 324 个Token(减少 9 倍) ↓ 第二次压缩(CSC技术) ↓ 81 个Token

压缩效果对比

模型Token数量效果
其他多模态模型2916+基准
DeepSeek81Token利用率提升 36 倍

压缩效果经过实验验证,完全没有性能衰减

意义

  • 降低推理成本:Token是智能体场景中的敏感指标,减少Token直接降低计算成本
  • 保持高精度:36倍压缩比下仍能保持甚至超越原模型效果
  • 对Agent部署和实时推理场景意义重大

四、训练方法:五步流程

DeepSeek的训练方法分为5个阶段

预训练 → SFT → 强化学习 → IFT → 蒸馏

4.1 预训练(Pre-training)

训练数据格式

输入

  • 图片
  • 问题(如"计算这张照片上有多少人")

输出(思考过程 + 答案):

  • 思考模块:逐个标注每个人的位置坐标
  • 最终答案:如"25人"
坐标标注方式
[左上角X, 左上角Y, 宽度, 高度]

示例:每个人的位置用红框标出,坐标以这种格式输出。

训练任务类型

1. 粗粒度任务

  • 示例:统计图片中的人数
  • 特点:一把输出多个框的坐标
  • 训练目标:学会定位和计数

2. 细粒度任务

  • 示例:“地上有多少只熊?”(排除树上的熊)
  • 特点:逐个标注每只熊的位置坐标
  • 训练目标:学会精确区分和定位

3. 空间推理任务

  • 示例:“哪个紫色的球跟银白色球大小一样?”
  • 特点:需要逐一查看每个物体,理解位置、颜色、大小关系
  • 训练目标:学会复杂的空间关系理解

4. 迷宫导航任务

  • 示例:从起点走到终点,输出路径坐标
  • 特点:需要输出一系列点坐标而非框
  • 训练目标:理解图像精确到点的级别

5. 轨迹追踪任务

  • 示例:皇冠通过线条连接到哪个物体?
  • 特点:需要沿路径逐点追踪
  • 训练目标:学会复杂的连通性理解

4.2 第二阶段:SFT(监督微调)

数据拆分策略

数据类型占比训练目标
正常多模态数据70%通用多模态理解
带坐标的精细数据30%精确位置理解

专业化的模型拆分 将基座模型通过两套独立数据微调,拆分为:

  1. 框定位模型:专门处理需要输出边框的任务
  2. 点定位模型:专门处理需要输出精确点的任务
预训练基座模型 ├── SFT(框数据)→ 框定位模型 └── SFT(点数据)→ 点定位模型

拆分原因:两类问题处理方式有差异,独立训练避免冲突

4.3 第三阶段:强化学习(RL)

强化学习的核心优势

无需标注思考过程

  • 传统方式:需要标注图片 + 问题 + 思考过程 + 答案
  • 强化学习方式:只需标注图片 + 问题 + 最终答案
  • 效果:数据标注成本大幅降低,数据量快速上升
数据难度分级

让模型对同一问题回答 N 次,根据正确率分级:

难度等级定义处理方式
简单100% 正确剔除(无训练价值)
普通有对有错保留训练
困难0% 正确剔除(超出学习能力)

核心思想:找"蹦一蹦能够得着"的数据进行学习

奖励模型设计

奖励函数分为三个主要部分:

1. 格式奖励

  • 输出格式正确
  • 框之间无交集(框模型)
  • 内容不冗余

2. 质量奖励

  • 答案准确
  • 表述简洁

3. 准确性奖励

针对不同任务设计了不同的奖励计算方式

计数任务奖励

准确率 = f(预测值 ŷ, 真实值 y)

  • 完全一致:1分
  • 偏差越大:分数平滑递减
迷宫任务奖励(5个指标)
指标说明奖励逻辑
穿墙惩罚路径不能穿越墙壁穿墙则后续点无效
探索覆盖率死路迷宫是否探索完全部路径覆盖率越高越好
最终路径准确性是否正确走出迷宫终点离目标越近越好
答案正确性迷宫是否可解正确判断迷宫是否可解
综合得分前4项加权求和-
路径追踪任务奖励(4个指标)
指标说明奖励逻辑
点距离预测路径与真实路径的最近点距离距离越近越好
曲线相似度两条路径的贴合程度越贴合越好
端点精度起点终点识别准确性正确识别得高分
连续性惩罚路径连续性不连续扣分

强化学习流程图

框定位模型 ←──┐ │ │ │ 强化学习 ← 框数据 + 奖励模型 │ │ ↓ │ 点定位模型 ←──┘ ↑ └──── 点数据 + 奖励模型

4.4 第四阶段:IFT(指令微调后的微调)

模型合并

将强化学习训练后的两个专业化模型合并:

强化学习后的框模型 + 点模型 ↓ 产生样本数据 ↓ 数据分级(简单/普通/困难) ↓ 保留:普通数据 + 部分简单数据 ↓ 回训预训练模型 ↓ 统一融合模型

合并的意义

  • 保留特性:框理解和点理解能力都保留
  • 统一输出:一个模型具备两种能力
  • 能力整合:相当于"二合一"

4.5 第五阶段:蒸馏(Distillation)

教师模型(框模型 + 点模型) │ │ 观察学生模型生成的Token ↓ 学生模型(最终模型)
蒸馏过程
  1. 学生模型生成回答和数据
  2. 教师模型对同一问题进行回答
  3. 学生模型学习教师模型的概率分布
  4. 通过 KL 散度等方式优化

本质:学生写完作业交给老师批改,老师给出标准答案,学生学习老师的思路

总结

┌─────────────────────────────────────────────────────────┐ │ 预训练基座模型 │ └─────────────────────────────────────────────────────────┘ │ ┌──────────────────┴──────────────────┐ ↓ ↓ ┌───────────────────┐ ┌───────────────────┐ │ SFT(框数据) │ │ SFT(点数据) │ └───────────────────┘ └───────────────────┘ │ │ ↓ ↓ ┌───────────────────┐ ┌───────────────────┐ │ 强化学习(框) │ │ 强化学习(点) │ └───────────────────┘ └───────────────────┘ │ │ └──────────────────┬──────────────────┘ ↓ ┌───────────────────┐ │ 模型合并 (RFT) │ └───────────────────┘ │ ↓ ┌───────────────────┐ │ 产生训练数据 │ └───────────────────┘ │ ↓ ┌───────────────────┐ │ 蒸馏学习 │ └───────────────────┘ │ ↓ ┌─────────────────────────────────────────────────────────┐ │ 最终学生模型 │ └─────────────────────────────────────────────────────────┘

突破点

突破点说明
视觉原语范式从模糊自然语言描述 → 精确坐标输出,解决语义模糊性问题
Token压缩36倍通过两次压缩(3×3投影 + CSC),2916 Token → 81 Token,无性能衰减
强化学习应用无需标注思考过程,降低标注成本,数据量快速扩展
复杂任务能力迷宫导航、轨迹追踪等需要精确点级理解的任务
模型拆合策略先拆分为专业化模型,再合并融合,最终蒸馏强化

七、发展

论文发布后不久,DeepSeek 将该论文火速撤回。分析认为:

  • 该模型更多是**中间态技术探索**
  • 不是最终形态
  • 预计会推出更完善的下一代多模态模型

启示-DeepSeek 的方法论:

架构尽量清晰简单,复杂点放在训练方法上

这种方法最终训练出的模型并不简单,是一种优雅且符合最终解的技术路线

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 18:21:09

如何在Windows上快速安装APK文件:APK-Installer终极指南

如何在Windows上快速安装APK文件:APK-Installer终极指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经想在Windows电脑上运行安卓应用&#xf…

作者头像 李华
网站建设 2026/5/7 18:20:34

N_m3u8DL-RE:如何用5分钟掌握跨平台流媒体下载核心技术?

N_m3u8DL-RE:如何用5分钟掌握跨平台流媒体下载核心技术? 【免费下载链接】N_m3u8DL-RE Cross-Platform, modern and powerful stream downloader for MPD/M3U8/ISM. English/简体中文/繁體中文. 项目地址: https://gitcode.com/GitHub_Trending/nm3/N…

作者头像 李华
网站建设 2026/5/7 18:17:41

Go语言集成OpenAI API:轻量级客户端openaigo实战指南

1. 项目概述:一个轻量级的Go语言OpenAI客户端 如果你正在用Go语言开发应用,并且需要集成OpenAI的API,比如调用GPT-3.5/4、DALLE或者Whisper,那么你大概率会面临一个选择:是直接使用OpenAI官方提供的Go SDK,…

作者头像 李华
网站建设 2026/5/7 18:17:29

基于Scrcpy与OpenClaw的安卓自动化:原理、实践与进阶应用

1. 项目概述:当开源Scrcpy遇上“机械爪”如果你和我一样,经常需要在电脑上操作安卓手机,无论是为了录屏演示、自动化测试,还是单纯觉得大屏操作更舒服,那你肯定听说过Scrcpy。这个由Genymobile开源的神器,通…

作者头像 李华