摘要:2026年6月18日,DeepSeek识图模式在网页和App端正式全量上线——这是品牌首次原生搭载图像理解能力。该功能自4月底灰度测试后经历近2个月打磨,实测识别普通物体、地标建筑、数学题图效果稳定,解析速度可观并能自主验算。但人物识别仍有缺陷(认不出创始人梁文锋、拦截雷军照片)。与此同时,V4.1灰度测试显示代码能力"天差地别",知识截止日期从2025.5提升至2026.1。V4.1定档端午期间发布:原生MCP协议(准确率94.7%)、ViT-22B图像编码器、Whisper-Large-v4音频编码器、企业级工具链。510亿融资完成估值接近4000亿元,DeepSeek从"三不"铁律走向全面商业化。
什么是DeepSeek识图模式?为什么它的上线意义重大?
DeepSeek识图模式是DeepSeek大模型原生搭载的图像理解功能,允许用户上传图片后由AI自动识别、解析、推理。2026年6月18日,DeepSeek多模态研究员Xiaokang Chen确认识图模式已在网页和App端正式全量上线——这是DeepSeek品牌首次原生搭载图像理解能力(来源:新浪科技,2026-06-18)。
这看似只是一个功能上线,但其背后意义远超表面:
- 国产顶级大模型终于"睁眼看世界":在此之前,GPT-5.5、Gemini 3.5 Pro、Claude Opus 4.8早已具备多模态能力,而DeepSeek V4发布时虽短暂上线识图,却因第三方反代滥用和算力不足等问题迅速下线——国产顶级模型的"视觉盲区"终于补上
- V4.1多模态版本越来越近:识图模式的回归与升级,直接预示着V4.1完整多模态版本即将发布
- 510亿融资为多模态提供算力底气:6月16日完成510亿首轮融资(估值4000亿),资本支撑让DeepSeek有了"重新睁眼"的算力基础
核心结论:DeepSeek识图模式全量上线不仅是"补功能"——它是V4.1多模态版本发布前的预热信号,是510亿融资后算力底气的外在体现,更是国产大模型从"单模态追赶"到"全模态竞争"的关键拐点。DeepSeek终于从"只能读文字"进化到"能看图、能听音、能用工具"。
一、识图模式全量上线:从灰度到全量的2个月打磨
1.1 上线历程
DeepSeek识图模式的上线历程曲折而典型:
| 时间 | 事件 | 状态 |
|---|---|---|
| 2026-04-19 | 识图模式首次灰度测试上线 | 灰度测试 |
| 2026-04-30 | 因第三方反代滥用+算力不足下线 | 功能暂停 |
| 2026-06-15 | 灰度测试重新出现 | 二次灰度 |
| 2026-06-18 | 全量上线(网页+App) | 正式发布 |
从灰度到全量经历了近2个月的打磨——这段时间内DeepSeek显然在解决两个核心问题:反代滥用的防护机制和识图模型的精度提升(来源:新浪科技,2026-06-18)。
1.2 实测表现
全量上线后的实测表现呈现"亮点+缺陷"的双面特征:
亮点:
- ✅ 识别普通物体、地标建筑效果稳定
- ✅ 数学题图解析速度可观,还能自主完成验算
- ✅ 代码截图识别能力显著提升(实测可解析日文技术文档截图)
- ✅ 整体识图响应速度较快
缺陷:
- ❌ 无法准确识别创始人梁文锋——多次测试错认成其他企业家(推测原因:梁文锋极度低调,网络公开照片极少)
- ❌ 拒绝接收小米雷军照片——直接拦截不让发送(来源:新浪科技,2026-06-18)
1.3 人物识别的双重"失误"
梁文锋被错认和雷军照片被拦截,这两个看似荒诞的"失误"实际上反映了DeepSeek在人物识别上的安全策略优先于识别精度:
- 梁文锋错认:训练素材稀缺导致特征不稳定,这是技术问题
- 雷军拦截:主动拦截特定人物照片,这是安全策略问题——DeepSeek显然在人物识别场景设置了更严格的过滤机制
这体现了国产大模型在多模态安全方面的审慎态度——宁可"认不出"或"拒接收",也不愿因人物识别引发潜在风险。
二、V4.1灰度测试:代码能力"天差地别"
2.1 灰度测试发现
6月15日,Linux.do社区网友发现DeepSeek网页版疑似上架了V4.1 Flash模型(来源:新浪财经,2026-06-15):
核心变化:
| 维度 | V4(当前) | V4.1 Flash(灰度) | 变化幅度 |
|---|---|---|---|
| 知识截止日期 | 2025年5月 | 2026年1月 | +8个月 |
| 代码能力 | 基准 | "天差地别"的大幅提升 | 显著增强 |
| SVG/图形生成 | 基准 | 鸬鹚SVG测试明显更好 | 提升 |
网友评价V4.1的代码能力提升"天差地别"——这不是渐进式优化,而是质的飞跃。
2.2 知识截止日期的意义
知识截止日期从2025年5月提升到2026年1月,意味着V4.1的训练数据覆盖了2025年下半年的大量技术进展——包括:
- 2025年下半年的开源项目更新
- 2025年底至2026年初的技术文档和API变更
- 更新的安全漏洞和补丁信息
这对于代码生成和编程辅助场景至关重要——"不知道2025年10月的新API"是当前V4的一大痛点,V4.1将彻底解决。
三、V4.1三大核心升级:原生MCP+全模态+企业级工具链
3.1 原生MCP协议支持
V4.1最重磅的升级是原生MCP协议支持——无需外部适配层,模型本身即具备MCP工具调用能力(来源:CSDN,2026-06-15)。
技术对比:
| 维度 | V4(当前) | V4.1(即将) |
|---|---|---|
| MCP调用方式 | 外部适配层桥接 | 原生内置 |
| 工具调用准确率 | ~85% | 94.7% |
| 工具调用延迟 | 3.2秒(适配层开销) | 1.1秒(原生直达) |
| 多工具并行 | 有限支持 | 原生并行调度 |
原生MCP意味着V4.1是中国首个原生支持MCP协议的大模型——这使DeepSeek在Agent生态构建上领先于所有国产竞品。
V4.1的MCP训练采用三阶段方案:
- 协议结构化学习:让模型理解MCP协议的JSON结构和调用规范
- 意图对齐:将用户自然语言意图映射到具体的MCP工具调用
- 多工具并行调度:训练模型在单次推理中并行调度多个工具
3.2 全模态能力:ViT-22B + Whisper-Large-v4
V4.1将首次完整覆盖文本、图像、音频三模态输入:
| 模态 | 编码器 | 参数量 | 功能 |
|---|---|---|---|
| 文本 | DeepSeek原生LLM | 1.6T MoE | 自然语言理解与生成 |
| 图像 | ViT-22B | 22B | 图像理解、OCR、图表解析 |
| 音频 | Whisper-Large-v4 | ~1.5B | 语音转文本、音频理解 |
ViT-22B是目前开源视觉编码器中参数量最大的版本之一,远超常见的ViT-L/14(304M)——这意味着V4.1在图像理解精度上将大幅超越当前识图模式的水平。
3.3 企业级工具链
V4.1将配套推出企业级工具链集成(来源:The Information,2026-05-08):
- 代码仓库集成:直接读取GitHub/GitLab仓库代码
- 项目管理集成:与Jira/TAPD等项目工具联动
- 数据分析集成:SQL生成+数据库直连
- 安全审计集成:CVE漏洞扫描与修复建议
四、510亿融资:从「三不」铁律到全面商业化
4.1 融资详情
6月16日,DeepSeek完成约510亿元首轮融资(来源:zglg.work,2026-06-18):
| 投资方 | 投资金额 | 类型 |
|---|---|---|
| 梁文锋(创始人) | 200亿元 | 自掏腰包 |
| 腾讯 | 100亿元 | 战略投资 |
| 宁德时代 | 100亿元 | 战略投资 |
| IDG资本 | — | 财务投资 |
| Monolith Management | — | 财务投资 |
| 估值 | 接近4000亿元 | 投后估值 |
梁文锋自掏200亿——这是中国大模型创始人中最大的个人出资额。他对团队承诺:坚持开源+AGI目标不变(来源:新浪财经,2026-05-22)。
4.2 融资金用途
60%投入研发(算力+多模态+MCP),30%用于生态建设(开源社区+企业客户),10%用于运营周转(来源:CSDN,2026-06-15)。
4.3 从「三不」到全面商业化
DeepSeek曾以"三不"铁律著称——不融资、不商业化、不路演。如今全面打破:
| 阶段 | 时间 | 状态 | 关键事件 |
|---|---|---|---|
| 「三不」期 | 2023-2025 | 坚持 | 不融资、开源免费 |
| 转折点 | 2026-05-09 | 启动 | 500亿融资官宣、识图内测开放 |
| 全面商业化 | 2026-06-16 | 完成 | 510亿融资完成、V4-Pro永久降价75% |
| V4.1发布 | 2026-06端午 | 即将 | 原生MCP+全模态+企业级工具链 |
五、国产大模型多模态竞赛格局
5.1 2026年6月国产大模型多模态对比
| 模型 | 图像理解 | 音频理解 | MCP支持 | 上下文 | 定价 |
|---|---|---|---|---|---|
| DeepSeek V4.1 | ViT-22B ✅ | Whisper-v4 ✅ | 原生✅ | 128K+ | 极低 |
| MiniMax M3 | 多模态MoE ✅ | — | 适配层 | 1M | 低 |
| Kimi K2.7 Code | — | — | — | 256K | MIT开源 |
| GLM-5.2 | 图像 ✅ | — | — | 1M | MIT开源 |
| Qwen3.7-Max | 多模态 ✅ | — | — | — | 中 |
| 蚂蚁百灵Ring-2.6-1T | — | — | — | — | — |
关键差异化:DeepSeek V4.1是国产首个**原生MCP+全模态(文本+图像+音频)**的大模型——这一组合在国产竞品中尚无先例。
5.2 识图模式的战略意义
识图模式全量上线不仅是功能补齐,更是V4.1多模态发布前的用户教育+压力测试:
- 用户教育:让2亿+DeepSeek用户提前体验图像理解交互,降低V4.1发布时的认知门槛
- 压力测试:全量上线后的并发请求验证了ViT编码器+LLM联合推理的工程稳定性
- 数据收集:真实用户场景的识图反馈将为V4.1的ViT-22B训练提供宝贵数据
FAQ
Q1:DeepSeek识图模式和V4.1的识图有什么区别?
A:当前识图模式使用的是V4级别的视觉编码器(技术细节未公开),V4.1将升级为ViT-22B——参数量提升数十倍,图像理解精度将大幅跃升。当前版本更像"预热",V4.1才是"正式版本"。
Q2:为什么识图模式4月底下线了近2个月?
A:两个原因:第三方反代滥用导致算力被"薅羊毛";原有识图技术存在精度限制。510亿融资后算力问题有了底气,2个月打磨解决了技术限制。
Q3:原生MCP和适配层MCP有什么区别?
A:适配层MCP需要外部中间件将LLM输出翻译为MCP调用格式(准确率约85%,延迟约3.2秒);原生MCP让模型直接生成MCP调用(准确率94.7%,延迟1.1秒),无需中间件。
Q4:梁文锋自掏200亿意味着什么?
A:这是中国大模型创始人最大的个人出资额,表明梁文锋对DeepSeek的控制权和信心。他承诺坚持开源+AGI目标,但510亿融资意味着商业化路径已经开启。
Q5:V4.1什么时候正式发布?
A:据官方规划和媒体报道,V4.1定档端午期间(2026年6月19-22日)发布。识图模式全量上线+灰度测试+代码能力增强都指向端午发布的倒计时信号。
参考资料
- 新浪科技 (2026-06-18): “识图模式重磅回归 多模态DeepSeek V4.1越来越近了”
- 新浪科技 (2026-06-18): “DeepSeek上线识图模式:认不出梁文锋 还拒绝了雷军的照片”
- 新浪财经 (2026-06-15): “DeepSeek V4.1灰度测试:代码能力大提升 天差地别”
- CSDN (2026-06-15): “DeepSeek V4.1 定档6月中旬发布:原生MCP+全模态”
- The Information (2026-05-08): “DeepSeek V4.1定档6月发布,MCP+多模态”
- 新浪财经 (2026-05-22): “DeepSeek 500亿融资梁文锋承诺开源”
- zglg.work (2026-06-18): “2026-06-18 AI国内外新闻”
- Bilibili (2026-06-18): “DeepSeek识图模式今天全量上线”