news 2026/4/18 7:51:18

DeepSeek 发布全新论文,一文读懂 Engram!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek 发布全新论文,一文读懂 Engram!

在大模型的发展历程中,一个长期困扰研究者效率的难题是:模型往往需要消耗昂贵的计算资源去重建那些本可以通过简单查询获得的静态知识。

近日,DeepSeek 团队发布重磅论文Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models,由梁文锋等研究者署名,宣布为大模型架构开辟了一个全新的稀疏性维度:条件记忆(Conditional Memory)

为什么 MOE 还不够

长期以来,MoE(专家混合模型)是大模型稀疏性的事实标准。它通过条件计算平衡了模型容量与计算成本。但 DeepSeek 指出,语言信号具有高度的异质性:

  • 动态推理:需要深度的神经计算。

  • 静态知识:如命名实体、公式,本应通过查找直接获取。

目前的 Transformer 缺乏原生的查找原语,被迫用昂贵的算力去运行时重建静态表,这极大地浪费了序列深度。

为此,DeepSeek 推出了Engram模块——一个将经典 N-gram 嵌入现代化,实现O(1) 常数级快速查找的高效知识外挂。

论文四个重点划线:

稀疏分配:发现 U 形扩展规律

研究团队为量化 Engram 与 MoE 之间的协同,论文提出稀疏性的分配问题。这也是该论文的核心。并通过大量实验发现了一个显著的U 形扩展规律(U-shaped scaling law)

  • 权衡关系:纯 MoE 架构缺乏专用内存,迫使模型通过计算低效重构静态模式;而过度分配给记忆则会损害模型的动态推理能力 。

  • 最佳平衡点:当大约 20%-25% 的稀疏参数预算分配给 Engram 时,模型性能达到峰值。例如在 10B 参数规模下,验证损失从 1.7248 降至 1.7109。

基于前述容量分配规律,研究团队训练了Engram-27B模型(总参数量 26.7B,激活参数 3.8B)。在该模型中,原 MoE-27B 的专家数量从 72 个减少到 55 个,同时将释放出的参数重新分配到 5.7B 参数的 Engram 内存中,使容量分配比例达到 ρ=74.3%\rho = 74.3\%ρ=74.3%。

经过预训练后,Engram-27B 在保持与 MoE-27B 相同参数规模和 FLOPs 的前提下,在知识与推理、通用推理、代码以及数学等多个任务上均表现出明显提升。

实证验证:全维度性能飞跃

在严格的等参数(iso-parameter)和等浮点运算量(iso-FLOPs)约束下,Engram-27B 模型在知识、推理、代码和数学等领域均表现出相较 MoE 基线的一致性提升。

预训练性能比较:Dense 模型、MoE 模型与 Engram 模型(来源:论文)

  • 知识储备:MMLU 提升 3.4 分,CMMLU 提升 4.0 分 。

  • 通用推理:最令人惊喜的是,复杂推理(BBH)提升了 5.0 分,科学推理(ARC-C)提升 3.7 分。

  • 代码与数学:HumanEval (+3.0) 和 MATH (+2.4) 同样显著提升。

  • 长文本能力:在“大海捞针”(Multi-Query NIAH)测试中,准确率从 84.2% 飙升至 97.0%。

机制分析:释放有效深度

为什么记性好能让逻辑更强?通过 LogitLens 和 CKA 分析发现Engram 接管了早期层对静态模式的重建工作。当底层不再需要浪费算力去死记硬背时,模型保留了更多的Effective Depth(有效深度)来处理深层语义,让大脑全身心投入高阶推导。
  • 底层减负:Engram 承担了早期层对静态模式(如固定搭配、实体名)的重建工作 。

  • 提升有效深度(Effective Depth):当底层不再浪费算力去死记硬背时,模型实际上获得了更深的表示能力来处理深层语义。

  • 解放注意力:通过将局部依赖交给 Engram 处理,模型释放了宝贵的注意力容量来聚焦全局上下文。

系统效率:突破显存天花板

在工程落地层面,Engram 展现了极致的基础设施感知特性 :

  • 确定性寻址:由于检索索引仅取决于输入序列,系统可以在计算当前层时,异步预取下一层所需的记忆向量 。

  • 打破显存瓶颈:DeepSeek 演示了将高达 100B 参数的嵌入表卸载到廉价的 CPU 内存中。

  • 极低开销:这种跨硬件搬运带来的额外推理延迟低于 3%。这为未来挂载 TB 级别的海量记忆库铺平了道路。

值得关注的是,论文最后明确指出,条件记忆将成为下一代稀疏模型中不可或缺的核心建模组件。

据外媒报道,DeepSeek 计划于 2 月发布其新一代旗舰 AI 模型DeepSeek V4。并且 V4 在多个关键指标上表现优异,与现有主流模型相比展现出一定优势,因此让人不禁拭目以待这款新旗舰的正式亮相。

参考论文:

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf


DeepSeek 图书推荐

《一本书玩转 DeepSeek》

陈云飞(@花生)|著

超牛的 DeepSeek 应用书,作者是 AI 大佬花生,全书涉及 13 大场景,90 个实用案例,7 大技巧,4 大王炸组合,内容涵盖高效办公、副业变现、数据分析、企业级 DeepSeek 使用方案等等。带你轻松掌握 DeepSeek 核心技巧。

《图解DeepSeek技术》

[沙特] 杰伊·阿拉马尔, [荷] 马尔滕·格鲁滕多斯特 | 著

李博杰 孟佳颖 | 译

大模型领域知名专家 Jay & Maarten 作品。近 120 幅全彩插图通俗解读,不枯燥。从推理模型原理到 DeepSeek-R1 训练。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 3:48:30

编程助手搞得我都不会写代码了,,,

随着AI 编程助手兴起,或多或少接触到一些编程助手,我的公众号之前也有发过一些类似的编程助手,比如「商汤科技的小浣熊」,还有字节旗下的 trae,用的编程助手挺多的,但是我最喜欢的方式还是 vscode 插件的形…

作者头像 李华
网站建设 2026/4/18 3:49:47

载入史册的哈军工计算机“集结号”

徐祖哲计算机六十年2026年1月15日 08:35 北京 中国计算机事业70年历程,在发展早期的重要节点留下了具有历史意义的多个集体合影:1955年8/9月,中科院物理所核科学家与计算机科学家合影;1958年8月1日,103电子计算机调试成…

作者头像 李华
网站建设 2026/4/18 3:50:19

技术日报|Claude Code超级能力登顶,今日狂揽2000+星标

🌟 TrendForge 每日精选 - 发现最具潜力的开源项目 📊 今日共收录 10 个热门项目,涵盖 50 种编程语言🌐 智能中文翻译版 - 项目描述已自动翻译,便于理解🏆 今日最热项目 Top 10 🥇 obra/superpo…

作者头像 李华
网站建设 2026/4/6 5:39:21

RyTuneX(Win10/11系统优化工具)

RyTuneX是一款专为Windows 10和Windows 11系统打造的系统优化工具,基于WinUI 3框架构建,旨在帮助用户优化系统资源,提升设备性能,同时增强隐私保护。 软件功能 系统优化:支持一键性能调整,可禁用Superfetc…

作者头像 李华
网站建设 2026/4/3 4:52:56

OTG最小改动!

如果要增加一个升级系统app,系统代码里有源代码直接改吗?就是最小改动的办法。OTA/Fota升级。 U盘刷机,工程测试程序好像有一个U盘更新OTA,但是需要插入U盘,我们设备是一个电源口,就是USB口,无法直接插USB读取文件的。那么这个需求要怎么加,最小改动? 如果要增加一个升…

作者头像 李华
网站建设 2026/4/8 3:08:33

计算机毕业设计|基于springboot + vue校园跑腿系统(源码+数据库+文档)

校园跑腿 目录 基于springboot vue校园跑腿系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue校园跑腿系统 一、前言 博主介绍:✌️大…

作者头像 李华