DeepSeek 深夜发布 Engram：比 MoE 更节能的突破，V4 架构初露端倪-程序员充电站

一向低调的DeepSeek，在凌晨悄然更新了 GitHub。

没有发布会，没有营销话术，只有一篇论文和一个新模块的源码——Engram。

更耐人寻味的是，这篇论文的作者列表中，再次出现了梁文锋的名字。

论文标题很“工程味”：

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

一句话概括：这是一次试图把「记忆」从神经网络里拆出来的架构实验。

而不少开发者已经开始猜测——这可能不是一篇“孤立论文”，而是 DeepSeek 下一代模型（V4）的重要技术预告。

一、一个长期被忽视的问题：大模型到底在“算什么”？

当前主流的大模型，无论是 Dense Transformer，还是 MoE，本质上都在做同一件事：

用大量连续矩阵计算，去完成两类完全不同的工作。

第一类，是事实性记忆。例如：

法国的首都是哪
某个 API 的固定用法
常见代码模板、语法结构

这些问题，本质上更接近查表。

第二类，是组合推理与计算。例如：

多步逻辑推导
复杂上下文理解
抽象概念的重新组合

这才是真正需要神经网络“算”的地方。

问题在于：我们一直在用同一套高成本的神经计算，同时承担这两种职责。

MoE 解决了什么？它解决的是：

参数规模 ≠ 计算量必须线性增长

但 DeepSeek 的观察更进一步：

即便在 MoE 中，用“专家网络”去记忆固定模式，仍然是一种浪费。

于是 Engram 出现了。

二、Engram 在做什么？一句话：该查的，别算

“Engram” 是神经科学中的术语，意为记忆痕迹。

在这篇论文里，它被实现为一个可扩展、可学习、可条件触发的记忆模块。

核心思想并不复杂，但非常“反直觉”：

把一部分模型能力，从连续神经计算，转移到确定性查找。

具体来说，Engram 做了三件事：

第一，它不再试图“理解”所有 token。而是将输入切分成N-gram 片段（连续 token 组合）。

第二，这些 N-gram 会通过哈希映射，直接定位到一个巨大的 Lookup Table。

第三，查找是确定性的、O(1) 复杂度。不管这个表里存了多少“记忆”，一次检索的成本几乎不变。

这意味着什么？

模型可以用极低的算力，调用海量“已知模式”。

三、一条新的稀疏性轴：它和 MoE 并不冲突

论文里有一句很关键的话：

Engram introducesa new axis of sparsity.

这句话的分量不小。

MoE 的稀疏性，是：

条件计算
只激活少量专家网络

Engram 的稀疏性，是：

条件查找
只命中极少量记忆条目

两者解决的是不同问题。

可以这样理解：

模块	在干什么
Engram	快速回忆“我以前见过什么”
MoE / Transformer	认真思考“现在该怎么推理”

在架构上，Engram 被放在较早的层级，用于模式重构与事实补全；而深层网络，终于可以把算力集中在真正困难的推理任务上。

四、为什么工程师会对它这么兴奋？

在 Reddit、X 等社区里，技术讨论的焦点并不在“效果提升了多少”，而在几个更底层的点上：

第一，确定性寻址。哈希 + 查表意味着：

逻辑清晰
行为稳定
可预测

这对工程系统来说，价值极高。

第二，潜在的硬件友好性。有开发者指出：

Engram 的查找表，理论上可以放在主机内存中，而不是全部压在 GPU 上。

这让“本地部署大模型”的想象空间突然变大了。

第三，它并不依赖新奇技巧。 N-gram、哈希、查表—— 这些都是 NLP 领域的“老东西”。

但 DeepSeek 做的，是把它们重新放回现代 LLM 架构的正确位置。

五、V4 会用吗？没人官宣，但信号已经很明显

DeepSeek 并没有说 Engram 会直接进入 V4。

但社区的推断并非空穴来风：

这是一个可独立插拔的模块
它解决的是长期存在的结构性问题
论文中大量讨论的是规模化行为，而非小模型技巧

更重要的是，这种设计理念，和 DeepSeek 过去的路线高度一致：

不盲目堆参数，而是不断重构“算力应该花在哪里”。

如果说 V2 / V3 的关键词是MoE 扩展效率，那么 Engram 暗示的，是下一阶段的主题：

记忆与推理的结构性分离。

六、人工智能测试开发训练营

霍格沃兹测试开发学社做课程时，我们很少从“模型参数”讲起。

原因很简单：

大多数工程师真正缺的，不是论文阅读能力，而是把 AI 变成系统能力的路径。

无论是 Agent、RAG，还是今天看到的 Engram，本质上都在指向同一个方向：

AI 已经进入“工程复杂度主导”的阶段。

这也是我们课程一直强调的重点：

AI 系统如何拆模块
推理链路如何可控
复杂能力如何工程化落地

不是追某一个模型版本，而是建立长期可迁移的能力结构。

写在最后

Engram 并不是在“否定神经网络”。

它做的，只是一个极其工程化、但极其重要的判断：

不是所有智能，都值得用矩阵乘法来实现。

当模型规模继续扩大，也许真正决定上限的，不再是参数数量，而是——你是否知道，哪些东西该算，哪些东西只需要记住。

这条路，一旦走通，影响的不会只是 DeepSeek。

DeepSeek 深夜发布 Engram：比 MoE 更节能的突破，V4 架构初露端倪

一、一个长期被忽视的问题：大模型到底在“算什么”？

二、Engram 在做什么？一句话：该查的，别算

三、一条新的稀疏性轴：它和 MoE 并不冲突

四、为什么工程师会对它这么兴奋？

五、V4 会用吗？没人官宣，但信号已经很明显

六、人工智能测试开发训练营

写在最后

告别传统软件束缚：浏览器端专业PPT制作实战全解析

《Effective Go》中文版：Go语言编程的完整教程与最佳实践指南

终极Fortran开发环境配置指南：2024年VSCode完全解决方案

TurboDiffusion物体动作描述：动词使用技巧实战教学

RexUniNLU医疗智能：临床数据挖掘

Cursor Pro功能免费使用完整教程：解锁AI编程工具的终极方案