news 2026/4/18 8:54:44

DeepSeek 深夜发布 Engram:比 MoE 更节能的突破,V4 架构初露端倪

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
DeepSeek 深夜发布 Engram:比 MoE 更节能的突破,V4 架构初露端倪

一向低调的DeepSeek,在凌晨悄然更新了 GitHub。

没有发布会,没有营销话术,只有一篇论文和一个新模块的源码——Engram

更耐人寻味的是,这篇论文的作者列表中,再次出现了梁文锋的名字。

论文标题很“工程味”:

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

一句话概括:这是一次试图把「记忆」从神经网络里拆出来的架构实验。

而不少开发者已经开始猜测——这可能不是一篇“孤立论文”,而是 DeepSeek 下一代模型(V4)的重要技术预告。


一、一个长期被忽视的问题:大模型到底在“算什么”?

当前主流的大模型,无论是 Dense Transformer,还是 MoE,本质上都在做同一件事:

用大量连续矩阵计算,去完成两类完全不同的工作。

第一类,是事实性记忆。 例如:

  • 法国的首都是哪

  • 某个 API 的固定用法

  • 常见代码模板、语法结构

这些问题,本质上更接近查表

第二类,是组合推理与计算。 例如:

  • 多步逻辑推导

  • 复杂上下文理解

  • 抽象概念的重新组合

这才是真正需要神经网络“算”的地方。

问题在于:我们一直在用同一套高成本的神经计算,同时承担这两种职责。

MoE 解决了什么? 它解决的是:

参数规模 ≠ 计算量必须线性增长

但 DeepSeek 的观察更进一步:

即便在 MoE 中,用“专家网络”去记忆固定模式,仍然是一种浪费。

于是 Engram 出现了。


二、Engram 在做什么?一句话:该查的,别算

“Engram” 是神经科学中的术语,意为记忆痕迹

在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块

核心思想并不复杂,但非常“反直觉”:

把一部分模型能力,从连续神经计算,转移到确定性查找。

具体来说,Engram 做了三件事:

第一,它不再试图“理解”所有 token。 而是将输入切分成N-gram 片段(连续 token 组合)。

第二,这些 N-gram 会通过哈希映射,直接定位到一个巨大的 Lookup Table。

第三,查找是确定性的、O(1) 复杂度。 不管这个表里存了多少“记忆”,一次检索的成本几乎不变。

这意味着什么?

模型可以用极低的算力,调用海量“已知模式”。


三、一条新的稀疏性轴:它和 MoE 并不冲突

论文里有一句很关键的话:

Engram introducesa new axis of sparsity.

这句话的分量不小。

MoE 的稀疏性,是:

  • 条件计算

  • 只激活少量专家网络

Engram 的稀疏性,是:

  • 条件查找

  • 只命中极少量记忆条目

两者解决的是不同问题。

可以这样理解:

模块

在干什么

Engram

快速回忆“我以前见过什么”

MoE / Transformer

认真思考“现在该怎么推理”

在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络,终于可以把算力集中在真正困难的推理任务上。


四、为什么工程师会对它这么兴奋?

在 Reddit、X 等社区里,技术讨论的焦点并不在“效果提升了多少”,而在几个更底层的点上:

第一,确定性寻址。 哈希 + 查表意味着:

  • 逻辑清晰

  • 行为稳定

  • 可预测

这对工程系统来说,价值极高。

第二,潜在的硬件友好性。 有开发者指出:

Engram 的查找表,理论上可以放在主机内存中,而不是全部压在 GPU 上。

这让“本地部署大模型”的想象空间突然变大了。

第三,它并不依赖新奇技巧。 N-gram、哈希、查表—— 这些都是 NLP 领域的“老东西”。

但 DeepSeek 做的,是把它们重新放回现代 LLM 架构的正确位置


五、V4 会用吗?没人官宣,但信号已经很明显

DeepSeek 并没有说 Engram 会直接进入 V4。

但社区的推断并非空穴来风:

  • 这是一个可独立插拔的模块

  • 它解决的是长期存在的结构性问题

  • 论文中大量讨论的是规模化行为,而非小模型技巧

更重要的是,这种设计理念,和 DeepSeek 过去的路线高度一致:

不盲目堆参数,而是不断重构“算力应该花在哪里”。

如果说 V2 / V3 的关键词是MoE 扩展效率, 那么 Engram 暗示的,是下一阶段的主题:

记忆与推理的结构性分离。


六、人工智能测试开发训练营

霍格沃兹测试开发学社做课程时,我们很少从“模型参数”讲起。

原因很简单:

大多数工程师真正缺的,不是论文阅读能力,而是把 AI 变成系统能力的路径。

无论是 Agent、RAG,还是今天看到的 Engram,本质上都在指向同一个方向:

AI 已经进入“工程复杂度主导”的阶段。

这也是我们课程一直强调的重点:

  • AI 系统如何拆模块

  • 推理链路如何可控

  • 复杂能力如何工程化落地

不是追某一个模型版本,而是建立长期可迁移的能力结构。


写在最后

Engram 并不是在“否定神经网络”。

它做的,只是一个极其工程化、但极其重要的判断:

不是所有智能,都值得用矩阵乘法来实现。

当模型规模继续扩大, 也许真正决定上限的,不再是参数数量, 而是——你是否知道,哪些东西该算,哪些东西只需要记住。

这条路,一旦走通,影响的不会只是 DeepSeek。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 22:57:14

告别传统软件束缚:浏览器端专业PPT制作实战全解析

告别传统软件束缚:浏览器端专业PPT制作实战全解析 【免费下载链接】PPTist 基于 Vue3.x TypeScript 的在线演示文稿(幻灯片)应用,还原了大部分 Office PowerPoint 常用功能,实现在线PPT的编辑、演示。支持导出PPT文件…

作者头像 李华
网站建设 2026/4/16 17:57:37

《Effective Go》中文版:Go语言编程的完整教程与最佳实践指南

《Effective Go》中文版:Go语言编程的完整教程与最佳实践指南 【免费下载链接】effective-go-zh-en 项目地址: https://gitcode.com/gh_mirrors/ef/effective-go-zh-en 《Effective Go》中文版是一个精心打造的中英双语开源学习项目,它将Google官…

作者头像 李华
网站建设 2026/4/18 5:28:08

终极Fortran开发环境配置指南:2024年VSCode完全解决方案

终极Fortran开发环境配置指南:2024年VSCode完全解决方案 【免费下载链接】vscode-fortran-support Fortran language support for Visual Studio Code 项目地址: https://gitcode.com/gh_mirrors/vs/vscode-fortran-support 还在为Fortran开发环境的配置而烦…

作者头像 李华
网站建设 2026/4/10 10:25:54

TurboDiffusion物体动作描述:动词使用技巧实战教学

TurboDiffusion物体动作描述:动词使用技巧实战教学 1. 引言 1.1 技术背景与应用价值 随着AIGC技术的快速发展,视频生成正从“能生成”向“高效生成”演进。传统扩散模型在视频生成任务中面临计算成本高、推理时间长等瓶颈,严重制约了其在创…

作者头像 李华
网站建设 2026/4/16 17:58:54

RexUniNLU医疗智能:临床数据挖掘

RexUniNLU医疗智能:临床数据挖掘 1. 引言 随着电子病历(EMR)系统的普及,医疗机构积累了海量的非结构化文本数据。如何从这些临床记录中高效提取关键医学信息,成为提升诊疗效率、支持科研分析和优化医院管理的核心挑战…

作者头像 李华
网站建设 2026/4/3 6:40:33

Cursor Pro功能免费使用完整教程:解锁AI编程工具的终极方案

Cursor Pro功能免费使用完整教程:解锁AI编程工具的终极方案 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached you…

作者头像 李华