何恺明首个语言模型：不走GPT老路，105M参数干翻主流-程序员充电站

何恺明首个语言模型：不走GPT老路，105M参数干翻主流

ELF：嵌入式语言流，连续扩散路线第一次真正跑通了

何恺明团队放出首个语言模型ELF——不走GPT自回归老路，把扩散过程全留在连续空间，只在最后一步变回词。结果：105M参数、45B训练token、32步采样，正面干翻用500B+ token训练的主流模型。

01 | 这事为什么值得关注？

何恺明，深度学习圈的传奇人物。ResNet（残差网络）第一作者，这篇论文至今是AI领域被引用次数最多的论文之一，奠定了现代深度学习的地基。

他在2024年从Meta AI跳槽到MIT，当Distinguished Scientist（杰出科学家）。去MIT之后他一直在搞生成模型，但之前全是视觉方向——分形生成模型（FractalMAR）、均值流（MeanFlow）、双向归一化流（BiFlow）。

这次不一样了：他带队做语言模型了。

而且做的不是大家熟悉的"预测下一个词"（next token prediction）的自回归范式——那条路由GPT走通、现在几乎所有大模型都在用的路线。

他选的是另一条路：扩散语言模型（Diffusion Language Model, DLM），而且他坚持走"连续派"，不像别人停留在离散token空间里做扩散。

02 | 扩散语言模型到底是什么路？

要理解ELF，得先搞清楚现在语言模型的两大技术路线——

路线一：自回归（Autoregressive，AR）
就是GPT那套，一个词一个词地往外蹦。好处是稳定、好训练；坏处是慢，必须串行生成，没法并行。

路线二：扩散语言模型（DLM）
借鉴图像生成里的扩散模型思路：从一堆噪声开始，一步步"去噪"，最后得到一段完整的文本。理论上可以并行解码，速度远超自回归。

DLM内部又分两派：

离散派（Discrete DLM）
：直接在token空间里做扩散，比如MDLM、LLaDA、Duo。这条路近年来是主流，效果也更好。
连续派（Continuous DLM）
：先把token变成连续的向量（embedding），在连续空间里去噪，最后再变回token。理论上更优雅，但实际效果一直落后离散派。

何恺明的判断：不是"语言必须离散"，而是前人没把连续路线走到底。

ELF的核心思路只有一句话：把扩散过程全留在连续空间，只在最后一步才变回token。

03 | ELF到底做了什么？

我尽量用人话讲清楚这个模型的设计。

第一步：把词变成连续向量
输入一句话，先切成token，再通过T5预训练编码器，映射成连续的embedding（向量表示）。这个编码器只在训练时用，推理时不需要额外模块。

第二步：在连续空间里做Flow Matching
这是ELF的核心。定义一个从噪声到干净数据的连续轨迹：t=0时是高斯噪声，t=1时是干净的embedding，中间状态是两者的线性插值（rectified flow）。

重点来了：ELF不直接预测速度场v，而是沿用了何恺明团队半年前论文《Back to Basics》的思路——直接预测干净embedding x（x-prediction）。训练目标就是最小化预测embedding和真实embedding之间的均方误差（MSE）。

第三步：最后一步才变回token
生成语言最终还是要输出离散token。ELF只在最后一个时间步（t=1）才把连续embedding通过可学习的unembedding矩阵投影成token logits，再通过argmax输出最终token。

关键设计：去噪和解码是同一个网络，靠一个二值mode token切换（去噪模式/解码模式），参数完全共享。不需要额外训练一个独立decoder！

04 | 实验结果：十分之一训练量，干翻主流

这部分是ELF最硬的地方。我列几个关键数字：

模型	参数	训练token	采样步数	生成困惑度↓
MDLM（离散派SOTA）	109M	~500B	1024步	~28
Duo（离散派）	124M	~500B	1024步	~27
ELF（连续派）	105M	45B	32步	24

生成困惑度（Perplexity）越低越好，代表生成文本越接近人类写的语料。ELF只用了十分之一的训练数据、三十二分之一的采样步数，就把困惑度压到了24，全面优于离散派对手。

条件生成任务：

WMT14德→英翻译
：ELF取得26.4 BLEU，超过自回归baseline（25.2）和MDLM（18.4）、CDCD（24.9）
XSum摘要任务
：ROUGE-1/ROUGE-2/ROUGE-L三项指标均居首位

核心结论：连续扩散语言模型不是不能打，而是以前没把"连续"这件事做到底。ELF第一次在质量、速度、训练成本三个维度同时赢了离散派。

05 | 作者阵容：MIT的"梦之队"

这篇论文的作者阵容可以用"豪华"形容：

共同一作1：胡珂雅
MIT EECS一年级博士生，何恺明在MIT带的第一批博士生之一，由恺明和Jacob Andreas联合指导。本科毕业于上交ACM班。在恺明MIT主页的Grad students列表里排第一位，堪称大师姐。

共同一作2：Linlu Qiu
MIT博士生，师从Yoon Kim。本科毕业于香港大学，硕士毕业于Georgia Institute of Technology，此前还在Google做过AI Resident。前不久刚和恺明团队合作发表了CVPR 2026论文《ARC Is a Vision Problem!》。

作者3：赵瀚宏（Hanhong Zhao）
MIT本科生，高中就读人大附中，国际物理奥林匹克竞赛（IPhO）金牌得主。少年班级别的天才。

作者4：陆伊炀
清华姚班大二本科生，目前在MIT CSAIL实习，导师何恺明。高中物理竞赛生，2022年全国中学生物理竞赛（CPhO）金牌（江苏第一、全国第九）。

何恺明
不用多介绍了。ResNet第一作者，CV领域传奇人物，现任MIT Distinguished Scientist、Google DeepMind Distinguished Scientist（兼职）。

06 | 这事对普通用户有什么影响？

说实话，这篇论文目前还是研究机构在玩，离直接能用的产品还有距离。但它指向的几个方向，值得关注：

1. 并行解码可能真的可行
自回归模型（GPT）必须一个词一个词蹦，扩散模型理论上可以并行生成，速度快得多。如果这条路线成熟，将来AI回复速度可能提升5-10倍。

2. 小模型也能有高质量输出
ELF用105M参数（比GPT-3.5小几百倍）就达到了不错的质量，说明模型架构创新比堆参数更重要。

3. 训练成本大幅下降
十分之一的训练数据达到更好效果，意味着小团队也有机会训练自己的语言模型，不需要几亿美元。

⚠️冷静一下：ELF目前只在中等规模基准上测试，能不能在大规模任务上和GPT-4o、Claude 4正面竞争，还有待验证。学术研究和工业落地之间，还有很长的路。

07 | 怎么获取论文和代码？

论文和代码都已经开源：

论文地址：https://arxiv.org/pdf/2605.10938v1
代码仓库：https://github.com/lillian039/ELF

安装运行（如果你懂深度学习）：代码已开源在GitHub，基于PyTorch实现。需要T5编码器（预训练），训练用45B token（OpenWebText语料）。

如果你只是好奇：直接读论文的Introduction和Experiment部分就够了，不需要跑代码。

写在最后

何恺明做事情一向有自己的节奏：不追热点，不堆复杂度，而是回到问题本身，问一句"这件事最优雅的解法是什么？"

ResNet是这样——当时大家都在堆网络深度，他发现"加深反而退化"，于是提出残差连接，一举解决了深层网络训练难题。

这次的ELF也是这样——大家都去离散空间做扩散（因为"语言是离散的"这个直觉太强），他反其道而行之，坚持"连续到底"，结果真的跑通了，而且效果出人意料地好。

技术路线没有绝对的对错，只有有没有做到极致的区别。ELF的价值不在于它现在就能替代GPT，而在于它证明了一件事：连续扩散这条路，值得认真走下去。

对于AI从业者：值得精读这篇论文，Flow Matching在语言上的适配方式有很多可以借鉴的地方。

对于普通用户：关注这条路线的发展，将来可能会出现速度远超现在AI的并行生成模型，那是真的"秒回"。

何恺明首个语言模型：不走GPT老路，105M参数干翻主流