何恺明首个语言模型:不走GPT老路,105M参数干翻主流
ELF:嵌入式语言流,连续扩散路线第一次真正跑通了
何恺明团队放出首个语言模型ELF——不走GPT自回归老路,把扩散过程全留在连续空间,只在最后一步变回词。结果:105M参数、45B训练token、32步采样,正面干翻用500B+ token训练的主流模型。
01 | 这事为什么值得关注?
何恺明,深度学习圈的传奇人物。ResNet(残差网络)第一作者,这篇论文至今是AI领域被引用次数最多的论文之一,奠定了现代深度学习的地基。
他在2024年从Meta AI跳槽到MIT,当Distinguished Scientist(杰出科学家)。去MIT之后他一直在搞生成模型,但之前全是视觉方向——分形生成模型(FractalMAR)、均值流(MeanFlow)、双向归一化流(BiFlow)。
这次不一样了:他带队做语言模型了。
而且做的不是大家熟悉的"预测下一个词"(next token prediction)的自回归范式——那条路由GPT走通、现在几乎所有大模型都在用的路线。
他选的是另一条路:扩散语言模型(Diffusion Language Model, DLM),而且他坚持走"连续派",不像别人停留在离散token空间里做扩散。
02 | 扩散语言模型到底是什么路?
要理解ELF,得先搞清楚现在语言模型的两大技术路线——
路线一:自回归(Autoregressive,AR)
就是GPT那套,一个词一个词地往外蹦。好处是稳定、好训练;坏处是慢,必须串行生成,没法并行。
路线二:扩散语言模型(DLM)
借鉴图像生成里的扩散模型思路:从一堆噪声开始,一步步"去噪",最后得到一段完整的文本。理论上可以并行解码,速度远超自回归。
DLM内部又分两派:
- 离散派(Discrete DLM)
:直接在token空间里做扩散,比如MDLM、LLaDA、Duo。这条路近年来是主流,效果也更好。
- 连续派(Continuous DLM)
:先把token变成连续的向量(embedding),在连续空间里去噪,最后再变回token。理论上更优雅,但实际效果一直落后离散派。
何恺明的判断:不是"语言必须离散",而是前人没把连续路线走到底。
ELF的核心思路只有一句话:把扩散过程全留在连续空间,只在最后一步才变回token。
03 | ELF到底做了什么?
我尽量用人话讲清楚这个模型的设计。
第一步:把词变成连续向量
输入一句话,先切成token,再通过T5预训练编码器,映射成连续的embedding(向量表示)。这个编码器只在训练时用,推理时不需要额外模块。
第二步:在连续空间里做Flow Matching
这是ELF的核心。定义一个从噪声到干净数据的连续轨迹:t=0时是高斯噪声,t=1时是干净的embedding,中间状态是两者的线性插值(rectified flow)。
重点来了:ELF不直接预测速度场v,而是沿用了何恺明团队半年前论文《Back to Basics》的思路——直接预测干净embedding x(x-prediction)。训练目标就是最小化预测embedding和真实embedding之间的均方误差(MSE)。
第三步:最后一步才变回token
生成语言最终还是要输出离散token。ELF只在最后一个时间步(t=1)才把连续embedding通过可学习的unembedding矩阵投影成token logits,再通过argmax输出最终token。
关键设计:去噪和解码是同一个网络,靠一个二值mode token切换(去噪模式/解码模式),参数完全共享。不需要额外训练一个独立decoder!
04 | 实验结果:十分之一训练量,干翻主流
这部分是ELF最硬的地方。我列几个关键数字:
| 模型 | 参数 | 训练token | 采样步数 | 生成困惑度↓ |
|---|---|---|---|---|
MDLM(离散派SOTA) | 109M | ~500B | 1024步 | ~28 |
Duo(离散派) | 124M | ~500B | 1024步 | ~27 |
| ELF(连续派) | 105M | 45B | 32步 | 24 |
生成困惑度(Perplexity)越低越好,代表生成文本越接近人类写的语料。ELF只用了十分之一的训练数据、三十二分之一的采样步数,就把困惑度压到了24,全面优于离散派对手。
条件生成任务:
- WMT14德→英翻译
:ELF取得26.4 BLEU,超过自回归baseline(25.2)和MDLM(18.4)、CDCD(24.9)
- XSum摘要任务
:ROUGE-1/ROUGE-2/ROUGE-L三项指标均居首位
核心结论:连续扩散语言模型不是不能打,而是以前没把"连续"这件事做到底。ELF第一次在质量、速度、训练成本三个维度同时赢了离散派。
05 | 作者阵容:MIT的"梦之队"
这篇论文的作者阵容可以用"豪华"形容:
共同一作1:胡珂雅
MIT EECS一年级博士生,何恺明在MIT带的第一批博士生之一,由恺明和Jacob Andreas联合指导。本科毕业于上交ACM班。在恺明MIT主页的Grad students列表里排第一位,堪称大师姐。
共同一作2:Linlu Qiu
MIT博士生,师从Yoon Kim。本科毕业于香港大学,硕士毕业于Georgia Institute of Technology,此前还在Google做过AI Resident。前不久刚和恺明团队合作发表了CVPR 2026论文《ARC Is a Vision Problem!》。
作者3:赵瀚宏(Hanhong Zhao)
MIT本科生,高中就读人大附中,国际物理奥林匹克竞赛(IPhO)金牌得主。少年班级别的天才。
作者4:陆伊炀
清华姚班大二本科生,目前在MIT CSAIL实习,导师何恺明。高中物理竞赛生,2022年全国中学生物理竞赛(CPhO)金牌(江苏第一、全国第九)。
何恺明
不用多介绍了。ResNet第一作者,CV领域传奇人物,现任MIT Distinguished Scientist、Google DeepMind Distinguished Scientist(兼职)。
06 | 这事对普通用户有什么影响?
说实话,这篇论文目前还是研究机构在玩,离直接能用的产品还有距离。但它指向的几个方向,值得关注:
1. 并行解码可能真的可行
自回归模型(GPT)必须一个词一个词蹦,扩散模型理论上可以并行生成,速度快得多。如果这条路线成熟,将来AI回复速度可能提升5-10倍。
2. 小模型也能有高质量输出
ELF用105M参数(比GPT-3.5小几百倍)就达到了不错的质量,说明模型架构创新比堆参数更重要。
3. 训练成本大幅下降
十分之一的训练数据达到更好效果,意味着小团队也有机会训练自己的语言模型,不需要几亿美元。
⚠️冷静一下:ELF目前只在中等规模基准上测试,能不能在大规模任务上和GPT-4o、Claude 4正面竞争,还有待验证。学术研究和工业落地之间,还有很长的路。
07 | 怎么获取论文和代码?
论文和代码都已经开源:
论文地址:https://arxiv.org/pdf/2605.10938v1
代码仓库:https://github.com/lillian039/ELF
安装运行(如果你懂深度学习):代码已开源在GitHub,基于PyTorch实现。需要T5编码器(预训练),训练用45B token(OpenWebText语料)。
如果你只是好奇:直接读论文的Introduction和Experiment部分就够了,不需要跑代码。
写在最后
何恺明做事情一向有自己的节奏:不追热点,不堆复杂度,而是回到问题本身,问一句"这件事最优雅的解法是什么?"
ResNet是这样——当时大家都在堆网络深度,他发现"加深反而退化",于是提出残差连接,一举解决了深层网络训练难题。
这次的ELF也是这样——大家都去离散空间做扩散(因为"语言是离散的"这个直觉太强),他反其道而行之,坚持"连续到底",结果真的跑通了,而且效果出人意料地好。
技术路线没有绝对的对错,只有有没有做到极致的区别。ELF的价值不在于它现在就能替代GPT,而在于它证明了一件事:连续扩散这条路,值得认真走下去。
对于AI从业者:值得精读这篇论文,Flow Matching在语言上的适配方式有很多可以借鉴的地方。
对于普通用户:关注这条路线的发展,将来可能会出现速度远超现在AI的并行生成模型,那是真的"秒回"。