news 2026/5/16 3:16:59

何恺明首个语言模型:不走GPT老路,105M参数干翻主流

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
何恺明首个语言模型:不走GPT老路,105M参数干翻主流

何恺明首个语言模型:不走GPT老路,105M参数干翻主流

ELF:嵌入式语言流,连续扩散路线第一次真正跑通了

何恺明团队放出首个语言模型ELF——不走GPT自回归老路,把扩散过程全留在连续空间,只在最后一步变回词。结果:105M参数、45B训练token、32步采样,正面干翻用500B+ token训练的主流模型。

01 | 这事为什么值得关注?

何恺明,深度学习圈的传奇人物。ResNet(残差网络)第一作者,这篇论文至今是AI领域被引用次数最多的论文之一,奠定了现代深度学习的地基。

他在2024年从Meta AI跳槽到MIT,当Distinguished Scientist(杰出科学家)。去MIT之后他一直在搞生成模型,但之前全是视觉方向——分形生成模型(FractalMAR)、均值流(MeanFlow)、双向归一化流(BiFlow)。

这次不一样了:他带队做语言模型了。

而且做的不是大家熟悉的"预测下一个词"(next token prediction)的自回归范式——那条路由GPT走通、现在几乎所有大模型都在用的路线。

他选的是另一条路:扩散语言模型(Diffusion Language Model, DLM),而且他坚持走"连续派",不像别人停留在离散token空间里做扩散。

02 | 扩散语言模型到底是什么路?

要理解ELF,得先搞清楚现在语言模型的两大技术路线——

路线一:自回归(Autoregressive,AR)
就是GPT那套,一个词一个词地往外蹦。好处是稳定、好训练;坏处是慢,必须串行生成,没法并行。

路线二:扩散语言模型(DLM)
借鉴图像生成里的扩散模型思路:从一堆噪声开始,一步步"去噪",最后得到一段完整的文本。理论上可以并行解码,速度远超自回归。

DLM内部又分两派:

  • 离散派(Discrete DLM)

    :直接在token空间里做扩散,比如MDLM、LLaDA、Duo。这条路近年来是主流,效果也更好。

  • 连续派(Continuous DLM)

    :先把token变成连续的向量(embedding),在连续空间里去噪,最后再变回token。理论上更优雅,但实际效果一直落后离散派。

何恺明的判断:不是"语言必须离散",而是前人没把连续路线走到底。

ELF的核心思路只有一句话:把扩散过程全留在连续空间,只在最后一步才变回token。

03 | ELF到底做了什么?

我尽量用人话讲清楚这个模型的设计。

第一步:把词变成连续向量
输入一句话,先切成token,再通过T5预训练编码器,映射成连续的embedding(向量表示)。这个编码器只在训练时用,推理时不需要额外模块。

第二步:在连续空间里做Flow Matching
这是ELF的核心。定义一个从噪声到干净数据的连续轨迹:t=0时是高斯噪声,t=1时是干净的embedding,中间状态是两者的线性插值(rectified flow)。

重点来了:ELF不直接预测速度场v,而是沿用了何恺明团队半年前论文《Back to Basics》的思路——直接预测干净embedding x(x-prediction)。训练目标就是最小化预测embedding和真实embedding之间的均方误差(MSE)。

第三步:最后一步才变回token
生成语言最终还是要输出离散token。ELF只在最后一个时间步(t=1)才把连续embedding通过可学习的unembedding矩阵投影成token logits,再通过argmax输出最终token。

关键设计:去噪和解码是同一个网络,靠一个二值mode token切换(去噪模式/解码模式),参数完全共享。不需要额外训练一个独立decoder!

04 | 实验结果:十分之一训练量,干翻主流

这部分是ELF最硬的地方。我列几个关键数字:

模型参数训练token采样步数生成困惑度↓

MDLM(离散派SOTA)

109M

~500B

1024步

~28

Duo(离散派)

124M

~500B

1024步

~27

ELF(连续派)105M45B32步24

生成困惑度(Perplexity)越低越好,代表生成文本越接近人类写的语料。ELF只用了十分之一的训练数据三十二分之一的采样步数,就把困惑度压到了24,全面优于离散派对手。

条件生成任务

  • WMT14德→英翻译

    :ELF取得26.4 BLEU,超过自回归baseline(25.2)和MDLM(18.4)、CDCD(24.9)

  • XSum摘要任务

    :ROUGE-1/ROUGE-2/ROUGE-L三项指标均居首位

核心结论:连续扩散语言模型不是不能打,而是以前没把"连续"这件事做到底。ELF第一次在质量、速度、训练成本三个维度同时赢了离散派。

05 | 作者阵容:MIT的"梦之队"

这篇论文的作者阵容可以用"豪华"形容:

共同一作1:胡珂雅
MIT EECS一年级博士生,何恺明在MIT带的第一批博士生之一,由恺明和Jacob Andreas联合指导。本科毕业于上交ACM班。在恺明MIT主页的Grad students列表里排第一位,堪称大师姐。

共同一作2:Linlu Qiu
MIT博士生,师从Yoon Kim。本科毕业于香港大学,硕士毕业于Georgia Institute of Technology,此前还在Google做过AI Resident。前不久刚和恺明团队合作发表了CVPR 2026论文《ARC Is a Vision Problem!》。

作者3:赵瀚宏(Hanhong Zhao)
MIT本科生,高中就读人大附中,国际物理奥林匹克竞赛(IPhO)金牌得主。少年班级别的天才。

作者4:陆伊炀
清华姚班大二本科生,目前在MIT CSAIL实习,导师何恺明。高中物理竞赛生,2022年全国中学生物理竞赛(CPhO)金牌(江苏第一、全国第九)。

何恺明
不用多介绍了。ResNet第一作者,CV领域传奇人物,现任MIT Distinguished Scientist、Google DeepMind Distinguished Scientist(兼职)。

06 | 这事对普通用户有什么影响?

说实话,这篇论文目前还是研究机构在玩,离直接能用的产品还有距离。但它指向的几个方向,值得关注:

1. 并行解码可能真的可行
自回归模型(GPT)必须一个词一个词蹦,扩散模型理论上可以并行生成,速度快得多。如果这条路线成熟,将来AI回复速度可能提升5-10倍。

2. 小模型也能有高质量输出
ELF用105M参数(比GPT-3.5小几百倍)就达到了不错的质量,说明模型架构创新比堆参数更重要。

3. 训练成本大幅下降
十分之一的训练数据达到更好效果,意味着小团队也有机会训练自己的语言模型,不需要几亿美元。

⚠️冷静一下:ELF目前只在中等规模基准上测试,能不能在大规模任务上和GPT-4o、Claude 4正面竞争,还有待验证。学术研究和工业落地之间,还有很长的路。

07 | 怎么获取论文和代码?

论文和代码都已经开源:

论文地址:https://arxiv.org/pdf/2605.10938v1
代码仓库:https://github.com/lillian039/ELF

安装运行(如果你懂深度学习):代码已开源在GitHub,基于PyTorch实现。需要T5编码器(预训练),训练用45B token(OpenWebText语料)。

如果你只是好奇:直接读论文的Introduction和Experiment部分就够了,不需要跑代码。

写在最后

何恺明做事情一向有自己的节奏:不追热点,不堆复杂度,而是回到问题本身,问一句"这件事最优雅的解法是什么?"

ResNet是这样——当时大家都在堆网络深度,他发现"加深反而退化",于是提出残差连接,一举解决了深层网络训练难题。

这次的ELF也是这样——大家都去离散空间做扩散(因为"语言是离散的"这个直觉太强),他反其道而行之,坚持"连续到底",结果真的跑通了,而且效果出人意料地好。

技术路线没有绝对的对错,只有有没有做到极致的区别。ELF的价值不在于它现在就能替代GPT,而在于它证明了一件事:连续扩散这条路,值得认真走下去。

对于AI从业者:值得精读这篇论文,Flow Matching在语言上的适配方式有很多可以借鉴的地方。

对于普通用户:关注这条路线的发展,将来可能会出现速度远超现在AI的并行生成模型,那是真的"秒回"。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/16 3:16:11

多属性决策启示录 第3期|AHP层次分析法:把我觉得变成数学

# 多属性决策启示录 第3期|AHP:把"我觉得"变成数学系列:面向研究生与算法工程师的 MADM 深度教程标签:多属性决策,AHP,层次分析法,主观赋权,Python,算法前言:买车时的内心博弈你去 4S 店看车,三款…

作者头像 李华
网站建设 2026/5/16 3:07:34

AI写论文高效之道!4款AI论文写作工具,让写论文变得简单!

在撰写期刊论文、毕业论文或者职称论文的过程中,很多学术工作者常常遇到各种挑战。面对数量庞大的文献资料,寻找相关信息就像是在大海中捞针一样困难;而那些繁琐而又严格的格式规范,往往使人感到无所适从;频繁的内容修…

作者头像 李华
网站建设 2026/5/16 3:07:21

智能摘要技术解析:从TextRank到BART的混合策略实践

1. 项目概述:从“信息过载”到“智能摘要”在信息爆炸的时代,我们每天都被海量的文本内容包围——技术文档、行业报告、新闻资讯、会议纪要、长篇邮件……阅读和理解这些信息,正变得越来越耗时耗力。作为一名长期与技术文档和开源项目打交道的…

作者头像 李华
网站建设 2026/5/16 3:06:20

基于CLUE与微控制器的智能机器人小车:从传感器融合到无线控制实践

1. 项目概述与核心价值最近在折腾一个基于微控制器的机器人小车项目,核心目标是通过一个控制板来远程操控它的移动、灯光,并探索如何利用CLUE这类功能丰富的开发板为其注入更强大的环境感知能力。这听起来像是嵌入式系统和物联网开发的经典入门案例&…

作者头像 李华
网站建设 2026/5/16 3:05:09

Adafruit CLUE可穿戴设备制作:3D打印外壳与柔性表带全攻略

1. 项目概述:当开源硬件遇上3D打印如果你手头有一块像Adafruit CLUE这样功能强大的微控制器开发板,却苦于没有一个既便携又酷炫的“家”,那么这个项目就是为你准备的。我最近完成了一个将CLUE开发板封装进3D打印外壳,变身成可穿戴…

作者头像 李华
网站建设 2026/5/16 3:04:13

“驾驭工程”下一跳?JiuwenClaw AgentTeam开启“协同工程”全新范式

如果说提示词工程与上下文工程逐步将AI推向了“可用区间”,那么驾驭工程的技术使命是完成了单个 Agent 从 “基础运行” 到 “稳态运行、可控调度、合规交付” 的能力闭环构建。但当任务开始呈现出更明显的链路化、并行化与角色化特征时,新的瓶颈会立刻显…

作者头像 李华