ExecuTorch 并入 PyTorch Core 之后,端侧大模型真正变的不是推理速度:我更建议先看导出、后端和分发这 3 层
很多人还把“端侧大模型”当成 runtime 选型题:谁更快、谁更省内存。可 2026 年 4 月真正变化的不是 benchmark,而是 PyTorch 和 Google 都开始把导出、运行、分发拧成一条完整交付链。
这篇文章不做 benchmark 排行,也不复述发布会。我更想回答一个对工程团队更值钱的问题:如果你今年准备做本地/端侧大模型,为什么现在最该看的不是 tok/s,而是导出链、硬件后端和应用分发?
1. 这波信号不是“又来一个边缘 runtime”,而是两家都在补整条栈
如果只看单个项目,ExecuTorch 或 LiteRT-LM 都可以被误读成“某家厂商的新 runtime”。但把时间线和落地方向拼起来看,这两条线的意图都比 runtime 更大。
先看 PyTorch 这边。
PyTorch 官方在 2026 年 4 月 7 日的博客里明确说,ExecuTorch 正在成为 PyTorch Core 的一部分,目标是扩展 on-device inference 能力。更关键的不是“项目升级了名分”,而是博客反复强调三件事:
- ExecuTorch 想提供从 PyTorch 作者态到端侧部署的一致开发体验。
- 它希望成为 portable、hardware-agnostic 的共享