谷歌推出两款全新TPU芯片，驱动AI训练与推理新浪潮-程序员充电站

谷歌有限责任公司在2026年谷歌云Next大会上发布了两款专为人工智能设计的定制芯片，推出了分别面向训练与推理任务的两种张量处理器（TPU）架构：第八代TPU 8t与TPU 8i。

谷歌表示，这两款芯片的设计初衷是应对下一代AI工作负载，并针对市场上不同的需求进行了明确分工。AI计算主要涉及两大核心任务：构建模型与运行模型。随着AI智能体的快速兴起，市场对于能够承担推理任务"大脑"角色的强大AI模型，以及支撑其在云端运行的高性能硬件需求持续攀升。

前一代芯片Ironwood TPU被定位为推理时代的单一旗舰平台，而谷歌此次将最新一代芯片拆分为两种独立架构，分别专注于大规模训练与高并发推理，以支撑智能体时代的到来。

TPU 8t：重塑AI训练体验

谷歌表示，TPU 8t专为大规模预训练和嵌入密集型工作负载而优化，采用3D环形网络拓扑结构，谷歌称这一技术已在更大规模的芯片网络中验证了良好的扩展性。与上一代相比，TPU 8t可在单个集群中连接9600块芯片，而Ironwood仅支持9216块。

TPU 8t配备了SparseCore专用加速器，能够处理大语言模型查找过程中常见的不规则内存访问问题，同时支持原生四位浮点运算，以突破内存带宽优化瓶颈。这使得训练速度更快，模型压缩效果更佳，在保持精度的同时，吞吐量提升一倍，内存占用显著降低。

通过一种称为量化的技术降低每个参数所需的比特数，可以在性能较低的系统上运行更大的模型，从而降低能耗、缩小本地硬件占用空间，并实现更高的利用率峰值。

谷歌表示，此次目标是以更低成本抢占训练市场。谷歌声称，在大规模训练场景下，TPU 8t相较于Ironwood TPU的每美元性能提升幅度高达2.7倍。

TPU 8i：加速模型部署落地

模型训练完成并准备就绪后，便需要投入实际使用，这正是推理发挥作用的场景，也是谷歌认为TPU 8i大放异彩之处。TPU 8i通过高带宽内存与专用网络拓扑，专注于训练后优化与高并发推理，助力大型模型高效服务。

TPU 8i搭载的静态随机存取内存容量是Ironwood的三倍，可在大语言模型推理时缓存更大的键值对，从而显著加速文本生成。此外，谷歌还构建了一套名为Collectives Acceleration Engine的推理系统，专门处理自回归解码与"思维链"过程中所需的规约与同步步骤。

为了将更多芯片互联并构建一个所有芯片均可"互见"的系统，谷歌开发了名为Boardfly ICI的定制网络拓扑结构，最多可互联1152块芯片。通过缩短网络直径和数据包穿越系统所需的跳转次数，有效降低网络延迟。谷歌表示，这一设计将全对全通信所需的跳转次数整体降低了多达50%，而全对全通信对于混合专家架构大语言模型及推理模型的推理任务至关重要。

在成本方面，谷歌表示TPU 8i在低延迟目标下，尤其是在服务超大规模混合专家前沿模型时，相较于Ironwood的每美元性能提升幅度约为80%。

谷歌补充称，两款芯片相较于上一代产品，每瓦性能均提升了一倍。

Q&A

Q1：TPU 8t和TPU 8i有什么区别？分别适用于哪些场景？

A：TPU 8t专为大规模AI模型训练设计，采用3D环形网络拓扑，支持9600块芯片互联，并内置SparseCore加速器和四位浮点运算，适合预训练和嵌入密集型任务。TPU 8i则专注于模型推理场景，配备三倍于Ironwood的静态随机存取内存，并搭载Collectives Acceleration Engine推理系统，适合高并发、低延迟的大语言模型服务。

Q2：TPU 8i的Boardfly ICI网络拓扑有什么作用？

A：Boardfly ICI是谷歌为TPU 8i专门开发的定制网络拓扑结构，最多可将1152块芯片互联成一个整体系统。其核心优势在于通过缩短网络直径和减少数据传输的跳转次数来降低延迟，并将全对全通信所需跳转次数整体降低多达50%，这对于混合专家架构大语言模型的推理任务尤为关键。

Q3：TPU 8t相比上一代Ironwood TPU在性能和成本上有哪些提升？

A：在性能方面，TPU 8t支持的单集群芯片互联数量从9216块提升至9600块，吞吐量翻倍，同时内存占用更小。在成本效益方面，谷歌声称TPU 8t在大规模训练场景下每美元性能提升高达2.7倍。此外，TPU 8t的每瓦性能也比Ironwood提升了一倍，有助于降低整体能耗成本。

QQ音乐解析工具：突破平台壁垒，打造你的私人音乐图书馆

QQ音乐解析工具：突破平台壁垒，打造你的私人音乐图书馆【免费下载链接】MCQTSS_QQMusic QQ音乐解析项目地址: https://gitcode.com/gh_mirrors/mc/MCQTSS_QQMusic 你是否曾在深夜想听一首老歌，却发现它被锁在某个平台的VIP专区&#…

李华

别再混淆了！用Python和MATLAB实例，5分钟搞懂数值计算里的收敛性与稳定性

别再混淆了！用Python和MATLAB实例，5分钟搞懂数值计算里的收敛性与稳定性数值计算中，"收敛性"和"稳定性"这两个概念常常让初学者感到困惑。它们听起来相似，却描述着完全不同的数学特性。本文将通过可运行的代…

李华

无名杀：在浏览器中体验三国杀策略对决的现代开源方案

无名杀：在浏览器中体验三国杀策略对决的现代开源方案【免费下载链接】noname 项目地址: https://gitcode.com/GitHub_Trending/no/noname 想象一下，一款经典的三国杀卡牌游戏，无需安装任何客户端，直接在浏览器中就能畅玩…

李华

如何用Marp在移动设备上创建完美演示文稿：完整移动端适配指南

如何用Marp在移动设备上创建完美演示文稿：完整移动端适配指南【免费下载链接】marp The entrance repository of Markdown presentation ecosystem 项目地址: https://gitcode.com/gh_mirrors/mar/marp Marp是一个基于Markdown的开源幻灯片制作工具&#xf…

李华

Illustrator插件开发入门：从零写一个‘傻瓜式’盒型刀版生成工具

Illustrator插件开发实战：零基础打造智能盒型生成工具每次面对包装设计中的刀版绘制，你是否也经历过这样的场景？客户临时修改尺寸，不得不重新计算每个折线的位置；或是反复核对参数时，发现某个角落的粘口宽…

李华

Overleaf参考文献引用避坑指南：解决.bib文件导入失败、编译报错和排序混乱

Overleaf参考文献引用实战排错手册：从报错诊断到高阶技巧当你熬夜赶论文，却在Overleaf上遭遇.bib文件导入失败、编译报错或参考文献排序混乱时，这份手册将成为你的技术急救包。不同于基础教程，我们直接切入那些让研究者抓狂的典型…

李华