谷歌有限责任公司在2026年谷歌云Next大会上发布了两款专为人工智能设计的定制芯片,推出了分别面向训练与推理任务的两种张量处理器(TPU)架构:第八代TPU 8t与TPU 8i。
谷歌表示,这两款芯片的设计初衷是应对下一代AI工作负载,并针对市场上不同的需求进行了明确分工。AI计算主要涉及两大核心任务:构建模型与运行模型。随着AI智能体的快速兴起,市场对于能够承担推理任务"大脑"角色的强大AI模型,以及支撑其在云端运行的高性能硬件需求持续攀升。
前一代芯片Ironwood TPU被定位为推理时代的单一旗舰平台,而谷歌此次将最新一代芯片拆分为两种独立架构,分别专注于大规模训练与高并发推理,以支撑智能体时代的到来。
TPU 8t:重塑AI训练体验
谷歌表示,TPU 8t专为大规模预训练和嵌入密集型工作负载而优化,采用3D环形网络拓扑结构,谷歌称这一技术已在更大规模的芯片网络中验证了良好的扩展性。与上一代相比,TPU 8t可在单个集群中连接9600块芯片,而Ironwood仅支持9216块。
TPU 8t配备了SparseCore专用加速器,能够处理大语言模型查找过程中常见的不规则内存访问问题,同时支持原生四位浮点运算,以突破内存带宽优化瓶颈。这使得训练速度更快,模型压缩效果更佳,在保持精度的同时,吞吐量提升一倍,内存占用显著降低。
通过一种称为量化的技术降低每个参数所需的比特数,可以在性能较低的系统上运行更大的模型,从而降低能耗、缩小本地硬件占用空间,并实现更高的利用率峰值。
谷歌表示,此次目标是以更低成本抢占训练市场。谷歌声称,在大规模训练场景下,TPU 8t相较于Ironwood TPU的每美元性能提升幅度高达2.7倍。
TPU 8i:加速模型部署落地
模型训练完成并准备就绪后,便需要投入实际使用,这正是推理发挥作用的场景,也是谷歌认为TPU 8i大放异彩之处。TPU 8i通过高带宽内存与专用网络拓扑,专注于训练后优化与高并发推理,助力大型模型高效服务。
TPU 8i搭载的静态随机存取内存容量是Ironwood的三倍,可在大语言模型推理时缓存更大的键值对,从而显著加速文本生成。此外,谷歌还构建了一套名为Collectives Acceleration Engine的推理系统,专门处理自回归解码与"思维链"过程中所需的规约与同步步骤。
为了将更多芯片互联并构建一个所有芯片均可"互见"的系统,谷歌开发了名为Boardfly ICI的定制网络拓扑结构,最多可互联1152块芯片。通过缩短网络直径和数据包穿越系统所需的跳转次数,有效降低网络延迟。谷歌表示,这一设计将全对全通信所需的跳转次数整体降低了多达50%,而全对全通信对于混合专家架构大语言模型及推理模型的推理任务至关重要。
在成本方面,谷歌表示TPU 8i在低延迟目标下,尤其是在服务超大规模混合专家前沿模型时,相较于Ironwood的每美元性能提升幅度约为80%。
谷歌补充称,两款芯片相较于上一代产品,每瓦性能均提升了一倍。
Q&A
Q1:TPU 8t和TPU 8i有什么区别?分别适用于哪些场景?
A:TPU 8t专为大规模AI模型训练设计,采用3D环形网络拓扑,支持9600块芯片互联,并内置SparseCore加速器和四位浮点运算,适合预训练和嵌入密集型任务。TPU 8i则专注于模型推理场景,配备三倍于Ironwood的静态随机存取内存,并搭载Collectives Acceleration Engine推理系统,适合高并发、低延迟的大语言模型服务。
Q2:TPU 8i的Boardfly ICI网络拓扑有什么作用?
A:Boardfly ICI是谷歌为TPU 8i专门开发的定制网络拓扑结构,最多可将1152块芯片互联成一个整体系统。其核心优势在于通过缩短网络直径和减少数据传输的跳转次数来降低延迟,并将全对全通信所需跳转次数整体降低多达50%,这对于混合专家架构大语言模型的推理任务尤为关键。
Q3:TPU 8t相比上一代Ironwood TPU在性能和成本上有哪些提升?
A:在性能方面,TPU 8t支持的单集群芯片互联数量从9216块提升至9600块,吞吐量翻倍,同时内存占用更小。在成本效益方面,谷歌声称TPU 8t在大规模训练场景下每美元性能提升高达2.7倍。此外,TPU 8t的每瓦性能也比Ironwood提升了一倍,有助于降低整体能耗成本。