从TPU到FPGA：脉动阵列如何重塑矩阵乘法加速设计-程序员充电站

1. 脉动阵列：从经典架构到AI加速利器

我第一次接触脉动阵列是在研究生时期的数字信号处理课上，教授用了一个生动的比喻：就像工厂流水线上的工人，每个工位只负责一个简单操作，但产品在流水线上流动时就能完成复杂加工。这个比喻让我瞬间理解了脉动阵列的精髓——通过数据流动实现并行计算。

脉动阵列（Systolic Array）这个概念确实不新，早在1982年就由卡内基梅隆大学的H.T.Kung教授提出。但真正让它大放异彩的是2016年谷歌TPU的横空出世。当时我在做AI芯片设计，看到TPU论文时眼前一亮：原来这个"老古董"在矩阵运算上这么高效！

核心优势在于数据就像血液在血管中脉动流动：

每个处理单元(PE)只与相邻单元通信
数据按固定节奏在阵列中流动
通过空间换时间实现高效并行

举个例子，做两个4x4矩阵乘法时，传统CPU需要64次乘加操作，而4x4脉动阵列只需要7个时钟周期就能完成。这种效率对AI计算简直是降维打击——毕竟神经网络90%的计算都是矩阵运算。

2. TPU与FPGA：两种硬件平台的实现对比

去年我参与了一个边缘计算项目，需要在FPGA上实现矩阵加速。团队争论不休：是直接用现成的DSP块，还是上脉动阵列？最终我们两种方案都试了，实测数据很有意思：

指标	DSP方案	脉动阵列方案
时钟频率(MHz)	450	300
功耗(W)	3.2	2.1
吞吐量(GOPS)	28	42
资源利用率	高(DSP受限)	均衡

TPU的实现更"硬核"：谷歌第一代TPU用了256x256的脉动阵列，每个时钟周期能完成65,536次乘加运算。但这是ASIC方案，晶体管级优化让频率能达到700MHz+。我在实验室用Xilinx UltraScale+ FPGA最多只能做到128x128阵列，频率还不到TPU的一半。

不过FPGA有个杀手锏——可重构性。有次客户临时要求支持稀疏矩阵计算，我们只用了两周就改出了支持零值跳过的脉动阵列版本。要是ASIC方案，这种改动得重新流片，至少半年起步。

3. 脉动阵列的硬件设计实战

说到具体实现，我踩过最大的坑是数据对齐。刚开始设计PE单元时，天真地以为只要把乘加器连起来就行，结果仿真时发现计算结果全是乱码。后来才明白，必须严格把控数据流的时序关系。

这里分享一个经过实战检验的PE设计要点：

module pe #(parameter WIDTH=8) ( input clk, rst_n, input [WIDTH-1:0] a_in, b_in, output [WIDTH-1:0] a_out, b_out, output [2*WIDTH-1:0] c_out ); reg [WIDTH-1:0] a_reg, b_reg; reg [2*WIDTH-1:0] acc; always @(posedge clk or negedge rst_n) begin if (!rst_n) begin a_reg <= 0; b_reg <= 0; acc <= 0; end else begin a_reg <= a_in; // 横向传递 b_reg <= b_in; // 纵向传递 acc <= acc + (a_in * b_in); // 累加结果 end end assign a_out = a_reg; assign b_out = b_reg; assign c_out = acc; endmodule

搭建完整阵列时，边界处理特别关键。我常用的技巧是用FIFO做数据对齐：

第一行PE的A输入接主输入
第一列PE的B输入延迟N个周期（N=阵列行数）
对角线上的PE需要额外延迟1个周期

实测发现，对于16x16矩阵乘法，这种设计在Artix-7上能达到150MHz，资源占用约15K LUTs。虽然比不上高端GPU的算力，但功耗只有5W，非常适合嵌入式场景。

4. 性能优化：从理论到实践的技巧

在阿里云的项目中，我们需要把脉动阵列的性能榨干。经过三个月调优，总结出几个实用技巧：

数据流优化：

采用位宽渐变设计：输入8bit，中间结果16bit，输出32bit
对权重矩阵做静态重排序，减少零值流动
使用双缓冲技术隐藏数据传输延迟

资源优化：

# Xilinx Vivado约束示例 set_property DONT_TOUCH true [get_cells pe_array/*] set_property PIPELINE_STAGES 2 [get_cells pe_array/*/acc_reg] set_max_delay -from [get_pins pe_array/*/a_reg*/D] -to [get_pins pe_array/*/a_reg*/Q] 1.5

时钟域技巧：

对存储器接口用250MHz时钟
脉动阵列核心跑125MHz
通过异步FIFO做时钟域交叉

最让我自豪的一个优化案例：通过重构数据流方向，把ResNet-18的推理延迟从15ms降到了9ms。秘诀是发现传统Z字型数据流不适合残差连接，改成了螺旋流动模式。

5. 现代AI加速中的创新应用

最近在搞大模型推理加速时，发现脉动阵列还能玩出新花样。比如结合结构化稀疏技术，我们设计了一种"可收缩"脉动阵列：

每个PE增加一个valid信号
遇到零权重时关闭对应PE的时钟门控
动态调整数据路径宽度

实测在BERT模型上实现了40%的能效提升。这让我想起计算机体系结构大师David Patterson的话："好的架构应该像乐高，既规整又灵活。"

另一个前沿方向是异构脉动阵列，这是我目前在研究的：

混合使用低精度(4bit)和高精度(16bit)PE
通过片上网络动态重组数据流
针对Transformer的注意力机制优化阵列拓扑

6. 选型指南：何时选择脉动阵列

经常有工程师问我：现在有这么多加速方案，什么情况下该用脉动阵列？根据我参与过17个芯片项目的经验，主要看三个维度：

适合的场景：

固定模式的计算（如CNN推理）
需要确定性的低延迟
功耗敏感型设备

不适合的场景：

计算模式变化频繁（如通用矩阵运算）
需要高精度浮点
内存访问随机性强

有个很直观的判断方法：如果算法能用数据流图清晰表示，且数据重用率高，脉动阵列就很合适。去年有个智慧工厂项目，用脉动阵列处理传感器数据流，比GPU方案省电80%。

7. 从RTL到系统集成的工程挑战

在燧原科技工作时，我们做过一个教训深刻的项目：虽然单个脉动阵列模块很完美，但系统集成后性能只有预期的60%。后来发现是数据供给跟不上，总结出这些经验：

存储层次设计：

每个PE配16x8bit寄存器文件
每行PE共享32KB SRAM
全局DDR4内存做三级缓存

带宽计算公式：

所需带宽(B/s) = 阵列规模 x 数据位宽 x 频率 x 数据复用率

比如128x128阵列，8bit数据，200MHz频率，复用率0.7时：

128x128x8x200e6x0.7 ≈ 18.4GB/s

实用调试技巧：

先用C++做周期精确仿真
在RTL中植入性能计数器
用ILA抓取关键路径波形
动态调整PE间的skew值

最复杂的项目是在5G基站里部署脉动阵列，要同时处理波束成形和信道估计。我们最终采用了时分复用设计，通过动态重配置支持两种计算模式。

8. 开发生态与工具链建议

现在做脉动阵列开发比十年前幸福多了，主流工具链已经相当成熟。我常用的开发栈是：

设计阶段：

Chisel3做架构探索
Verilator做快速仿真
TensorFlow做黄金参考

实现阶段：

# 典型编译流程 all: python gen_systolic.py --size 64x64 --bitwidth 8 verilator -Wall --cc systolic.sv --exe sim_main.cpp make -C obj_dir -f Vsystolic.mk ./obj_dir/Vsystolic

验证技巧：