算子融合之所以重要,是因为"GPU 上内存读写比计算本身更慢";内存规划之所以关键,是因为"GPU 显存分配是一个重量级操作"。
这两句话如果没有 GPU 硬件的背景知识,很难真正理解。这个番外系列补上这块基础,从 GPU 架构讲起。
一、CPU 和 GPU 的本质区别
我们可以通过一个类比来理解这两者的区别:
- CPU像一个很聪明的专家,一次只能做一件事,但每件事做得很快、很灵活(复杂逻辑、分支判断都擅长)
- GPU像一个有几千个工人的工厂,每个工人能力一般,但同时干活,适合大量重复的简单计算(比如矩阵乘法)
神经网络推理的核心操作是矩阵乘法,把输入矩阵和权重矩阵相乘。一个[32,768]×[768,3072][32, 768] \times [768, 3072][32,768]×[768,3072]的矩阵乘法包含32×768×3072≈750032 × 768 × 3072 ≈ 750032×768×3072≈7500万次乘加操作,每次操作完全独立,天然适合 GPU 的几千个核心并行处理。
这也是为什么 GPU 最初是为了图形渲染设计的,屏幕上的每个像素的颜色计算是互不依赖的,成千上万的像素可以同时处理。深度学习中的矩阵运算与此非常相似。
二、GPU 的内存层次
理解 GPU 性能瓶颈的关键,不是算力,而是内存。GPU 内部的存储系统从快到慢分为四级,具体如下:
| 层级 | 大小 | 速度 | 说明 |
|---|---|---|---|
| 寄存器 | 每个核心几 KB | 最快 | 计算单元直接读写,零延迟 |
| 共享内存 | 每个 SM 几十 KB | 很快 | 同一计算块内的线程共享 |
| L2 缓存 | 几 MB | 快 | 全局缓存,所有核心共享 |
| 显存(VRAM) | 几 GB ~ 80 GB | 慢 | 存放模型权重和中间结果 |
这个层次和 CPU 的缓存体系(L1 → L2 → L3 → 内存)是类似的思路:越靠近计算单元的存储越快、但越小。不同之处在于, GPU 的共享内存是程序员可以显式控制的,你可以决定哪些数据放进共享内存,而 CPU 的缓存完全由硬件自动管理。
2.1 举例
以NVIDIA A100为例,我们来看看各级存储的访问延迟:
寄存器访问:零延迟
共享内存访问:约 20 个时钟周期
显存访问:约 200~400 个时钟周期
从寄存器到显存,访问延迟差距高达10~20 倍。
打个比方:寄存器就像是你手边的纸,共享内存是桌上的文件夹,而显存则是房间角落的大书柜。如果每次计算都得去书柜拿数据然后再返回,这样的“走路”时间就占据了大部分计算时间。
三、SM:GPU 的基本计算单元
GPU 并不是简单地由几千个核心组成,而是将这些核心分组管理。每一组称为SM(Streaming Multiprocessor):
- 每个 SM 包含多个CUDA 核心(以 A100 为例,每个 SM 有 64 个 FP32 核心)
- 每个 SM 都有自己的共享内存和寄存器堆
- A100 总共有 108 个 SM,合计 6912 个 FP32 核心
当你提交一个矩阵乘法任务给 GPU 时,CUDA 运行时会将任务划分成多个小块(线程块),并分配到各个 SM 上并行执行。每个 SM 内部的线程共享该 SM 的共享内存,线程之间可以高效通信;而不同 SM 之间的通信必须通过显存。这也说明了显存和 SM 之间数据搬运的效率对整体性能的重要性。
四、总结
- GPU 的核心优势是大规模并行:几千个核心同时执行相同的操作,天然适合矩阵运算
- GPU 内存分四级,从寄存器到显存延迟差 10~20 倍,数据在哪里,比算得多快更重要。
- SM 是 GPU 的基本计算单元,SM 内部的线程共享共享内存进行高效通信,不同 SM 之间则依赖显存传输数据。
- 性能瓶颈:GPU 推理时,权重和中间结果存储在显存中,每次计算都需要将数据搬运到 SM 内部,这个过程对性能有很大影响。