【IC】英伟达显卡的超高显存带宽-程序员充电站

LPDDR 和英伟达用的显存完全不是一个量级的东西。

英伟达 H100/B200 之所以能达到3.35 TB/s ~ 8 TB/s的恐怖带宽，不是因为它跑得快（频率其实不高），而是因为它路太宽了。

英伟达的高端 AI 卡（H100/B200）用的既不是 GDDR，也不是 LPDDR，而是HBM3 / HBM3E (High Bandwidth Memory)。

我们来做一个简单粗暴的算术题：

频率：8.5 Gbps (非常快！)
位宽：64 bit(很窄，像双车道)
带宽：8.5 × 64 / 8 ≈ 68 GB/s 8.5 \times 64 / 8 \approx \mathbf{68 \text{ GB/s}}8.5×64/8≈68GB/s

频率：5.2 Gbps (其实比你的 LPDDR 还慢！)
位宽：5120 bit(这是 80 车道的超级高速公路！)
- H100 封装了5 颗HBM3 显存堆栈。
- 每颗 HBM3 堆栈有1024 bit位宽。
- 总位宽 =1024 × 5 = 5120 bit 1024 \times 5 = 5120 \text{ bit}1024×5=5120bit。
带宽：5.2 × 5120 / 8 ≈ 3 , 350 GB/s ( 3.35 TB/s ) 5.2 \times 5120 / 8 \approx \mathbf{3,350 \text{ GB/s}} (3.35 \text{ TB/s})5.2×5120/8≈3,350GB/s(3.35TB/s)

频率：8.0 Gbps (HBM3E)
位宽：8192 bit(使用了 8 颗 HBM3E)
带宽：8.0 × 8192 / 8 ≈ 8 , 000 GB/s ( 8 TB/s ) 8.0 \times 8192 / 8 \approx \mathbf{8,000 \text{ GB/s}} (8 \text{ TB/s})8.0×8192/8≈8,000GB/s(8TB/s)

结论：英伟达赢在位宽上。它的位宽是 LPDDR 的100 倍以上。

你可能会问：“那我也把 LPDDR 的位宽做大不就行了？”

这就是物理限制了：

LPDDR 需要在 PCB 板上走线：你在主板上画 64 根线还可以，画 5000 根线？板子得有几十层厚，面积得像桌子一样大，根本画不下。
HBM 是在芯片里走线：HBM 是通过CoWoS (2.5D 封装)技术，在硅中介层（Interposer）上刻蚀出来的线。硅片上的线宽只有几微米，所以可以在指甲盖大小的地方塞进几千根线。

消费级显卡 (RTX 4090)还在用GDDR6X。
- 频率：21 Gbps (极快！是 HBM 的 3-4 倍)
- 位宽：384 bit (比 LPDDR 宽，但远不如 HBM)
- 带宽：21 × 384 / 8 ≈ 1 , 008 GB/s ( 1 T B / s ) 21 \times 384 / 8 \approx \mathbf{1,008 \text{ GB/s}} (1 TB/s)21×384/8≈1,008GB/s(1TB/s)。
- 你看，即使是最顶级的 GDDR，带宽也只有 HBM 的几分之一。

所以，做 AI 训练这种吞吐量极大的任务，HBM 是唯一的选择。

第一章：Mac本地部署智谱开源Open-AutoGLM全攻略在 macOS 系统上本地部署智谱开源的 Open-AutoGLM 模型，是实现自动化代码生成与自然语言理解任务的重要一步。该模型基于 GLM 架构，支持多任务推理与代码补全，适合开发者在离线环境下…

李华

第一章：阿里云部署智普Open-AutoGLM的必要性与挑战随着大模型在自动化机器学习（AutoML）领域的深入应用，智普推出的Open-AutoGLM模型凭借其强大的自然语言理解与代码生成能力，成为AI工程化落地的重要工具。将该模型部署…

李华

第一章：Open-AutoGLM ollama的诞生背景与技术意义随着大语言模型（LLM）在自然语言处理领域的广泛应用，本地化部署与轻量化推理逐渐成为开发者和企业的核心需求。在此背景下，Open-AutoGLM 项目应运而生，旨在…

李华

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

李华

第一章：Open-AutoGLM到底值不值得用：核心结论先行Open-AutoGLM 作为一款开源的自动化通用语言模型工具，凭借其灵活的架构设计和对多场景任务的适配能力，在开发者社区中引发了广泛关注。其是否值得投入使用，关键取决于项…

李华

第一章：Open-AutoGLM性能调优背景与挑战在大规模语言模型应用日益普及的背景下，Open-AutoGLM作为一款开源的自动推理生成语言模型，面临显著的性能瓶颈与优化挑战。随着输入序列长度增加和并发请求增长，模型推理延迟上升、资源利用…

李华