混合精度训练：FP16与FP32，借助Tensor Core加速-程序员充电站

混合精度训练是一种深度学习训练技术，它结合使用不同数值格式（主要是FP16或 BF16 与FP32）来执行模型的不同部分计算。其目标是在保持模型收敛速度和精度的同时，显著提高训练速度并减少显存占用。

全称：Half-Precision Floating-Point (16-bit)
结构：1 位符号位 + 5 位指数位 + 10 位尾数位。
特点：
- 动态范围小：只有 5 位指数位，能表示的数值范围比 FP32 小得多。
- 精度低：只有 10 位尾数位，精度比 FP32 低得多。
优点：占用 16 位（2 字节）存储空间，数据传输量减半，并且计算速度极快（尤其是在 Tensor Core 上）。

特性	FP32（单精度）	FP16（半精度）	影响
存储空间	32 位 (4 Bytes)	16 位 (2 Bytes)	显存占用减半。
计算速度	标准速度	极快(通过 Tensor Core)。	训练吞吐量显著提高。
动态范围	大	小	易发生下溢（Underflow）或溢出（Overflow）。
精度	高	低	容易发生舍入误差（Rounding Error）。

混合精度训练的核心思想是扬长避短：用 FP16 的速度优势来加速计算，同时用 FP32 的稳定优势来保护关键操作。

存储（FP32 Master Copy）：模型的权重（Weights）和偏置（Biases）始终以 FP32 格式存储一份主拷贝（Master Copy）。
前向传播（FP16/BF16）：
- 在计算前，将 FP32 主拷贝权重转换为 FP16。
- **大部分计算（如矩阵乘法、卷积）**都使用 FP16 进行，以利用 Tensor Core 的速度。
损失值计算（FP32）：损失值（Loss）和梯度（Gradients）的累加通常转回 FP32 进行，以确保精度。
梯度缩放（Loss Scaling）：
- 解决下溢问题：由于 FP16 的动态范围小，梯度的绝对值通常很小，很容易四舍五入到零（下溢）。
- 解决方案：在计算损失后，将损失值放大一个固定的比例因子（如2N2^N2N），使得梯度在反向传播时保持在 FP16 的可表示范围内。
权重更新（FP32）：
- 将缩放后的 FP16 梯度缩小（除以相同的比例因子）。
- 使用缩小的梯度和 FP32 主拷贝进行权重更新。这保证了模型参数的长期稳定性。

Tensor Core 是混合精度训练成功的关键。

Tensor Core 是 GPU 上的专用硬件单元，它执行D=A×B+CD = A \times B + CD=A×B+C操作时，要求AAA和BBB是 FP16/BF16 或其他低精度格式。

加速原理：Tensor Core 的设计使其在处理 FP16 数据时，比标准 CUDA 核心在处理 FP32 数据时，能实现指数级的吞吐量提升（例如，在 Ampere 架构上，TF32 的性能是 FP32 的 8 倍，FP16/BF16 的性能是 FP32 的 16 倍）。

自 Ampere 架构（A100）以来，NVIDIA 引入了TensorFloat-32 (TF32)格式：

特点：TF32 拥有 FP32 的动态范围，但精度接近 FP16。
训练简化：如果你的代码仍然使用 FP32 类型，Tensor Core 可以自动在硬件层面将 FP32 数据转换为 TF32，然后使用 Tensor Core 进行加速。这使得开发者能够轻松地获得性能提升，而无需手动管理 FP16 转换和梯度缩放。

优势	描述	关键机制
训练速度提升	训练吞吐量通常提高1.5×1.5 \times1.5×到3×3 \times3×。	Tensor Core的高 FLOPS 和减少的数据传输量。
显存占用减半	模型参数和大部分数据（如激活值）只需存储 16 位。	FP16/BF16 只占用 2 字节，而不是 4 字节。
可训练更大模型	由于显存占用减少，可以在相同的 GPU 上训练更大规模或使用更大 Batch Size 的模型。	显存成为稀缺资源时的解决方案。
数值稳定性	通过梯度缩放和FP32 主拷贝策略，确保了训练过程的稳定性和最终模型的精度。	混合精度流程管理下溢和舍入误差。