PyTorch torch.optim 优化器介绍与论文-程序员充电站

- 概述
- 常用优化器
- - 1. **SGD** (Stochastic Gradient Descent) - 随机梯度下降
  - 2. **Adam** (Adaptive Moment Estimation) ⭐ 最常用
  - 3. **AdamW** (Adam with Weight Decay) ⭐ PI0.5 使用
  - 4. **RMSprop** (Root Mean Square Propagation)
  - 5. **Adagrad** (Adaptive Gradient)
  - 6. **Adadelta**
  - 7. **Adamax**
  - 8. **RAdam** (Rectified Adam)
  - 9. **LBFGS** (Limited-memory BFGS)
- 优化器对比表
- 在 LeRobot 中的使用
- - PI0.5 配置
- 选择建议
- - 推荐使用
  - 特殊场景
- 关键论文总结
- 参考资料
- 总结

概述

torch.optim是 PyTorch 提供的优化器模块，包含多种梯度下降优化算法。

常用优化器

1.SGD(Stochastic Gradient Descent) - 随机梯度下降

简介：最基础的优化算法，使用固定学习率更新参数。

公式：

v_t = momentum × v_{t-1} + g_t θ_t = θ_{t-1} - lr × v_t

特点：

简单稳定
收敛速度较慢
适合凸优化问题

论文：

原始 SGD：
- Stochastic Approximation
- 链接：https://projecteuclid.org/journals/annals-of-mathematical-statistics/volume-22/issue-3/Stochastic-approximation/10.1214/aoms/1177729586.full
- 作者：Herbert Robbins, Sutton Monro
- 年份：1951
Momentum SGD：
- On the importance of initialization and momentum in deep learning
- 链接：https://proceedings.mlr.press/v28/sutskever13.html
- 作者：Ilya Sutskever, et al.
- 年份：2013

使用示例：

optimizer=torch.optim.SGD(model.parameters(),lr=0.01,momentum=0.9)

2.Adam(Adaptive Moment Estimation) ⭐ 最常用

简介：自适应学习率优化器，结合了动量和自适应学习率。

公式：

m_t = β₁ × m_{t-1} + (1 - β₁) × g_t # 一阶矩估计 v_t = β₂ × v_{t-1} + (1 - β₂) × g_t² # 二阶矩估计 m̂_t = m_t / (1 - β₁^t) # 偏差修正 v̂_t = v_t / (1 - β₂^t) θ_t = θ_{t-1} - lr × m̂_t / (√v̂_t + ε)

特点：

✅ 自适应学习率
✅ 收敛速度快
✅ 对超参数不敏感
✅ 适合大多数深度学习任务

论文：

Adam: A Method for Stochastic Optimization
- 链接：https://arxiv.org/abs/1412.6980
- 作者：Diederik P. Kingma, Jimmy Ba
- 年份：2014
- 引用：~100,000+

使用示例：

optimizer=torch.optim.Adam(model.parameters(),lr=0.001,betas=(0.9,0.999))

3.AdamW(Adam with Weight Decay) ⭐ PI0.5 使用

简介：Adam 的改进版本，修正了权重衰减的实现。

关键改进：

将权重衰减从梯度中分离
更正确的 L2 正则化实现
通常比 Adam 效果更好

公式：

m_t = β₁ × m_{t-1} + (1 - β₁) × g_t v_t = β₂ × v_{t-1} + (1 - β₂) × g_t² m̂_t = m_t / (1 - β₁^t) v̂_t = v_t / (1 - β₂^t) θ_t = θ_{t-1} - lr × [m̂_t / (√v̂_t + ε) + weight_decay × θ_{t-1}]

特点：

✅ 修正了 Adam 的权重衰减问题
✅ 更好的泛化性能
✅ 适合 Transformer 等大模型

论文：

Decoupled Weight Decay Regularization
- 链接：https://arxiv.org/abs/1711.05101
- 作者：Ilya Loshchilov, Frank Hutter
- 年份：2017
- 会议：ICLR 2019

使用示例：

optimizer=torch.optim.AdamW(model.parameters(),lr=2.5e-5,betas=(0.9,0.95),weight_decay=0.01)

4.RMSprop(Root Mean Square Propagation)

简介：自适应学习率优化器，使用梯度平方的移动平均。

公式：

v_t = α × v_{t-1} + (1 - α) × g_t² θ_t = θ_{t-1} - lr × g_t / (√v_t + ε)

特点：

✅ 自适应学习率
✅ 适合非平稳目标
✅ RNN 训练效果好

论文：

Neural Networks for Machine Learning Lecture 6
- 链接：https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf
- 作者：Geoffrey Hinton
- 年份：2012

使用示例：

optimizer=torch.optim.RMSprop(model.parameters(),lr=0.01,alpha=0.99)

5.Adagrad(Adaptive Gradient)

简介：自适应学习率优化器，累积历史梯度平方。

公式：

G_t = G_{t-1} + g_t² θ_t = θ_{t-1} - lr × g_t / (√G_t + ε)

特点：

✅ 自动降低学习率
⚠️ 学习率可能过小
⚠️ 适合稀疏梯度

论文：

Adaptive Subgradient Methods for Online Learning and Stochastic Optimization
- 链接：https://jmlr.org/papers/v12/duchi11a.html
- 作者：John Duchi, Elad Hazan, Yoram Singer
- 年份：2011
- 会议：JMLR

使用示例：

optimizer=torch.optim.Adagrad(model.parameters(),lr=0.01)

6.Adadelta

简介：Adagrad 的改进版本，解决学习率衰减过快的问题。

公式：

E[g²]_t = ρ × E[g²]_{t-1} + (1 - ρ) × g_t² Δθ_t = -√(E[Δθ²]_{t-1} + ε) / √(E[g²]_t + ε) × g_t E[Δθ²]_t = ρ × E[Δθ²]_{t-1} + (1 - ρ) × Δθ_t² θ_t = θ_{t-1} + Δθ_t

特点：

✅ 不需要手动设置学习率
✅ 解决 Adagrad 学习率衰减问题

论文：

ADADELTA: An Adaptive Learning Rate Method
- 链接：https://arxiv.org/abs/1212.5701
- 作者：Matthew D. Zeiler
- 年份：2012

使用示例：

optimizer=torch.optim.Adadelta(model.parameters(),rho=0.9)

7.Adamax

简介：Adam 的变体，使用无穷范数代替 L2 范数。

公式：

m_t = β₁ × m_{t-1} + (1 - β₁) × g_t u_t = max(β₂ × u_{t-1}, |g_t|) θ_t = θ_{t-1} - lr × m_t / (u_t + ε)

特点：

✅ 在某些情况下比 Adam 更稳定
✅ 适合稀疏梯度

论文：

Adam: A Method for Stochastic Optimization（与 Adam 同一篇）
- 链接：https://arxiv.org/abs/1412.6980
- 作者：Diederik P. Kingma, Jimmy Ba
- 年份：2014

使用示例：

optimizer=torch.optim.Adamax(model.parameters(),lr=0.002,betas=(0.9,0.999))

8.RAdam(Rectified Adam)

简介：修正 Adam 的方差问题，在训练初期更稳定。

特点：

✅ 修正 Adam 的方差问题
✅ 训练初期更稳定
✅ 自适应切换到 SGD

论文：

On the Variance of the Adaptive Learning Rate and Beyond
- 链接：https://arxiv.org/abs/1908.03265
- 作者：Liyuan Liu, et al.
- 年份：2019
- 会议：ICLR 2020

注意：PyTorch 原生不支持，需要第三方库。

9.LBFGS(Limited-memory BFGS)

简介：拟牛顿法，使用二阶导数信息。

特点：

✅ 收敛速度快（接近二阶方法）
⚠️ 内存占用大
⚠️ 不适合大规模模型

论文：

Updating Quasi-Newton Matrices with Limited Storage
- 链接：https://link.springer.com/article/10.1007/BF01589116
- 作者：Jorge Nocedal
- 年份：1980

使用示例：

optimizer=torch.optim.LBFGS(model.parameters(),lr=1,max_iter=20)

优化器对比表

优化器	学习率	动量	自适应	收敛速度	推荐度
SGD	固定	可选	❌	慢	⭐⭐
Adam	自适应	✅	✅	快	⭐⭐⭐⭐⭐
AdamW	自适应	✅	✅	快	⭐⭐⭐⭐⭐
RMSprop	自适应	❌	✅	中	⭐⭐⭐
Adagrad	自适应	❌	✅	中	⭐⭐
Adadelta	自适应	❌	✅	中	⭐⭐⭐

在 LeRobot 中的使用

PI0.5 配置

文件：policies/pi05/configuration_pi05.py

optimizer_lr:float=2.5e-5optimizer_betas:tuple[float,float]=(0.9,0.95)optimizer_eps:float=1e-8optimizer_weight_decay:float=0.01

实际使用：

optimizer=torch.optim.AdamW(params,lr=2.5e-5,betas=(0.9,0.95),eps=1e-8,weight_decay=0.01)

选择建议

特殊场景

RNN/LSTM：RMSprop
稀疏梯度：Adagrad, Adamax
小规模模型：LBFGS

关键论文总结

优化器	核心论文	年份	作者
SGD	Stochastic Approximation	1951	Robbins & Monro
Momentum	On the importance of initialization and momentum	2013	Sutskever et al.
Adam	Adam: A Method for Stochastic Optimization	2014	Kingma & Ba
AdamW	Decoupled Weight Decay Regularization	2017	Loshchilov & Hutter
RMSprop	Neural Networks Lecture 6	2012	Hinton
Adagrad	Adaptive Subgradient Methods	2011	Duchi et al.
Adadelta	ADADELTA: An Adaptive Learning Rate Method	2012	Zeiler
RAdam	On the Variance of the Adaptive Learning Rate	2019	Liu et al.