news 2026/4/18 2:59:57

PPO是属于什么类型的RL算法,on policy还是off policy

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
PPO是属于什么类型的RL算法,on policy还是off policy

PPO是属于什么类型的RL算法,on policy还是off policy

PPO(Proximal Policy Optimization属于 on-policy 的强化学习算法


结论一句话

👉PPO 是 on-policy 的策略梯度(Policy Gradient)方法,而不是 off-policy。


为什么 PPO 是 on-policy?

1️⃣ 数据来源决定属性

  • on-policy
    使用**当前策略(或非常接近的策略)**采样得到的数据来更新策略

  • off-policy
    可以用历史策略或其他策略采样的数据(例如 replay buffer)

👉 PPO 在每一轮更新中:

  • 当前策略πθ_old采样轨迹

  • 用这些轨迹来更新新策略 πθ

虽然更新过程中会进行多次gradient step,但这些数据不能跨策略长期复用,这就是 on-policy 的核心特征。


2️⃣ PPO 的核心目标函数是 on-policy 的

PPO 的 clipped objective:

LCLIP(θ)=Et[min⁡(rt(θ)At, clip(rt(θ),1−ϵ,1+ϵ)At)]L^{\text{CLIP}}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) A_t,\; \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right]LCLIP(θ)=Et​[min(rt​(θ)At​,clip(rt​(θ),1−ϵ,1+ϵ)At​)]

其中:

rt(θ)=πθ(at∣st)πθold(at∣st)r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}rt​(θ)=πθold​​(at​∣st​)πθ​(at​∣st​)​

关键点:

  • 分母是采样数据时的旧策略

  • 数据必须来自π_old

  • 如果策略差太多,clip 会限制更新

👉 这是受限的 on-policy 更新,而不是 off-policy 的任意重放。


3️⃣ PPO 和 off-policy 方法的本质区别

算法类型是否可用 replay buffer代表算法
PPOOn-policy❌ 不可长期复用PPO, A2C, TRPO
DQNOff-policyDQN
SACOff-policySAC
TD3Off-policyTD3

常见误解澄清 ⚠️

❌ “PPO 用 importance sampling,所以是 off-policy?”

不对。

  • PPO 的 importance sampling只是限制新旧策略的差异

  • 并不允许使用任意旧数据

  • 数据仍然来自最近一次策略

👉 这是on-policy with correction,不是 off-policy


一句话记忆法 🧠

  • 策略梯度 + 当前策略采样 = on-policy

  • Q-learning + replay buffer = off-policy

PPO 属于前者。


如果你愿意,我也可以:

  • 理论角度对比 PPO vs SAC

  • 量化交易 / 连续控制角度讲为什么 PPO 常被用

  • 结合代码(如 Stable-Baselines / CleanRL)解释 on-policy 的具体实现

直接告诉我你更关心哪一块 👍

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 6:25:10

压缩文件夹下下所有文件成压缩包tar.gz--随笔016

你需要将指定文件夹下的 ** 所有文件(包含子文件夹及其中文件)** 打包并压缩为tar.gz格式,我会提供具体的终端命令、参数解释和注意事项,适用于 Linux/macOS 系统(Windows 可使用 Git Bash、WSL 或 7-Zip 执行&#xf…

作者头像 李华
网站建设 2026/4/18 6:25:07

古风权谋动态漫制作2025推荐,多维度解析

古风权谋动态漫制作2025推荐,多维度解析在当今的文化创意产业中,古风权谋动态漫以其独特的魅力吸引了众多观众的目光。然而,制作一部高质量的古风权谋动态漫并非易事,需要综合考虑多个维度。那么,如何才能制作出一部优…

作者头像 李华
网站建设 2026/4/17 22:05:05

Zotero下载安装保姆级教程(附官网正版安装包,非常详细)

Zotero 是一款完全免费、开源、跨平台的文献管理工具,支持 Windows、macOS、Linux 三大桌面系统,也有官方 iOS 客户端。 Zotero 的核心任务只有一件,把你在网页、数据库、图书馆目录、PDF 文件里看到的学术资源,一键抓下来&#…

作者头像 李华
网站建设 2026/4/1 12:42:14

【开题答辩全过程】以 基于微信小程序的生活社区平台的设计与开发为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华
网站建设 2026/4/9 2:04:13

Cplusplus生成代码大小的说明-–-behaviac

原文 C版本广泛的用到了template。 Code bloat occurs because compilers generate code for all templated functions in each translation unit that use them. Back in the day the duplicate code was not consolidated resulting in “code bloat”. These days the dupl…

作者头像 李华
网站建设 2026/4/15 18:54:53

手把手拆解三菱PLC印字机实战项目

三菱PLC组装印字机完整项目资料 1、采用三菱FX3U,威纶通MT6071IP触摸屏 ( 2、有说明书,BOM零件表,电路图 3、程序有完整的注释,结构清晰明了。 很好的项目学习资料。 工业02-18.电气印字机电气最近淘到一套工业级印字机的完整项目…

作者头像 李华