news 2026/4/17 8:59:51

关于GR-RL与PI-0.6的一些想法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
关于GR-RL与PI-0.6的一些想法

原始文章发布在知乎,欢迎移步:《关于GR-RL与PI-0.6的一些想法》

最近学习了字节跳动gr-1/gr-2/gr-3/gr-rl(关于gr-rl:文档1和文档2)系列工作,再结合以前看的pi系列模型或算法,产生了一些想法,想法可能不成熟甚至有错误,仅在此记录总结一下,以便回顾。

1,gr-1/gr-2是基于视频生成的技术路线去设计,核心就是通过未来帧的预测,一方面可以利用海量的视频数据,另一方面可以学习到一些语义和操作的通用知识。而gr-3完全换了路线,切换到了pi0/pi0.5这种基于VLM+action expert(flow matching)的路线上,是否说明在技术路线上前者不如后者呢?

2,两个系列模型发展路线:

pi0->pi0.5->pi0.6(RL)
gr-1->gr-2->gr-3->gr-rl
pi0.5与gr-3,pi0.6与gr-rl这两两之间的思路已经相当接近了,有一种殊途同归的感觉,读相关的技术报告确实可以学习到很多。字节的开源精神再强一些,把相关的代码开源一下,可以让大家复现就更好了。

3,今天详细的阅读了gr-rl论文,它是based在gr-3的基础之上,有一些收获吧:

3.1,通过时序差分(TD)的思想去训练一个critic网络,并且先通过数据离线进行训练,这点和pi0.6中的思路是一样的。离线先训练critic应该可以减少RL整体的训练时间。有些细节不同之处是:pi0.6是训练了一个V函数,而gr-rl训练了一个Q函数,另外gr-rl训练的Q函数输出是一个分布,而不是传统强化学习中的一个值,论文中说分布更加鲁棒。

3.2,策略网络的训练,gr-rl与pi0.6差别比较大,最近也看了一些如何在flow matching基础之上让强化学习去训练它的一些方法,例如:《 ​π RL(piRL)算法支持用强化学习方法训练π 0/π 0.5(pi0/pi0.5)》。其实大家所做的目标只有一个,就是如何将RL与flow matching结合,一句话说核心点:

pi0.6是通过训练好的critic网络生成一个condition去sft监督训练策略网络;
gr-rl不会动已经sft训练好的策略网络,而是对flow matching初始时的那个原始噪声进行了优化,通过一个噪声网络
去预测这个初始噪声,同时也增加了一个Q网络
对噪声策略输出的噪声进行打分。在前向推理的时候,不再从高斯采样,而是让 π_θ′ 根据当前观测直接给出最优噪声 ε,再由冻结的流模型一步(或少量几步)解码成动作。整体上,此方案相当于在flow matching基础之上,找到了一个突破口(初始噪声),在这个突破口上添加了一个外挂,在强化学习中去训练这个外挂,外挂外的其它部分不参与训练。论文中相关的描述如下:

pi0.6/gr-rl/piRL三者的思路有没有优劣之分,目前还不太清楚,后续有时候看一下相关的参考文献或亲自尝试一下。如果各位有相关信息,希望能不吝赐教!
3.3,双buffer的设计类似于:《具身智能hil-serl强化学习算法在lerobot机械臂上复现》中的双buffer。

3.4,通过模仿学习,数据增强,强化学习协同的方式持续提升效果,短期有可能会是一个主流的范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 20:18:33

AI教育“神仙打架”:作业帮、豆包爱学、小袁AI谁能笑到最后?

AI教育领域将再现“神仙打架”?近日,社交媒体平台上流传关于“小米进军AI教育”的消息,相关讨论源自小米集团招聘页面中出现的多个AI教育相关岗位,引发网友猜测小米是否要“开班授课”。当前,AI教育领域已是一片红海&a…

作者头像 李华
网站建设 2026/4/18 5:32:25

万辰集团赴港IPO不甘落后

作为国内两大零食连锁门店巨头,鸣鸣很忙、好想来当前正在抢夺赴港IPO量贩零食第一股,好想来母公司万辰集团已于2025年9月23日正式向港交所递交上市申请。不过,日前鸣鸣很忙上市备案已经获得了证监会通过。中国证监会12月11日发布《关于湖南鸣…

作者头像 李华
网站建设 2026/4/18 0:32:33

算法博弈下的零播放:TikTok美区破局的核心逻辑与增长法则

TikTok美区卖家最沮丧的境况,莫过于视频发布后播放量停留在“0”,这并非内容问题,而是一场与平台算法的无声资格认证,零播放的本质,是账号未能通过初始“信任验证”,被置于流量孤岛,修复这种“信…

作者头像 李华
网站建设 2026/4/18 5:34:16

11、Nagios配置自动化工具指南

Nagios配置自动化工具指南 1. 脚本模板 在Nagios配置管理中,脚本模板是一种有效的方式。许多Nagios管理员会维护一套所谓的引导模板,这里的模板并非之前讨论的对象模板,而是骨架配置文件,它们能轻松与主机列表结合,创建有效的Nagios配置。为避免与对象模板混淆,后续将其…

作者头像 李华
网站建设 2026/4/5 8:32:06

QDK文档更新速递:2024年新增功能一览(限时解读)

第一章:QDK文档更新速递:2024年新增功能概述2024年量子开发工具包(QDK)迎来重大版本迭代,文档体系全面升级,新增多项功能以支持更高效的量子算法开发与仿真调试。本次更新聚焦于开发者体验优化、新语言特性…

作者头像 李华
网站建设 2026/4/18 5:31:36

十五五数字孪生智能工厂AI大模型数字化平台规划设计方案:“数据+模型”双轮驱动、总体架构、核心应用规划

“十五五”数字孪生智能工厂AI大模型数字化平台,以“数据模型”双轮驱动,打通虚实、产供、管控全链路,实现自感知、自决策、自执行的闭环智能,打造可复制、可推广的未来工厂新范式。一、总体目标围绕“十五五”智能制造发展战略&a…

作者头像 李华