报告主题:NeurIPS/ACL/ICLR顶会洞察:可扩展强化学习的三条边界
报告日期:05月9日(周六) 14:30-15:30
报告要点:
强化学习正在重塑大模型能力边界——OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型借助大规模 RL 刷新推理天花板,但核心问题始终是:RL 的 Scaling 边界究竟在哪里?智源Talk 358期邀请了清华大学何秉翔线上分享,围绕三条核心边界展开:Recipe 复杂度是否必然指数增长?无监督 RLVR 在模型超越人类专家后还能走多远?On-Policy Distillation 的密集 token 级监督是否存在隐性代价?清华团队三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD 分别给出系统性回答,为大规模 RL 的未来发展提供了重要理论支撑。欢迎大家一起讨论交流。
论文地址:
JustRL:https://arxiv.org/abs/2512.16649v1
Unsupervised RLVR:https://arxiv.org/abs/2603.08660v1
Rethinking OPD:https://arxiv.org/abs/2604.13016v1
议题详情:
强化学习正在重塑大模型能力的边界。OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型都在用大规模 RL 刷新推理的天花板。但所有人都在追问:RL 究竟能 scale 到哪里?
通往可扩展强化学习的路上,有三个绕不开的问题。第一,当社区在"trick 军备竞赛"里越陷越深,RL recipe 真的必须越来越复杂吗?第二,当人工标注的成本指数级增长、模型逼近甚至超越人类专家,无监督 RLVR 能带我们走多远?第三,相比稀疏的结果奖励,On-Policy Distillation 提供的密集 token 级监督看似是"免费的午餐",但这顿午餐,真的没有代价吗?
清华团队的三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD,分别给出了系统性的回答。
报告嘉宾:
何秉翔,清华大学博士生,导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习,曾在 ACL、ICLR、NeurIPS 等人工智能国际顶级会议发表论文,谷歌学术引用量超1800次。
电脑端观看地址