智源TALK｜NeurIPS/ACL/ICLR顶会洞察：可扩展强化学习的三条边界-程序员充电站

报告主题：NeurIPS/ACL/ICLR顶会洞察：可扩展强化学习的三条边界

报告日期：05月9日（周六） 14:30-15:30

报告要点：

强化学习正在重塑大模型能力边界——OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型借助大规模 RL 刷新推理天花板，但核心问题始终是：RL 的 Scaling 边界究竟在哪里？智源Talk 358期邀请了清华大学何秉翔线上分享，围绕三条核心边界展开：Recipe 复杂度是否必然指数增长？无监督 RLVR 在模型超越人类专家后还能走多远？On-Policy Distillation 的密集 token 级监督是否存在隐性代价？清华团队三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD 分别给出系统性回答，为大规模 RL 的未来发展提供了重要理论支撑。欢迎大家一起讨论交流。

论文地址：

JustRL：https://arxiv.org/abs/2512.16649v1

Unsupervised RLVR：https://arxiv.org/abs/2603.08660v1

Rethinking OPD：https://arxiv.org/abs/2604.13016v1

议题详情：

强化学习正在重塑大模型能力的边界。OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型都在用大规模 RL 刷新推理的天花板。但所有人都在追问：RL 究竟能 scale 到哪里？

通往可扩展强化学习的路上，有三个绕不开的问题。第一，当社区在"trick 军备竞赛"里越陷越深，RL recipe 真的必须越来越复杂吗？第二，当人工标注的成本指数级增长、模型逼近甚至超越人类专家，无监督 RLVR 能带我们走多远？第三，相比稀疏的结果奖励，On-Policy Distillation 提供的密集 token 级监督看似是"免费的午餐"，但这顿午餐，真的没有代价吗？

清华团队的三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD，分别给出了系统性的回答。

报告嘉宾：

何秉翔，清华大学博士生，导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习，曾在 ACL、ICLR、NeurIPS 等人工智能国际顶级会议发表论文，谷歌学术引用量超1800次。

电脑端观看地址

第八届智源大会相约6月12日-13日

保姆级教程：用dSPACE ModelDesk的Road模块，5分钟搭建一条带坑洼和交通标志的仿真道路

从零到一：用dSPACE ModelDesk Road模块高效构建复杂仿真道路在汽车电子系统开发领域，仿真测试已成为验证ADAS和自动驾驶功能的黄金标准。作为行业标杆工具链的核心组件，dSPACE ModelDesk的Road模块让工程师能够快速构建包含复杂地形、动态交…

李华

机器人强化学习中的奖励建模挑战与解决方案

1. 机器人强化学习中的奖励建模挑战在机器人强化学习领域，奖励函数的设计一直是决定算法成败的关键因素。传统方法主要分为两类：稀疏最终奖励和手工设计密集奖励，但两者都存在明显缺陷。1.1 稀疏奖励的信用分配难题稀疏奖励通常只在任务完成时…

李华

Android 14开发调试遇阻？手把手教你用vdc命令解决adb remount报错

Android 14系统调试实战：深入解析checkpoint机制与vdc命令应用在Android 14系统开发过程中，许多工程师都遇到过adb remount命令突然失效的困扰。当你正急于修改系统文件进行调试，终端却弹出"Cannot use remount when a checkpoint is i…

李华

在多模型并行测试任务中，Taotoken用量看板提供的成本洞察

在多模型并行测试任务中，Taotoken用量看板提供的成本洞察 1. 多模型测试场景中的成本挑战当团队需要同时评估多个大语言模型的实际表现时，通常会设计一系列标准测试用例进行并行调用。这种测试方法虽然能快速获得对比数据，但往往伴随着不可…

李华

NsEmuTools终极指南：如何一键搞定NS模拟器安装配置

NsEmuTools终极指南：如何一键搞定NS模拟器安装配置【免费下载链接】ns-emu-tools 一个用于安装/更新 NS 模拟器的工具项目地址: https://gitcode.com/gh_mirrors/ns/ns-emu-tools 还在为NS模拟器的繁琐配置而烦恼吗？NsEmuTools作为一款开源免费…

李华

Windows APK安装器终极指南：告别模拟器，直接在电脑上安装Android应用

Windows APK安装器终极指南：告别模拟器，直接在电脑上安装Android应用【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 还在为在Windows电脑上运行…

李华