news 2026/5/1 3:13:59

智源TALK|NeurIPS/ACL/ICLR顶会洞察:可扩展强化学习的三条边界

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
智源TALK|NeurIPS/ACL/ICLR顶会洞察:可扩展强化学习的三条边界

报告主题:NeurIPS/ACL/ICLR顶会洞察:可扩展强化学习的三条边界

报告日期:05月9日(周六) 14:30-15:30

报告要点:

强化学习正在重塑大模型能力边界——OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型借助大规模 RL 刷新推理天花板,但核心问题始终是:RL 的 Scaling 边界究竟在哪里?智源Talk 358期邀请了清华大学何秉翔线上分享,围绕三条核心边界展开:Recipe 复杂度是否必然指数增长?无监督 RLVR 在模型超越人类专家后还能走多远?On-Policy Distillation 的密集 token 级监督是否存在隐性代价?清华团队三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD 分别给出系统性回答,为大规模 RL 的未来发展提供了重要理论支撑。欢迎大家一起讨论交流。

论文地址:

JustRL:https://arxiv.org/abs/2512.16649v1

Unsupervised RLVR:https://arxiv.org/abs/2603.08660v1

Rethinking OPD:https://arxiv.org/abs/2604.13016v1

议题详情:

强化学习正在重塑大模型能力的边界。OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型都在用大规模 RL 刷新推理的天花板。但所有人都在追问:RL 究竟能 scale 到哪里?

通往可扩展强化学习的路上,有三个绕不开的问题。第一,当社区在"trick 军备竞赛"里越陷越深,RL recipe 真的必须越来越复杂吗?第二,当人工标注的成本指数级增长、模型逼近甚至超越人类专家,无监督 RLVR 能带我们走多远?第三,相比稀疏的结果奖励,On-Policy Distillation 提供的密集 token 级监督看似是"免费的午餐",但这顿午餐,真的没有代价吗?

清华团队的三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD,分别给出了系统性的回答。

报告嘉宾:

何秉翔,清华大学博士生,导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习,曾在 ACL、ICLR、NeurIPS 等人工智能国际顶级会议发表论文,谷歌学术引用量超1800次。

电脑端观看地址



第八届智源大会 相约6月12日-13日

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 3:12:24

机器人强化学习中的奖励建模挑战与解决方案

1. 机器人强化学习中的奖励建模挑战在机器人强化学习领域,奖励函数的设计一直是决定算法成败的关键因素。传统方法主要分为两类:稀疏最终奖励和手工设计密集奖励,但两者都存在明显缺陷。1.1 稀疏奖励的信用分配难题稀疏奖励通常只在任务完成时…

作者头像 李华
网站建设 2026/5/1 3:10:34

Android 14开发调试遇阻?手把手教你用vdc命令解决adb remount报错

Android 14系统调试实战:深入解析checkpoint机制与vdc命令应用 在Android 14系统开发过程中,许多工程师都遇到过adb remount命令突然失效的困扰。当你正急于修改系统文件进行调试,终端却弹出"Cannot use remount when a checkpoint is i…

作者头像 李华
网站建设 2026/5/1 3:08:44

在多模型并行测试任务中,Taotoken用量看板提供的成本洞察

在多模型并行测试任务中,Taotoken用量看板提供的成本洞察 1. 多模型测试场景中的成本挑战 当团队需要同时评估多个大语言模型的实际表现时,通常会设计一系列标准测试用例进行并行调用。这种测试方法虽然能快速获得对比数据,但往往伴随着不可…

作者头像 李华
网站建设 2026/5/1 3:04:30

NsEmuTools终极指南:如何一键搞定NS模拟器安装配置

NsEmuTools终极指南:如何一键搞定NS模拟器安装配置 【免费下载链接】ns-emu-tools 一个用于安装/更新 NS 模拟器的工具 项目地址: https://gitcode.com/gh_mirrors/ns/ns-emu-tools 还在为NS模拟器的繁琐配置而烦恼吗?NsEmuTools作为一款开源免费…

作者头像 李华