news 2026/4/18 11:20:46

一起聊聊JustRL,如何只用最基础的 RL 配方也能达到不错的性能?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一起聊聊JustRL,如何只用最基础的 RL 配方也能达到不错的性能?

青稞社区:https://qingkeai.online/
原文:https://mp.weixin.qq.com/s/so8r31sbi1GU4uILKQHU0g

如果有人说:不用分阶段训练、不搞课程学习、不动态调参,只用最基础的 RL 配方也能达到不错的性能,会是怎样的结果?

清华团队用两个 1.5B 模型做了这个尝试。结果在 9 个数学推理基准上达到了 54.87% 和64.32% 的新基线,算力只用了一半,训练过程也很平稳,4000步没遇到什么大问题。

更有趣的是,当我们试着加入一些"应该有用"的优化时,性能反而下降了。也许在某些情况下,简单的方法充分训练后,效果可能比我们预期的要好。这个工作最大的 novelty,也许就在于没有 novelty。

2月3日(周二)晚8点,青稞社区和减论平台将联组织 #青稞Talk 第107期,清华大学博士生何秉翔,将直播分享《JustRL: 用"最笨"的 RL 方法刷新 1.5B 推理模型新基线》。

分享嘉宾

何秉翔,清华大学博士生,导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习,曾在 ACL、ICML、NeurIPS 等人工智能国际顶级会议发表论文,谷歌学术引用量超1000次。

主题提纲

JustRL: 用"最笨"的 RL 方法刷新 1.5B 推理模型新基线

1、RL 训练的 Trick 方法
2、极致简洁的 JustRL 及实现
3、消融实验及性能对比
4、AMA (Ask Me Anything)环节

直播时间

2月3日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行进行直播,欢迎预约观看!

Bilibili 直播间:
https://live.bilibili.com/32145701

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 7:43:23

springboot企业人事工资管理系统-开题报告

目录 开题报告背景与意义系统核心功能模块技术选型与创新点预期成果与难点研究方法与计划 项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作 开题报告背景与意义 随着企业规模扩大和人力资源管理复杂度提升…

作者头像 李华
网站建设 2026/4/18 10:05:48

交互装置在2026展厅展馆中的常见展项

在当代展厅和展馆中,交互装置已经成为不可或缺的重要组成部分。这些装置不仅提升了观众的参观体验,还增强了展览内容的传达效果和记忆点。从多种多样的互动展项中,我们可以看到交互装置在展厅展馆中的多方面重要性。 交互装置极大地提升了观众…

作者头像 李华
网站建设 2026/4/18 5:17:22

<span class=“js_title_inner“>从数据供给到价值变现的闭环构建|大模型与数据要素论坛圆满落幕!</span>

汇聚来自产学研各界的顶级专家与企业领袖,共同探讨如何通过数据采集、标注、生产、评估、交易流通等全链路环节,构建“行业数据模型”的AI产品闭环,推动新质生产力蓬勃发展。 在大模型时代,数据已成为模型发展重要要素。近日&…

作者头像 李华