可验证奖励的强化学习(RLVR)在提升大语言模型(LLMs)推理能力方面展现出显著潜力。然而,现有RLVR方法常受限于粗粒度奖励、奖励噪声以及探索效率低下等问题,导致训练过程不稳定和熵崩溃(entropy collapse)。
为应对上述挑战,来自小米的研究者们提出强化学习方法ICPO。受偏好建模思想的启发,ICPO通过比较同一输入提示下多个响应的相对生成概率,为每个响应计算一个偏好优势得分,并将该得分与可验证奖励相结合以指导探索过程。研究团队发现,偏好优势分数不仅能缓解粗粒度奖励和奖励噪声问题,还能有效抑制模型因过度自信而产生的错误,增强那些被低估的高质量响应的相对优势,并防止模型对特定策略的过拟合,从而促进更全面的探索。在四个通用领域基准和三个数学推理基准上的综合实验表明,与GRPO相比,ICPO能稳定地提升模型的推理能力。
论文标题:
ICPO: Intrinsic Confidence-Driven Group Relative PreferenceOptimization for Efficient Reinforcement Learning
论文链接:
https://arxiv.org/pdf/2511.21005
01
方法
研究团队提出的ICPO方法,利用了模型固有的自我评估能力来弥补可验证外部奖励不足。其核心思想在于:LLM在生成不同推理响应时,产生的概率分布本质上代表了模型对其自身推理过程的隐性自我评估。
较高的生成概率表明模型认为该推理路径高度正确,并对其抱有绝对信心。然而,这种情况往往对应于模型对熟悉模式的路径依赖,可能导致其惯性地输出针对简单场景的答案。相反,较低的生成概率实际上可能源于模型尝试对复杂或罕见样本进行推理,即便此时模型自身缺乏信心。这种概率偏好构成了一种细粒度信号,也能反映策略优化的有效性。因此,研究团队将这种内部偏好作为辅助信号来指导策略学习。
图1:ICPO 示意图。ICPO 对采样组内的回答计算偏好优势得分,将其与可验证奖励相结合,并通过多阶段权重调整来稳定训练过程。
ICPO借鉴了DPO算法中成对偏好建模的思路。对同一输入提示生成的组内多个响应,按其生成概率升序排列,将组内响应两两组合形成多个成对响应集合。通过比较每对响应的概率,计算每个响应的偏好优势得分,以反映其在组内的相对优劣程度。
如图1所示,**ICPO将偏好优势得分与传统的可验证外部奖励深度融合,**具有三个关键优势:
(1)当外部奖励粒度较粗时,偏好优势得分作为一种补充信号,能够为中间推理步骤的相对优劣提供细粒度的指导。
(2)其稳定性有助于过滤掉可验证奖励中存在的评估噪声与偏差,从而放大高质量响应与低质量响应之间的相对价值差异。
(3)该设计能有效缓解强化学习推理过程中两类典型失效模式:
- 它能精准识别并抑制模型的“过度自信错误”——即模型以高概率生成看似合理但实际错误的推理路径,同时增强那些被低估的高质量响应的相对优势;
- 通过持续提供组内对比信号,维持策略的探索动力,从而避免因外部奖励模糊或粒度粗糙所导致的训练不稳定和熵崩溃问题。
ICPO的优化目标如下:
其中,表示融合了归一化偏好优势得分的可验证奖励,即图1中所示的
。
通过将自身置信度作为额外奖励,ICPO引导策略主动从被低估的响应中学习,从而挖掘未被充分利用的知识。
基于内部偏好(即内部生成概率较低的响应获得更靠前的排序位置)对采样组内的响应进行升序排列。该排序过程表示为:
其中,Li 表示响应 oi 的有效长度(即非填充 token 的数量),πθ(ot∣o<t,s)表示模型在位置t生成 token ot的概率,而 πθ(oi∣s) 表示整个响应oi的序列级生成概率。根据 token 数量对概率进行归一化,以确保在不同长度的响应之间进行公平比较,并防止对较短响应产生偏好偏差。将这种完全由生成概率决定的排序结构与外部奖励解耦,从而避免了外部奖励中可能存在的噪声干扰。
基于排序结果,构建所有满足偏序关系的有效偏好对 (oi,oj),其中, oi 严格排在 oj 之前。该偏好对集合定义如下:
随后,为每个响应计算偏好优势得分。通过有效建模偏序关系,量化每个回答相对于同组内其他候选响应的相对优劣程度。第k个响应的偏好优势得分定义如下:
为了更有效地引导策略模型在探索中学习未被充分利用的知识,研究团队设计了一个复合奖励函数,将基于外部评分策略的可验证奖励与内部偏好优势得分相结合。这种奖励机制不仅反映了响应在目标任务的表现,还捕捉了同一组内各候选响应之间的相对学习价值。最终奖励建模如下:
权重参数 ω 用于调节内部优势信号注入的强度。研究团队采用一种多阶段权重调整策略,在不同训练阶段动态调整 ω。
如图 1 中的曲线所示,在训练初期采用反余弦增长模式来调整权重值,使模型能够逐步吸收由自身概率分布驱动的细粒度偏好信息。当 ω 达到最大值后,采用线性退火(linear annealing)方式,将其逐渐降低至最小值。此外,会根据每个响应各自的可验证奖励进行裁剪,从而防止内部偏好过度主导复合奖励。
该奖励机制不仅规避了纯依赖外部奖励可能引发的奖励欺骗(reward hacking)问题,还显著增强了策略模型在粗粒度奖励或存在噪声的场景下的鲁棒性与探索效率。
02
评估
主要结果与训练动态如表1、图3所示。可以发现:
(1)与使用标准GRPO训练的RLVR方法相比,ICPO方法在Gemma、Llama和Qwen模型上均呈现出更显著的通用推理能力提升,平均增幅分别达到1.4、2.7和2.5个百分点。
(2) ICPO在数学推理场景中表现卓越,在三大数学基准测试上均超越PRIME与SimpleRL-Zoo。值得注意的是,即使未经过数学专项训练,ICPO仍能实现数学推理能力的显著增强,其效果堪比专门针对数学推理设计的训练框架。
(3) 训练过程中,ICPO在早期阶段的测试集准确率提升速度较标准GRPO更为缓慢,但后期逐渐追平并最终反超GRPO的性能。同时,其策略熵在整个训练周期始终保持稳定的探索状态。这与内在置信度驱动的探索机制一致:ICPO能够防止模型过早收敛到虚假的高奖励路径,从而鼓励在低置信度区域对高质量动作进行充分探索。这有助于模型平稳地转向目标导向的探索,减少熵崩溃现象并提升准确率。
研究团队对训练数据进行了筛选,仅保留所有实例完全正确或完全错误的样本,并将其作为粗粒度奖励训练集。
如表2所示,与GRPO相比,ICPO在奖励稀疏的条件下仍能有效探索:它能逐步识别出高潜力响应路径,并最终实现稳定的性能提升。相比之下,GRPO由于缺乏细粒度的反馈,无法准确判断策略更新方向,导致性能停滞甚至退化。这些结果表明,ICPO通过隐式对比建模,有效缓解了在极端粗粒度奖励场景下的探索-利用困境,为缺乏显式偏好标注的场景提供了可行的优化方案。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。