在大语言模型(LLM)与强化学习(RL)深度融合的今天,一个核心问题正从幕后走向台前:当模型生成长达数万甚至数百万token的轨迹,或是在复杂环境中完成多轮交互任务时,最终的奖励该如何合理分配给每一步决策?这个问题,就是强化学习中的“信用分配”(Credit Assignment)。
早期的LLM强化学习的信用分配简单直接,甚至可以说是“粗放”的。但随着推理型强化学习(Reasoning RL)和智能体强化学习(Agent RL)的爆发,信用分配的难度呈指数级上升,成为制约大模型能力突破的关键瓶颈。本文将从LLM-RL的范式演进出发,系统梳理信用分配机制从简单到复杂、从粗放至精细的变迁,拆解不同场景下的核心方法、难点与突破,让这一专业概念变得通俗易懂,同时揭示Agent时代信用分配的全新挑战与未来方向。
这篇文章也是目前首个完整梳理“推理RL→Agent RL”信用分配机制的综合性解读,核心结论先行:Agent场景下的信用分配绝非推理RL的简单延伸,而是一个全新的、需要重新建模和突破的核心问题。
一、为什么现在,信用分配突然变得至关重要?
在LLM-RL的早期阶段,信用分配并不是一个需要重点关注的问题。彼时以RLHF(基于人类反馈的强化学习)、DPO(直接偏好优化)、GRPO(广义近端策略优化)为代表的方法,采用的是“整段统一奖励”模式,简单来说,就是模型生成一段完整回复后,奖励模型给这段回复打一个整体分数,好就整段涨分,不好就整段扣分。
这种模式在单轮短文本场景下完全可行,比如让模型生成一句问候语、一个简单问题的答案,轨迹长度通常在500token以内,奖励信号密集且直接,信用分配可以隐式完成,无需刻意拆分。但随着大模型能力的提升,两类高复杂度任务的爆发,彻底打破了这种“粗放式分配”的适用场景,让信用分配成为绕不开的核心难题。
第一类任务是Reasoning RL相关任务,典型代表是数学推理、代码生成、单轮长思维链(Chain-of-Thought)生成。这类任务的核心特点是,模型需要生成长达500至30000+token的连续轨迹,而奖励通常是“终端二元奖励”,也就是只有最终答案正确或错误两种结果,中间没有任何中间奖励信号。比如模型解一道复杂的数学题,可能需要生成上千步的推理过程,最终只有“做对”或“做错”两种反馈,如何将这一个二元奖励合理分配到上千个推理步骤、上万个token上,就成为推理RL的核心挑战。
第二类任务是Agent RL相关任务,也是当前大模型应用的热门方向。这类任务将强化学习扩展到多轮交互场景,让智能体(Agent)能够完成多轮工具调用、网页导航、代码编写,甚至与其他智能体协作。其轨迹复杂度远超推理RL,通常包含10至100+轮交互,总token数可达十万至百万级,而奖励依旧是稀疏且延迟的,往往只有在整个任务完成(成功或失败)时才会给出。
举个直观的例子:让Agent完成“帮我预订明天从北京到上海的高铁票,并告知酒店入住须知”的任务,整个过程可能包含“打开购票软件、查询车次、选择座位、确认订单、检索酒店信息、提取入住须知”等多轮交互,每一轮都可能出现决策偏差。如果最终预订成功,这个“成功”的奖励该分给哪一轮?是查询车次的步骤,还是确认订单的步骤?如果预订失败,是因为车次查询错误,还是订单确认时操作失误?
信用分配的难度,正是随着这种Agentic轨迹的复杂性急剧增加的。像GRPO这类基于回合级(episode-level)的信用分配方法,会给轨迹中所有token分配相同的优势(advantage),在推理RL中勉强可用,但在Agent RL的长程任务、多变轨迹中,这种均匀分配会导致信噪比(signal-to-noise ratio)显著下降,有用的决策信号被大量无关步骤稀释,最终导致模型训练不稳定,甚至无法学到有效的策略。
可以说,信用分配的能力,直接决定了LLM-RL能否从“单轮短文本优化”走向“复杂任务自主决策”,也是区分推理RL与Agent RL的核心标志之一。
二、LLM-RL三大范式演进:信用分配的难度阶梯
面向大语言模型的强化学习,其演进过程本质上是“轨迹变长、环境变复杂、奖励变稀疏”的过程,而信用分配的挑战也随之逐步升级。从早期的RLHF/DPO/GRPO,到中期的Reasoning RL,再到如今的Agent RL,每一个范式的升级,都对信用分配提出了全新的要求,形成了一个清晰的难度阶梯。
2.1 第一范式:RLHF/DPO/GRPO,隐式的简单信用分配
以InstructGPT为代表的早期LLM-RL,确立了“先根据人类偏好训练奖励模型,再通过近端策略优化(PPO)微调大语言模型”的核心范式,RLHF、DPO、GRPO都是这一范式下的典型方法。
这一阶段的任务特点非常明确:单轮短文本生成,轨迹长度通常在500token以内,比如生成符合指令的句子、简单的问答回复等。奖励模型的工作方式也很直接,对整个回复给出一个密集的标量信号,比如给“符合指令、表达流畅”的回复打8分,给“偏离指令、语法错误”的回复打3分。
此时的信用分配是“隐式”且简单的。因为轨迹短、步骤少,即使是给整段回复分配统一奖励,模型也能大致判断出“哪些表述是符合要求的”,无需刻意拆分奖励。就像老师批改一道简单的填空题,只要最终答案正确,就给满分,无需纠结学生是怎么算出这个答案的,这种粗放式分配,在短轨迹、密集奖励场景下,效率高且效果足够。
这一阶段的信用分配,本质上是“无明确分配需求”的,因为奖励信号足够密集,模型可以自行捕捉到有效的决策信息,无需额外的复杂分配机制。
2.2 第二范式:Reasoning RL,需要显式的步骤级信用分配
随着大模型推理能力的需求提升,Reasoning RL应运而生。其核心代表是DeepSeek-R1,这款模型在数学问题上使用二元正确性奖励的GRPO方法,成功训练出具备长程思维链推理能力的模型,标志着LLM-RL进入“推理时代”。
Reasoning RL的任务特点发生了根本性变化:单轮超长生成,轨迹长度从500个token(简单数学题)到30000+个token(复杂数学推理、长代码生成)不等,核心是“思维链生成”,模型需要一步步推导,最终得出答案。而奖励依旧是终端二元奖励,只有“最终答案正确”或“最终答案错误”两种反馈,没有任何中间步骤的奖励。
这就带来了第一个明确的信用分配难题:如何将一个单一的、终端的奖励,分摊到数千个甚至数万个推理token、数十个推理步骤上?
比如,模型解一道复杂的微积分题,需要生成2000个token的推理过程,最终答案正确,获得1分的奖励。这1分的奖励,是该分给第一步的“确定解题思路”,还是分给中间的“求导步骤”,或是分给最后一步的“计算结果”?如果最终答案错误,是哪一步的推理失误导致的?是思路错了,还是计算错了?
此时,早期的整段统一奖励模式完全失效。如果给整段推理过程都分配相同的奖励,模型无法区分“正确步骤”和“错误步骤”,甚至会强化错误的推理逻辑;如果只给最终答案分配奖励,模型无法学到有效的推理过程,只能盲目尝试“碰运气”得出正确答案。
因此,Reasoning RL的核心需求,就是“显式的步骤级信用分配”,必须将终端奖励拆解到每一个推理步骤、每一个语义段,让模型知道“哪一步做对了,哪一步做错了”,才能逐步优化推理能力。这也是Reasoning RL与早期LLM-RL的核心区别之一。
2.3 第三范式:Agent RL,全新的、高难度的信用分配挑战
当LLM-RL从“单轮推理”走向“多轮交互”,Agent RL便应运而生。它将强化学习扩展到更复杂的现实场景,让Agent能够与环境交互、调用工具、多轮对话,甚至与其他Agent协作,典型任务包括网页导航、自动编程、智能办公助理等。
Agent RL的轨迹复杂度,相比Reasoning RL又上了一个台阶:多轮交互(Turn-based),轨迹跨越10至100+轮,每轮之间都需要与环境交互;环境具有随机性和部分可观测性,比如工具调用的返回结果不确定、网页状态随时变化;奖励依旧是稀疏且延迟的,只有在整个任务完成(成功或失败)时才会给出,总token数可达十万至百万级。
这种场景下的信用分配,难度实现了“质的飞跃”,已经不是“拆分奖励”那么简单。它需要解决两个核心维度的问题:第一,在多轮交互中,哪一轮是关键决策轮?第二,在每一轮的回复中,哪些token是关键信息?
举个例子:让Agent完成“从某网站下载一份数据,并进行数据分析,生成可视化图表”的任务。整个过程可能包含10轮交互:1. 打开目标网站;2. 检索数据所在页面;3. 下载数据;4. 检查数据完整性;5. 选择分析工具;6. 编写分析代码;7. 运行代码;8. 调整分析参数;9. 生成可视化图表;10. 保存并提交结果。
如果最终成功生成图表,这个“成功”的奖励该如何分配?是下载数据的第3轮更关键,还是编写代码的第6轮更关键?如果失败了,是因为数据下载不完整(第4轮),还是代码出错(第6轮),或是参数调整不当(第8轮)?更复杂的是,环境是随机的,比如下载数据时网络中断,导致任务失败,这时候该给哪一轮分配“负信用”?是打开网站的第1轮,还是下载数据的第3轮?
这些问题,都是Reasoning RL中从未遇到过的。Agent RL的信用分配,不仅要面对“长轨迹、稀疏奖励”的问题,还要应对“环境随机、部分可观测、动作异构、中间步骤不可验证”等全新挑战,这也决定了它的信用分配机制,必须是全新的,而不是推理RL的简单延伸。
三、形式化建模:Reasoning RL与Agent RL的信用分配本质差异
要理解两种场景下信用分配的差异,首先需要对它们进行形式化建模,通过马尔可夫决策过程(MDP)或部分可观察马尔可夫决策过程(POMDP),清晰定义“状态、动作、转移、奖励”四个核心要素,从而明确信用分配的核心挑战。
3.1 Reasoning RL:Token-level MDP(确定性轨迹)
Reasoning RL可以被建模为一个“Token级MDP”,其核心特点是“轨迹确定性”,具体定义如下:
状态:prompt(提示词)加上目前已生成的所有tokens,也就是说,每一步的状态都是“历史输入+已生成内容”的组合,是完全可观测的。
动作:模型生成的下一个token,因为LLM是自回归生成的,每一步只能生成一个token,所以动作是“单一token”。
转移:确定性的。因为自回归生成的特性,给定当前状态和动作(下一个token),下一个状态是唯一确定的,比如当前状态是“1+1=”,动作是“2”,那么下一个状态就是“1+1=2”,不会出现其他可能性。
奖励:仅在终止状态给出,也就是只有生成完所有token、得出最终答案后,才会给出“正确”或“错误”的二元奖励,中间没有任何奖励信号。
基于这个建模,Reasoning RL的信用分配挑战就非常明确了:在一个“完全可观测、确定性、单轮长序列”的轨迹中,将终端的二元奖励,分配给每一个token或每一个推理步骤,核心难点在于“长序列、细粒度、可验证中间步骤”,虽然中间步骤可验证(比如数学推理的每一步都可以检查对错),但序列太长,如何精准分配奖励,避免“一步错、全锅背”或“一步对、全加分”的问题。
3.2 Agent RL:Turn-level POMDP(随机轨迹)
与Reasoning RL不同,Agent RL需要被建模为一个“回合级部分可观察马尔可夫决策过程(Turn-level POMDP)”,其核心特点是“轨迹随机性”和“部分可观测性”,具体定义如下:
状态:包括三部分内容,对话历史(多轮交互的所有内容)、环境状态(比如工具的返回结果、网页的当前状态)、检索到的上下文信息。关键在于,环境状态是“部分可观测”的,Agent无法获取环境的全部信息,只能看到部分反馈,比如调用工具后,只能看到工具返回的结果,无法知道工具内部的运行过程。
动作:模型在某一轮的完整回复,而不是单个token。这一轮回复可能包含多个token,比如“调用数据下载工具,参数为XXX”,整个这句话就是一个动作,动作具有“异构性”,可能是规划指令、工具调用、闲聊回复等,不同类型的动作,其重要性天差地别。
转移:随机的、非平稳的。因为环境是动态变化的,给定当前状态和动作,下一个状态是不确定的。比如Agent发出“下载数据”的动作,可能因为网络问题下载失败,也可能下载成功,两种情况会导致完全不同的下一个状态,这种随机性是Reasoning RL中不存在的。
奖励:稀疏、延迟、多步依赖。只有在整个任务终止时(成功或失败)才会给出奖励,而且奖励的获取往往依赖于多轮动作的协同,比如生成可视化图表的任务,需要下载数据、编写代码、调整参数等多轮动作都正确,才能获得正奖励,任何一轮出错都可能导致任务失败。
基于这个建模,Agent RL的信用分配挑战就变得异常复杂了:在“部分可观测、随机、多轮交互、动作异构”的轨迹中,不仅要分配“轮次间”的信用(哪一轮更关键),还要分配“轮次内”的信用(该轮中哪些token更重要),核心难点在于“关键分叉点识别、噪声环境过滤、不可验证中间步骤”,中间步骤没有像数学那样的标准答案,无法自动判断对错,而且少数关键决策(比如下载数据的步骤)会直接决定任务成败,均匀分配奖励完全无效。
3.3 信用分配的通用定义
无论哪种范式,信用分配的核心目标都是一致的,我们可以给出一个通用定义:给定一段轨迹(由一系列动作组成)和一个稀疏的最终奖励,信用分配的目标是为轨迹中的每一步动作分配一个“信用值”,这个信用值用于指导模型的策略更新,信用值越高,说明该动作对最终奖励的贡献越大,模型就会强化这个动作;信用值越低(甚至为负),说明该动作对最终奖励的贡献越小(或有负面影响),模型就会弱化这个动作。
简单来说,信用分配就是“论功行赏”,在一个团队任务中,最终完成了目标,需要判断每个成员的贡献大小,然后根据贡献分配奖励,这样才能激励团队下次做得更好。模型的训练也是一样,只有正确分配信用,才能让模型学到有效的策略,避免“瞎忙活”或“错把错误当正确”。
四、经典信用分配机制:两大核心维度与方法分类
在LLM-RL的发展过程中,研究者们提出了多种信用分配机制,这些机制可以通过“分配粒度”和“分配方法”两个核心维度进行分类,形成一个清晰的二维分类框架。理解这两个维度,就能快速掌握所有经典信用分配方法的核心逻辑。
4.1 信用分配粒度:从细到粗的分层划分
分配粒度,指的是“将信用分配到哪个层级”,也就是“论功行赏”的对象是谁。从细到粗,主要分为5个层级,不同层级对应不同的应用场景:
1. Token级:最细的分配粒度,将信用分配到单个token上。比如在推理RL中,给每一个生成的token分配信用值,判断每个token对最终答案的贡献。这种粒度的优点是精准,能精准定位到错误的token,但缺点是计算量极大,在长轨迹场景下几乎不可行,主要适用于短序列推理任务。
2. Segment级:将信用分配到“语义块”或“思维链片段”上。比如将一段数学推理过程拆分为“审题→找解题思路→计算→验证”四个语义段,给每个语义段分配信用值。这种粒度比Token级粗,计算量更小,同时能保留“步骤级”的精准度,是Reasoning RL中的主流粒度之一。
3. Step/Thought级:将信用分配到“单步推理”上。比如一道数学题的每一步推导,就是一个Step,给每一步推导分配信用值,判断哪一步推导对最终答案的贡献最大。这种粒度与Segment级类似,但更侧重“推理步骤”,而非“语义块”,同样适用于Reasoning RL。
4. Turn级:将信用分配到“Agent的单轮交互”上。这是Agent RL的核心粒度,因为Agent的轨迹是多轮交互组成的,每一轮都是一个独立的决策单元,给每一轮分配信用值,判断哪一轮的决策对任务成败最关键。这种粒度比Step级粗,能适应多轮交互的长轨迹场景,同时兼顾计算效率。
5. Agent级:将信用分配到“多智能体系统中的单个Agent”上。在多智能体协作任务中,多个Agent共同完成一个任务,需要判断每个Agent的贡献大小,给每个Agent分配信用值。这种粒度最粗,主要适用于多智能体RL场景。
从粒度的演进趋势来看,呈现出“从细到粗”的特点,从Reasoning RL的Token/Segment/Step级,逐步过渡到Agent RL的Turn级,再到多智能体的Agent级。这背后的原因是,轨迹复杂度越高,细粒度分配的计算成本就越高,同时噪声也越多,粗粒度分配反而能更高效地捕捉关键决策信号。
4.2 信用分配方法:四大方法论家族
分配方法,指的是“如何计算每一层级的信用值”,也就是“如何判断贡献大小”。目前主流的方法可以分为四大家族,各自有不同的适用场景和优缺点:
1. Monte Carlo(MC,蒙特卡洛)方法:基于“轨迹回放”的估计方法。核心逻辑是,通过多次回放轨迹,统计每一步动作在不同轨迹中的“平均贡献”,以此作为该动作的信用值。比如,多次让模型解同一道数学题,统计某一步推理在“做对”的轨迹中出现的概率,概率越高,信用值越高。这种方法的优点是无偏,能准确估计动作的真实贡献,但缺点是方差大,需要大量轨迹回放,计算成本高,适用于轨迹较短、可复现的场景(如Reasoning RL)。
2. Temporal Difference(TD,时序差分)方法:基于“价值网络+GAE(广义优势估计)”的方法。核心逻辑是,通过训练一个价值网络,预测每一步动作的“未来价值”,再结合GAE计算动作的优势值,以此作为信用值。这种方法的优点是方差小,计算效率高,不需要大量轨迹回放,适用于长轨迹、随机环境的场景(如Agent RL)。
3. LLM-as-Critic(大模型作为评论家)方法:让大语言模型直接给每一步动作打分。核心逻辑是,训练一个大模型作为“评论家”,输入当前状态和动作,让模型直接输出该动作的信用值(打分)。这种方法的优点是灵活,能处理复杂的语义场景,不需要复杂的数学建模,适用于Reasoning RL和Agent RL的多种场景,但缺点是依赖评论家模型的性能,容易出现打分偏差。
4. Causal / Counterfactual(因果/反事实)方法:基于“因果关系”的估计方法。核心逻辑是,通过分析动作与最终奖励之间的因果关系,或者通过“反事实推理”(假设某一步动作没有执行,最终奖励会如何变化),来估计动作的贡献。典型代表是Shapley值、ATE(平均处理效应)等,这种方法的优点是能精准捕捉关键动作的贡献,适用于多轮交互、多智能体等复杂场景,但缺点是计算复杂,难以应用于超长轨迹。
除了这四大主流方法,还有一些辅助方法,比如Information / Implicit(信息/隐式)方法,通过熵、梯度、对比学习等方式,隐式地估计动作的信用值,无需显式计算,适用于工程实现简单的场景。
4.3 二维分类总结:不同范式的方法偏好
结合“分配粒度”和“分配方法”两个维度,我们可以清晰地看到不同LLM-RL范式的信用分配偏好:
1. Reasoning RL:主要集中在“Token/Segment/Step级”粒度,搭配“MC方法”或“LLM-as-Critic方法”。因为Reasoning RL的轨迹是确定性的,中间步骤可验证,MC方法的无偏性和LLM-as-Critic的灵活性能够很好地适应其需求,同时细粒度分配能精准优化推理步骤。
2. Agent RL:主要集中在“Turn级”粒度,搭配“TD方法”或“因果/反事实方法”。因为Agent RL的轨迹是随机的、长程的,TD方法的高效性和因果方法的精准性能够应对其挑战,同时Turn级粒度能平衡计算效率和决策精准度。
3. 多智能体RL:主要集中在“Agent级”粒度,搭配“Shapley值”或“集中式Critic方法”。因为多智能体的核心是“协作与贡献分配”,Shapley值能公平地计算每个Agent的边际贡献,集中式Critic能统一评估多个Agent的动作,避免个体最优而整体最优的问题。
这种偏好差异,本质上是“场景适配”的结果,不同范式的轨迹特点、环境复杂度、奖励特性不同,决定了其需要不同的信用分配策略。
五、Reasoning RL中的信用分配:成熟范式与核心方法
Reasoning RL是信用分配机制最先成熟的场景,其核心需求是“将终端二元奖励分配到单轮长序列的推理步骤中”,目前已经形成了一套标准流程和成熟范式。我们结合适用场景、分配粒度、代表方法,详细拆解Reasoning RL中的信用分配机制。
5.1 Reasoning RL的适用场景与核心特点
Reasoning RL的适用场景非常明确,主要包括数学推理、代码生成、单轮长思维链生成等任务,这些任务具有三个核心特点:
1. 环境确定:轨迹是自回归生成的,没有随机因素,给定相同的prompt,模型生成的轨迹是唯一的,便于验证和回放。
2. 中间步骤可验证:推理过程的每一步都有明确的“对错标准”,比如数学推理的每一步计算都可以检查,代码生成的每一行代码都可以运行验证,这为信用分配提供了重要依据。
3. 单轮长序列:轨迹长度长(500至30000+token),但只有单轮交互,不需要与环境进行多轮反馈,信用分配只需要关注“单轮内的步骤拆分”。
基于这些特点,Reasoning RL的信用分配,核心是“精准拆分步骤、验证步骤对错、合理分配奖励”,目前主要分为两种粒度:Token级和Segment/Step级,其中Segment/Step级是主流。
5.2 Token级信用分配:细粒度但高成本
Token级信用分配的目标,是给每一个生成的token分配信用值,精准定位到每一个token对最终答案的贡献。这种方法的优点是精准,能让模型明确知道“哪个token是对的,哪个token是错的”,从而优化每一个生成步骤,但缺点是计算成本极高,在长序列场景下难以应用,主要适用于短序列推理任务。
目前Token级信用分配的代表方法有三种:
1. VinePPO:采用“前缀分叉Rollout”的方式,对每一个token的前缀进行多次回放,估计该token的无偏价值,以此作为信用值。这种方法解决了传统MC方法方差大的问题,能精准估计每个token的贡献,但需要大量的Rollout操作,计算成本很高。
2. RED:从奖励模型的隐状态中抽取token级的信用值。核心逻辑是,奖励模型在给整段回复打分时,其隐状态中已经包含了对每个token的评价,通过提取这些隐状态信息,就能得到每个token的信用值。这种方法无需额外的Rollout操作,计算效率比VinePPO高,但依赖奖励模型的隐状态质量,精度可能略低。
3. T-REG:通过“对错解对比”的自监督方式,得到token的重要性。核心逻辑是,将模型生成的正确推理轨迹和错误推理轨迹进行对比,找出两者之间的差异token,这些差异token就是影响最终答案的关键,从而给这些token分配更高的信用值。这种方法无需训练额外的模型,工程实现简单,但只适用于有明确对错解对比的场景。
总体来看,Token级信用分配的特点是“粒度最细、效果好但计算昂贵”,在推理RL的短序列场景中可以使用,但在Agent RL的长轨迹、高复杂度场景中基本不适用,因为计算成本会随着token数量的增加呈指数级上升,且噪声会大量增加,导致信用分配的信噪比下降。
5.3 Segment/Step级信用分配:主流且高效
Segment/Step级信用分配,是Reasoning RL的主流方式,其核心是将长序列的推理过程拆分为多个语义段或推理步骤,给每个段/步骤分配信用值,兼顾精度和计算效率。这种方法的关键是“合理拆分步骤”和“准确验证步骤对错”,目前已经形成了多种成熟方法。
目前Segment/Step级信用分配的代表方法有五种:
1. SPO(Step-level Policy Optimization):采用“分段MC”的方式,将推理过程拆分为多个步骤,对每个步骤进行独立的Rollout,估计该步骤的贡献,以此作为信用值。这种方法结合了MC方法的无偏性和分段的高效性,能精准分配步骤级信用,是Reasoning RL中最基础的方法之一。
2. SCAR:采用Shapley值来计算步骤级信用。核心逻辑是,将每个推理步骤视为一个“参与者”,通过计算每个步骤的Shapley值,得到其对最终奖励的边际贡献,以此作为信用值。这种方法能公平地分配信用,避免“关键步骤被低估”的问题,但计算复杂度较高,适用于步骤数量较少的推理任务。
3. PURE:采用“min-form优势函数”,防止奖励作弊。核心逻辑是,通过设计一个特殊的优势函数,限制模型“投机取巧”,比如模型只关注最终答案,而忽略中间步骤,PURE会惩罚这种行为,确保信用分配能覆盖所有关键步骤,从而让模型学到完整的推理过程。
4. SPRO:采用“留一步掩码”的方式,估计步骤的重要性。核心逻辑是,依次掩码掉每一个推理步骤,观察模型最终答案的正确率变化,如果掩码掉某个步骤后,正确率大幅下降,说明该步骤的重要性高,分配更高的信用值;如果正确率变化不大,说明该步骤的重要性低,分配较低的信用值。这种方法简单直观,工程实现容易,且精度较高,是目前应用较广的方法。
5. CAPO:采用“LLM自批判打分”的方式,给步骤分配信用值。核心逻辑是,让模型自己生成推理步骤,然后让模型自己对每一步骤进行打分,判断该步骤是否正确、对最终答案的贡献有多大,以此作为信用值。这种方法灵活度高,能适应复杂的推理场景,无需额外的验证模型,但依赖模型的自批判能力,容易出现打分偏差。
5.4 Reasoning RL信用分配的成熟范式总结
经过多年的研究,Reasoning RL已经形成了一套标准的信用分配流程,能够稳定地优化模型的推理能力,具体流程如下:
1. 生成思维链:模型针对输入prompt,生成完整的推理思维链(长序列轨迹),涵盖所有推理步骤。
2. 验证中间步骤:通过人工标注、自动验证工具(如数学计算器、代码编译器)等方式,验证每一个推理步骤的正确性,区分“正确步骤”和“错误步骤”。
3. 给步骤分配信用:采用Segment/Step级分配方法(如SPRO、CAPO),结合验证结果,给每个步骤分配相应的信用值,正确步骤分配正信用,错误步骤分配负信用,关键步骤分配更高的信用值。
4. 加权更新策略:根据每个步骤的信用值,对模型的策略进行加权更新,强化正确步骤的生成,弱化错误步骤的生成,逐步优化模型的推理能力。
而在所有方法中,原文的核心结论是:Process Reward Models(PRMs,过程奖励模型)是Reasoning RL信用分配的最优平衡点。PRMs通过训练一个专门的奖励模型,对每一个推理步骤进行打分,既具备Token级的精度,又具备Segment/Step级的计算效率,能够在“精度、计算成本、训练稳定性”三者之间达到平衡,是目前Reasoning RL中最推荐的信用分配方式。
六、Agent RL:彻底重塑信用分配的全新场景
如果说Reasoning RL的信用分配是“优化现有方法”,那么Agent RL的信用分配就是“彻底重构”。正如我们之前所说,Agent RL的场景与Reasoning RL有着本质区别,这种区别导致了信用分配的6个核心变化,这些变化让Agent RL的信用分配成为一个全新的问题,而不是推理RL的简单延伸。
6.1 Agent RL与Reasoning RL的6个核心区别
Agent RL的信用分配之所以是全新问题,核心在于它与Reasoning RL相比,出现了6个根本性的变化,这些变化彻底打破了推理RL信用分配方法的适用前提:
1. 环境随机:Agent需要与真实环境交互,比如调用API、访问网页、操作工具,这些环境的返回结果是不确定的,比如调用数据下载工具可能失败,访问网页可能出现跳转错误。这导致轨迹无法复现,传统的MC方法(需要大量回放轨迹)无法适用,因为每一次回放的轨迹都可能不同。
2. 部分可观测:Agent无法获取环境的全部信息,只能看到部分反馈。比如Agent调用工具后,只能看到工具返回的结果,无法知道工具内部的运行过程,也无法判断“失败是因为工具问题,还是自己的决策问题”。这导致信用分配无法准确区分“决策错误”和“信息不足”,传统的验证方法(如数学步骤验证)完全失效。
3. 超长视野:Agent的任务通常是长程任务,交互轮次多(10至100+轮),轨迹长度可达十万至百万级。这导致信用分配的方差指数上升,传统的TD方法如果不进行优化,会出现“信用稀释”问题,关键步骤的信用被大量无关步骤稀释,模型无法学到有效的策略。
4. 动作异构:Agent的动作类型多样,包括规划指令、工具调用、格式化输出、闲聊回复等,不同类型的动作对任务成败的贡献天差地别。比如“调用工具”的动作可能直接决定任务成败,而“闲聊回复”的动作对任务成败几乎没有影响,传统的“均匀分配”或“单一粒度分配”无法适应这种异构性。
5. 中间不可验证:Agent的中间步骤没有明确的“对错标准”,无法像数学推理那样自动验证。比如Agent规划的“下一步操作”,无法提前判断是否正确,只能通过最终的任务结果来反推,这导致信用分配无法“提前反馈”,只能依赖事后复盘。
6. 关键分叉点:Agent的轨迹中,往往存在少数“关键分叉点”,少数几步决策直接决定任务的成败,其他步骤的影响很小。比如Agent下载数据的步骤,如果下载失败,后续所有步骤都无法进行,任务直接失败;如果下载成功,后续步骤只要不出现重大错误,任务就能成功。这种情况下,均匀分配信用完全无效,必须精准识别关键分叉点,给这些步骤分配更高的信用值。
这6个变化,每一个都对信用分配提出了全新的挑战,传统的Reasoning RL信用分配方法(如Token级分配、MC方法)在Agent RL场景下要么计算成本过高,要么精度过低,无法适用。因此,Agent RL需要全新的信用分配机制,来应对这些挑战。
6.2 Agent RL的核心信用分配方法
针对Agent RL的场景特点,研究者们提出了多种全新的信用分配方法,这些方法主要围绕“轮次级分配”展开,兼顾计算效率和决策精准度,主要分为五大类:轮次级过程奖励模型、事后与反事实方法、无批评者方法、分层方法、多智能体信用分配。
6.2.1 轮次级过程奖励模型:Agent RL的基础方法
轮次级过程奖励模型的核心思路是,将Agent的多轮轨迹拆分为多个“轮次级MDP”,给每一轮分配一个过程奖励,以此作为该轮的信用值,避免信用稀释。这种方法的关键是“从稀疏的终端奖励中,提取轮次级的过程奖励”,目前主流的方法有四种:
1. Turn-PPO:将多轮Agent RL重构为轮次级MDP,计算每一轮的优势估计,将轮次作为原子信用单位。核心逻辑是,每一轮的动作都是一个独立的决策单元,通过计算每一轮动作的“未来价值”(即该轮动作对后续轮次和最终奖励的贡献),来分配信用值。这种方法简化了信用分配的复杂度,能适应多轮交互场景,是Agent RL中最基础的方法之一。
2. AgentPRM:采用“回合价值网络+GAE”的方式,训练一个专门的过程奖励模型(AgentPRM),对每一轮动作进行打分,生成轮次级的过程奖励。这种方法结合了TD方法的高效性和过程奖励的精准性,能有效缓解信用稀释问题,适用于长程多轮任务。
3. SWEET-RL:引入“特权(不对称)批评者”,在训练时利用Agent在推理时不具备的特权信息(如未来轨迹、真实答案),提供高质量的轮次级奖励。核心逻辑是,训练时可以利用“上帝视角”的信息,精准判断每一轮动作的重要性,生成更精准的信用值;推理时,Agent虽然没有这些特权信息,但已经通过训练学到了有效的决策策略。这种方法能显著提升信用分配的精度,但需要额外的特权信息,工程实现相对复杂。
4. ITPO:基于“From r to Q*”的洞察,从稀疏的结果信号中提取隐式的轮次级过程奖励,无需训练独立的奖励模型。核心逻辑是,通过分析终端奖励与每一轮动作之间的关联,隐式地估计每一轮动作的贡献,生成过程奖励。这种方法的优点是工程实现简单,无需额外训练奖励模型,适用于资源有限的场景。
6.2.2 事后与反事实方法:精准定位关键步骤
针对Agent RL“中间不可验证”“关键分叉点”的特点,事后与反事实方法通过“事后复盘”或“反事实推理”,精准定位关键步骤,分配信用值。这类方法的核心是“从最终结果反推中间步骤的贡献”,主流方法有三种:
1. HCAPO:在轨迹结束后,利用LLM进行反事实复盘。核心逻辑是,让LLM回顾整个多轮交互轨迹,假设“某一轮动作没有执行”或“某一轮动作发生变化”,预测最终奖励会如何变化,以此来估计该轮动作的贡献,分配信用值。这种方法灵活度高,能适应复杂的多轮交互场景,无需复杂的数学建模,但依赖LLM的复盘能力。
2. C3 / CCPO:采用“因果ATE(平均处理效应)”的方法,通过“留一法”估计每一轮动作的贡献。核心逻辑是,依次移除每一轮动作,观察最终奖励的变化,计算该轮动作的ATE值,ATE值越大,说明该轮动作的贡献越大,信用值越高。这种方法能精准捕捉关键分叉点的贡献,适用于多轮交互场景,但计算复杂度较高。
3. Shapley系列方法:通过计算每一轮动作的Shapley值,得到其边际贡献。核心逻辑是,将每一轮动作视为一个“参与者”,计算该动作在所有可能的动作组合中的边际贡献,以此作为信用值。这种方法能公平地分配信用,避免关键步骤被低估,但计算复杂度极高,适用于轮次数量较少的任务。
6.2.3 无批评者(Critic-Free)方法:简化工程实现
传统的TD方法、LLM-as-Critic方法都需要训练一个“批评者”模型(价值网络或LLM评论家),来估计动作的信用值,工程实现复杂。无批评者方法的核心思路是,无需训练独立的批评者模型,直接从轨迹和奖励中提取信用值,简化工程实现,主流方法有两种:
1. GiGPO:将GRPO的群体比较原则从“回合级”扩展到“步骤级”,通过“群中群(group-in-group)”优势估计,提供步骤级信用,无需学习价值函数。核心逻辑是,通过比较不同轨迹中“同一轮动作”的表现,来估计该轮动作的信用值,无需训练额外的批评者模型,工程实现简单,同时能兼顾精度。
2. POAD:在“动作内”和“动作间”两个层级进行信用分配。动作内:将信用分配给单个动作中的各个token;动作间:将信用分配给序列中的各个动作。这种方法无需批评者模型,通过分层分配,兼顾了Turn级和Token级的精度,同时简化了工程实现,适用于动作异构的场景。
6.2.4 分层方法:解耦长程信用与细粒度生成
针对Agent RL“超长视野”“动作异构”的特点,分层方法将信用分配分为多个层级,解耦长程信用(轮次级)和细粒度生成(Token级),兼顾长程任务的稳定性和细粒度动作的精准性,主流方法有三种:
1. ArCHer:分为高层和低层两个层级。高层:采用回合级价值网络,估计每一轮动作的长程价值,分配轮次级信用;低层:采用Token级策略,根据高层的信用信号,优化每一轮动作的Token生成。这种方法解耦了长程信用和细粒度生成,既能避免信用稀释,又能保证动作生成的精准性,适用于长程多轮任务。
2. PilotRL:分为三个层级:规划级RL、步骤级RL、Token级RL。规划级RL负责整体任务的规划,分配规划级信用;步骤级RL负责每一轮动作的优化,分配步骤级信用;Token级RL负责每一轮动作的Token生成,分配Token级信用。信用在各阶段由粗到细流动,每一阶段为下一阶段提供奖励信号,形成“层层递进”的信用分配体系,适用于复杂的多步骤任务。
3. CARL:自动识别轨迹中的关键分叉点,只在关键步骤进行信用分配和策略更新。核心逻辑是,通过分析轨迹的方差变化,自动识别出“对最终奖励影响最大的关键步骤”,对这些步骤分配更高的信用值,重点优化;对无关步骤,分配较低的信用值,减少计算成本。这种方法能显著提升训练效率,避免无关步骤的干扰,适用于长轨迹、关键分叉点明确的任务。
6.2.5 多智能体信用分配:协作场景的特殊需求
随着LLM系统向多智能体架构演进(如编排器+专业智能体、辩论框架、协作推理),信用分配不仅需要考虑“时间维度”(轮次级),还需要考虑“智能体维度”(Agent级),即如何将最终奖励分配给多个协作的智能体,判断每个智能体的贡献大小。这是多智能体Agent RL的核心挑战。
目前多智能体信用分配的代表方法有三种:
1. M-GRPO:采用“智能体内+智能体间”双层信用分配机制。智能体内:将信用分配给单个智能体的每一轮动作;智能体间:将信用分配给不同的智能体,计算每个智能体的边际贡献。这种方法能兼顾单个智能体的优化和多智能体的协作,适用于多智能体协作任务。
2. LLM-MCA:采用“LLM集中式评论家”,通过自然语言判断每个智能体的贡献。核心逻辑是,训练一个集中式的LLM评论家,输入所有智能体的交互轨迹,让LLM用自然语言评价每个智能体的贡献,以此作为信用值。这种方法灵活度高,能适应复杂的多智能体协作场景,无需复杂的数学建模,但依赖LLM的评价能力。
3. SHARP:采用Shapley值进行跨智能体信用分配。核心逻辑是,将每个智能体视为一个“参与者”,计算每个智能体在多智能体协作中的Shapley值,以此作为信用值,公平地分配最终奖励。这种方法能保证信用分配的公平性,避免“搭便车”问题,但计算复杂度较高,适用于智能体数量较少的场景。
6.3 Agent RL信用分配的核心难点
尽管已经有多种方法,但Agent RL的信用分配仍然面临三个核心难点,这些难点也是未来研究的重点方向:
1. 关键分叉点识别难:如何自动识别轨迹中的关键步骤,避免信用稀释,是Agent RL信用分配的核心难点。目前的方法大多需要人工辅助,或依赖复杂的分析模型,难以适应所有场景。
2. 噪声环境过滤难:环境的随机性导致轨迹中存在大量噪声,如何过滤这些噪声,准确判断动作与最终奖励之间的因果关系,是信用分配精度的关键。
3. 多维度平衡难:需要在“粒度、计算成本、精度”三个维度之间找到平衡,细粒度分配精度高但计算成本高,粗粒度分配计算成本低但精度低;复杂方法精度高但工程实现难,简单方法工程实现简单但精度低。
七、定量性能比较:不同信用分配方法的取舍
不同的信用分配方法,在性能、计算成本、适用场景上各有取舍,我们可以从三个核心维度进行定量比较,帮助选择适合的方法:
1. 粒度与算力:粒度越细,算力需求越高。Token级分配需要处理大量token,算力需求最高;Turn级和Agent级分配处理的单元数量少,算力需求较低。比如,处理一个10000token的推理轨迹,Token级分配需要计算10000个信用值,而Segment级分配只需要计算10-20个信用值,算力差距显著。
2. 估计方式与精度:前向估计(如MC方法)需要重执行轨迹,计算成本高,但无偏;后见估计(如反事实方法、LLM-as-Critic)无需重执行轨迹,计算成本低,且精度更高,但存在一定的延迟(需要等到轨迹结束后才能计算信用值)。比如,MC方法需要回放100次轨迹才能估计信用值,而HCAPO只需要在轨迹结束后进行一次复盘,就能得到信用值。
3. 工程复杂度与通用性:辅助模型越少,工程越简单。无批评者方法(如GiGPO)无需训练批评者模型,工程复杂度最低;LLM-as-Critic方法(如CAPO)需要训练评论家模型,工程复杂度中等;分层方法(如PilotRL)需要设计多层级的分配体系,工程复杂度最高。同时,推理专用方法(如SPRO)的假设较强,只适用于推理场景;Agent通用方法(如Turn-PPO)的假设较弱,适用于多种Agent场景,但精度可能略低。
基于这些比较,我们可以总结出LLM-RL中信用分配的决策树:
1. 如果是单轮短文本场景(如简单问答):选择RLHF/DPO/GRPO,无需显式信用分配,隐式分配即可。
2. 如果是单轮长推理场景(如数学推理、代码生成):选择Segment/Step级分配方法,优先考虑PRMs、SPRO、CAPO,兼顾精度和计算效率;如果需要更高精度,可选择Token级方法(如VinePPO),但需承担更高的算力成本。
3. 如果是单Agent多轮交互场景(如工具调用、网页导航):选择Turn级分配方法,优先考虑Turn-PPO、AgentPRM,兼顾效率和稳定性;如果需要精准定位关键步骤,可选择反事实方法(如HCAPO);如果资源有限,可选择无批评者方法(如GiGPO)。
4. 如果是多Agent协作场景(如多智能体办公助理):选择Agent级分配方法,优先考虑LLM-MCA、SHARP,兼顾公平性和灵活性;如果智能体数量较少,可选择M-GRPO。