news 2026/6/11 17:05:05

APPO: 代理式过程策略优化 (Agentic Procedural Policy Optimization)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
APPO: 代理式过程策略优化 (Agentic Procedural Policy Optimization)

APPO: 代理式过程策略优化 (Agentic Procedural Policy Optimization)

摘要 (Abstract)

最近,代理式强化学习(Agentic RL)在提升大语言模型代理的多轮工具调用能力方面取得了显著进展。然而,现有方法大多在粗粒度的启发式单元(如工具调用边界或固定工作流)上进行信用分配,难以识别哪些中间决策对下游结果产生了关键影响。本研究从两个维度探讨代理式强化学习:分支的位置(where to branch)以及分支后的信用分配(how to assign credit)。

我们的初步分析表明:

  1. 有影响力的决策点广泛分布在整个生成的序列中,而非集中在工具调用处。
  2. 仅凭标记熵无法可靠反映其对最终结果的影响。

基于这些发现,我们提出了代理式过程策略优化(Agentic Procedural Policy Optimization, APPO),将分支和信用分配从粗粒度的交互单元转移到序列中细粒度的决策点。APPO 使用一种结合标记不确定性与后续延续的策略似然增益的**分支得分(Branching Score, BS)**来选择分支位置,从而实现更精准的探索并过滤虚假的高熵位置。它进一步引入过程级优势缩放以更好地在分支 rollout 中分布信用。在 13 个基准测试上的实验表明,APPO 在保持高效工具调用的同时,将强代理式 RL 基线性能提升了近 4 分,并保持了行为的可解释性。

核心方法 (Methodology)

  • 细粒度决策点 (Fine-grained Decision Points): 与传统的粗粒度交互单元不同,APPO 关注序列内部的细粒度决策点。
  • 分支得分 (Branching Score, BS):
    • 结合标记熵(Token Entropy)与策略似然增益(Policy-induced Likelihood Gains)。
    • 通过衡量当前策略相对于旧策略对后续延续的似然增益,APPO 捕获了当前标记携带的“未来价值”。
    • 该方法能有效过滤掉虚假的高熵位置,实现更精准的探索。
  • 过程级优势缩放 (Procedure-level Advantage Scaling): 引入基于 ΩΩ 的缩放项,鼓励代理在具有高分支值的过程中进行探索,以更好地在分支 rollout 中分配信用。

实验设置 (Experiment Setup)

  • 数据集: 13 个具有挑战性的基准测试,涵盖:
    • 深度信息搜索 (Deep information seeking)
    • 知识密集型推理 (Knowledge-intensive reasoning)
    • 计算问题求解 (Computational problem solving)
  • 基线模型: 强代理式 RL 基线模型 (Strong agentic RL baselines)。
  • 结果: APPO 在多个基准测试上均取得了显著的性能提升,平均提升近 4 分。

结论 (Conclusion)

APPO 通过细粒度的决策点分支和过程级信用分配,显著提升了代理式强化学习的性能。实验表明,该方法在保持计算效率的同时,有效利用了过程级信息,为代理训练提供了新的思路。

资源与链接 (Resources & Links)

  • 论文原文: [| arXiv e-print repository
  • 项目主页 (Project Page): Github (Link from abstract)
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 17:02:55

MPC7455 XC7455ARX硬件设计:核心电压、功耗与167MHz总线时序解析

1. 项目概述:从一份规格书说起最近在整理一个老项目的硬件设计文档,翻箱倒柜找出了当年飞思卡尔(Freescale,现在已经是NXP的一部分了)的MPC7455微处理器规格书。这让我想起了很多往事,也让我意识到&#xf…

作者头像 李华
网站建设 2026/6/11 17:02:00

实测CH32V305的USB-CDC串口:用Python脚本跑出30MB/s+,附完整代码与避坑点

CH32V305 USB-CDC串口极限性能实战:从零构建30MB/s传输系统最近在嵌入式社区中,CH32V305这款RISC-V内核的MCU因其出色的USB 2.0高速接口性能而备受关注。作为一名长期从事嵌入式通信开发的工程师,我决定亲自验证这块芯片的CDC串口传输能力&am…

作者头像 李华
网站建设 2026/6/11 16:59:52

SpringMVC 入门到实战 获取请求参数 25-32

SpringMVC 入门到实战 获取请求参数 25-32 一、参考资料 【SpringMVC教程,一套快速上手spring mvc,springmvc入门到实战】 https://www.bilibili.com/video/BV1Ry4y1574R/?p26&share_sourcecopy_web&vd_source855891859b2dc554eace9de3f28b4528…

作者头像 李华
网站建设 2026/6/11 16:58:55

深入解析MPC875/870通信处理器:架构、硬件设计与实战优化

1. 项目概述与核心价值在嵌入式系统,尤其是通信和网络设备的设计领域,选对一颗“心脏”级别的处理器,往往决定了整个项目的成败。今天要聊的MPC875和MPC870,就是飞思卡尔(Freescale,现为NXP)Pow…

作者头像 李华