news 2026/4/18 12:45:37

CGPO:完美融合—用评审混合机制重塑RLHF

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CGPO:完美融合—用评审混合机制重塑RLHF

强化学习人类反馈(Reinforcement learning from human feedback,RLHF)已成为微调大语言模型(LLM)的主流方法。然而,RLHF在多任务学习(MTL)中存在局限性,原因在于奖励操纵(reward hacking)问题以及极端的多目标优化(即多个甚至有时相互冲突的目标之间的权衡)带来的挑战。当前在多任务学习中应用RLHF通常需要通过人工直觉仔细调整奖励模型权重和数据组合的比例,但这种方式难以泛化。

在本工作中,我们提出了一种新的后训练范式,称为约束生成策略优化(Constrained Generative Policy Optimization,CGPO)。CGPO的核心是评审混合机制(Mixture of Judges,MoJ),结合了具成本效益的分层约束策略优化方法,能够以原理化方式识别RLHF中的“完美融合”。CGPO具有强大的实证效果和理论保证,无需大量超参数调优,并可直接接入常见的后训练流程中。通过这种方式,CGPO能够检测并缓解奖励操纵行为,同时在极大量的优化目标上达到帕累托最优点。

我们的实验结果表明,CGPO在通用聊天、STEM问题、指令跟随、数学、编程和知识问答等多个任务上持续优于当前常用的RLHF最先进算法(如PPO和DPO)。具体而言,在AlpacaEval-2(通用聊天)上比PPO提高了7.4%,在Arena-Hard(STEM与推理)中提高了12.5%,在IFEval(指令跟随)中提高了2%,在MATH和GSM8K(数学与推理)中均提高了2%,在HumanEval(编程)中提高了5%,在ARC challenge(知识)中提高了2%。我们还观察到PPO在主流编程基准测试中出现了严重的奖励操纵行为,而CGP

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 3:30:23

“氛围编程”正让创意本身成为最终技能

你是否曾有过一个绝妙的应用创意,却因为不懂编程而搁浅?或者你觉得学习复杂的编程语言是一座难以逾越的高山?一个名为“氛围编程”(Vibe Coding)的新兴概念正准备彻底改变这一切。它是一种革命性的方法,让创…

作者头像 李华
网站建设 2026/4/18 8:20:06

多合一图像处理利器:一站式满足你的所有图片编辑需求

在这个视觉主导的时代,无论你是社交媒体创作者、电商卖家、设计师还是普通用户,处理图片已经成为日常工作中不可或缺的一部分。然而,面对众多的图片编辑需求——从简单的裁剪到复杂的格式转换,我们常常需要在多个软件和在线工具之…

作者头像 李华
网站建设 2026/4/18 3:37:23

VSCode多模型调试完全手册(仅限内部流传的12条黄金规则)

第一章:VSCode多模型调试的核心理念在现代软件开发中,开发者常需同时调试多个相互关联的服务或模型,例如微服务架构中的API、数据库和前端应用。VSCode通过其强大的调试器集成能力,支持多模型并行调试,使开发者能够在统…

作者头像 李华
网站建设 2026/4/18 3:33:45

21,000张SIM卡背后的“短信工厂”:印度CBI突袭国家级钓鱼基础设施

在数字身份日益成为现代生活“通行证”的今天,一条看似普通的短信,可能就是通往金融账户清零的单程票。2025年12月下旬,印度中央调查局(CBI)代号为“Chakra-V”(意为“第五轮行动”)的雷霆突袭&…

作者头像 李华