news 2026/6/9 17:41:19

每天一个大模型相关知识点系列--GRPO

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
每天一个大模型相关知识点系列--GRPO

GRPO(Group Relative Policy Optimization)是一种用于大语言模型第三阶段训练的强化学习方法,最早由 DeepSeek-Math 提出。

在 GRPO 中,模型被视为一个策略 π,直接对其输出分布进行优化。在强化学习建模中,prompt 对应状态 s,模型生成的完整响应对应动作 a,奖励函数或奖励模型给出的评分对应回报 r。

在训练过程中,对于每一个输入 prompt,模型从当前策略分布中采样多个候选响应,这些响应是同一策略下的不同行动样本。随后,reward model 对这些候选输出进行打分,并在 group 内计算相对优势(group-relative advantage),通常通过减去 group 内平均奖励作为 baseline,以降低策略梯度估计的方差。

基于该相对优势,GRPO 采用策略梯度方法对模型参数进行更新,使得获得较高相对奖励的响应在策略分布中的概率增加,而相对奖励较低的响应概率降低。与此同时,为防止策略更新过大、导致模型偏离原始分布,GRPO 通过引入相对于 reference policy 的 KL 散度正则项对策略更新进行约束,从而在探索与稳定性之间取得平衡。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 10:51:14

16、Puppet资源与文件管理全解析

Puppet资源与文件管理全解析 在自动化运维中,Puppet是一款强大的工具,它可以帮助我们高效地管理资源和文件。下面我们将详细介绍Puppet在资源调度、主机资源使用、文件源管理、目录树分发与合并、旧文件清理以及资源审计等方面的功能和操作方法。 1. Puppet资源调度 Puppe…

作者头像 李华
网站建设 2026/6/10 10:55:23

19、使用Keepalived和Puppet构建高可用性服务及管理NFS服务器

使用Keepalived和Puppet构建高可用性服务及管理NFS服务器 1. 引言 在当今的网络环境中,高可用性服务和有效的文件共享管理至关重要。高可用性服务可以在单个机器或网络连接出现故障时继续运行,而NFS(网络文件系统)则允许从远程服务器挂载共享目录,方便多个服务器共享静态…

作者头像 李华
网站建设 2026/6/10 10:51:29

21、Puppet自动化运维:从虚拟机创建到事实扩展

Puppet自动化运维:从虚拟机创建到事实扩展 1. 使用Vagrant创建虚拟机并安装Puppet 在使用Vagrant创建虚拟机并安装Puppet时,可按以下步骤操作: 1. 初始化Vagrant : bash mkdir cookbook cd cookbook vagrant init 2. 清理Vagrantfile注释 : bash sed -i -e 3…

作者头像 李华
网站建设 2026/6/10 10:49:05

《水龙吟》上海演唱会圆满落幕,全演员阵容唱演江湖!

12月14日,年度玄侠剧《水龙吟》“江湖再起”演唱会在上海火热开唱。这场国内首次采用全剧中演员阵容的“唱演江湖”,集结了罗云熙、肖顺尧、方逸伦、陈瑶、林允、杨仕泽、谢彬彬 、李家豪、张峻宁、邓靖泓10位剧中演员,更有惊喜嘉宾黄子弘凡空…

作者头像 李华
网站建设 2026/6/10 14:20:23

Feature Request排行榜:最受欢迎的新功能

Feature Request排行榜:最受欢迎的新功能 在AI助手从“能用”走向“好用”的今天,用户早已不满足于简单的问答交互。无论是企业内部的知识管家,还是个人日常的智能伴侣,大家期待的是一个真正懂场景、会思考、能行动的对话系统。而…

作者头像 李华
网站建设 2026/6/10 15:32:58

Transformers v5 升级来袭:简洁设计+无缝体验!

2020 年 11 月 19 日,Hugging Face 发布了 Transformers v4 的首个候选版本,彼时这个 AI 模型定义库的日安装量仅 2 万次,支持的模型架构不过 40 种,社区贡献的模型 checkpoint 也只有约 1000 个。五年后的 2025 年 12 月 1 日&am…

作者头像 李华