news 2026/4/24 0:11:10

大模型---Reflexion

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型---Reflexion

目录

1.Reflexion的定义

2.Reflexion

3.论文的优/缺点

4.与ReAct,Self-Refine,LATS的关系


参考论文1:[2303.11366] Reflexion: Language Agents with Verbal Reinforcement Learning

参考论文2:1b44b878bb782e6954cd888628510e90-Paper-Conference.pdf

1.Reflexion的定义

很多 LLM agent 虽然能调用工具、与环境交互,但通常只会依赖 few-shot 提示或单条生成轨迹;而传统 RL 又很贵、样本需求高、微调成本大。作者想找一个折中方案:不训练新权重,但让 agent 能从试错中快速积累经验。所以他们把环境给的 binary/scalar feedback 放大成可操作的自然语言经验总结,相当于给模型一个“语义梯度”。

Reflexion的主张不是通过梯度更新模型权重来学,而是把环境反馈转成自然语言反思,写入记忆,作为下一轮尝试的上下文,也就是在每轮失败后写出一段“我哪里错了、下次该怎么改”的文字,再把这段文字塞回上下文,影响下一轮行为。从而让agent在推理时“越试越会”。论文明确说,这种做法的优势包括:不需要微调、能表达比标量 reward 更细腻的反馈、带来更显式更可解释的 episodic memory;但它也依赖 LLM 的自评/反思能力,而且没有形式化成功保证。为什么论文中把它叫做“verbal reinforcement learning”,传统RL是:① 轨迹,② reward,③ 参数更新;Reflexion 则变成:① 轨迹,② reward,③ 语言化总结,④ 记忆注入。也就是论文会将反馈最后都会被“放大”为自然语言经验总结,供下一轮使用。

2.Reflexion

Reflexion由4个模块组成:

(1)Actor

Actor 是真正执行任务的 LLM,负责生成文本和动作。论文里用过两类 Actor:CoTReAct。如果是推理题,Actor 更像CoT;如果是交互环境、API、检索、代码执行,它更像ReAct。

(2)Memory

Reflexion同时用短期记忆和长期记忆。短期记忆:trajectory,即当前轨迹本身。长期记忆:每轮self-reflection生成的经验总结。Actor在下一轮会同时读取这两种记忆。论文里长期记忆通常只保留一个滑动窗口,上限一般是1-3条经验,这是为了适配上下文长度限制。

(3)Evaluator

Evaluator 负责打分。它输入当前trial的trajectory,然后输出reward。不同任务用的evaluator不同:推理任务用exact match;决策任务可用手工heuristic或另一个LLM做分类/评分;编程任务则依赖 unit tests/compiler/ execution feedback。

(4)Self-Refle

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 5:01:12

GLM-OCR效果展示:复杂版式PDF精准解析,结构化输出真方便

GLM-OCR效果展示:复杂版式PDF精准解析,结构化输出真方便 1. 为什么需要专业OCR工具处理复杂PDF 在日常工作中,我们经常遇到各种复杂版式的PDF文档:学术论文的多栏排版、财务报表的嵌套表格、合同文件的混合字体、扫描件的背景噪…

作者头像 李华
网站建设 2026/4/17 5:00:11

从零复现GitHub热门项目Deformable-DETR:一份面向科研新手的避坑指南

1. 环境准备:从零搭建深度学习工作站 第一次接触Deformable-DETR这类前沿目标检测项目时,最让人头疼的就是环境配置。我去年帮实验室三位本科生配置环境时,发现90%的报错都源于基础环境没搭好。先说硬件,虽然官方说GPU显存6GB就能…

作者头像 李华
网站建设 2026/4/17 4:56:11

新手必看!ANIMATEDIFF PRO电影级视频生成,25秒出片实测

新手必看!ANIMATEDIFF PRO电影级视频生成,25秒出片实测 1. 为什么选择ANIMATEDIFF PRO? 1.1 电影级视频生成新体验 想象一下:你输入一段文字描述,25秒后就能得到一段16帧的电影质感视频。这不是科幻场景&#xff0c…

作者头像 李华
网站建设 2026/4/17 4:53:12

量子计算时代的“AI驱动程序”:英伟达Ising模型从零上手指南

1. 引言:为什么Ising是量子计算的“AI驱动程序” 2026年4月14日,英伟达发布了全球首个开源量子AI模型——Ising。它的出现意味着:开发者不再需要成为量子物理专家,也能高效地校准和纠错量子处理器。 如果把量子计算机比作一台超…

作者头像 李华
网站建设 2026/4/17 4:47:14

Redis 慢查询问题排查思路

Redis作为高性能内存数据库,其响应速度直接影响业务体验。当出现慢查询时,可能导致请求堆积甚至服务雪崩。本文将深入剖析Redis慢查询的排查思路,帮助开发者快速定位性能瓶颈。监控指标先行 排查慢查询的第一步是建立监控体系。通过Redis自带…

作者头像 李华