Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models
Authors:Zhenchen Tang, Songlin Yang, Zichuan Wang, Bo Peng, Yang Li, Beibei Dong, Jing Dong
Deep-Dive Summary:
内源性重提示:统一多模态模型的自进化认知对齐
摘要
统一多模态模型(UMMs)表现出强大的理解能力,但这种能力往往无法有效指导生成。我们将其定义为认知差距(Cognitive Gap):模型缺乏如何增强自身生成过程的理解。为了弥合这一差距,我们提出了**内源性重提示(Endogenous Reprompting)**机制,通过在生成过程中产生自对齐的描述符,将模型的理解从被动编码过程转化为显式的生成推理步骤。为此,我们引入了 **SEER(自进化评估器与重提示器)**训练框架,仅使用来自小型代理任务(视觉指令详述)的 300 个样本,建立了一个两阶段的内源性循环。首先,**带有可验证奖励的强化学习(RLVR)**通过课程学习激活模型的潜在评估能力,产生高保真度的内源性奖励信号。其次,**带有模型奖励思维的强化学习(RLMT)**利用该信号优化生成推理策略。实验表明,SEER 在评估准确性、重提示效率和生成质量方面始终优于最先进的基线模型,且不损失通用的多模态能力。
1. 引言
图 1. 弥合认知差距。直接生成无法反映模型的理解(左),外部重提示器往往由于生成的描述符与生成器的先验不匹配而导致失调(右),而 SEER(中)利用内源性重提示产生具体、自对齐的描述符,严格匹配生成器的生成先验,成功弥合了理解与生成。
目前统一多模态模型的生成能力显著滞后于其理解能力。如图 1 所示,虽然模型能准确理解视觉指令,但在将其转化为生成指导时却面临困难,导致最终输出失调。我们认为这是一种认知差距:模型缺乏关于如何增强自身生成过程的具体理解。
为了弥合这一差距,我们提出内源性重提示,将用户意图转化为与模型自身能力对齐的描述符。与依赖不相交模型(如 LLM 加生成器)导致表示不匹配的现有方法不同,我们的方法利用了 UMM 固有的表示一致性,确保了模型特有对齐(Model-Specific Alignment)。
我们提出的SEER框架通过视觉指令详述(Visual Instruction Elaboration)这一代理任务,分两个阶段展开:
- RLVR 阶段:通过课程学习策略激活内部评估器,将理解能力转化为高保真奖励信号。
- RLMT 阶段:利用该信号优化推理策略,使模型在生成前进行“思考”(即优化提示词)。
2. 相关工作
该部分回顾了统一多模态模型(如 Janus, Emu3)、提示优化(如 DALL-E 3 的重打标)以及视觉生成的强化学习(如 Diffusion-DPO)。SEER 的不同之处在于它针对的是生成推理阶段(优化提示词)而非低级的执行阶段(优化像素)。
3. 方法
3.1 问题表述
视觉指令详述任务被公式化为一个推理优化问题。给定视觉指令a aa和初始提示词p 0 p_0p0,目标是生成重提示词p pp,通过显式的推理路径将用户意图转化为可执行的描述符。
我们将 UMM 视为包含理解/推理参数θ \thetaθ和生成参数ϕ \phiϕ。为了验证改进源于推理路径的优化,我们冻结ϕ \phiϕ并仅优化θ \thetaθ。模型有三种内源功能模式:
- 生成器G ( ⋅ ∣ ϕ ) : P → X G(\cdot |\phi): \mathcal{P} \to \mathcal{X}G(⋅∣ϕ):P→X(固定)。
- 评估器E ( ⋅ ∣ θ ) : X 2 × T → [ Y e s , N o ] E(\cdot |\theta): \mathcal{X}^2 \times \mathcal{T} \to [Yes, No]E(⋅∣θ):X2×T→[Yes,No],作为成对判断器。
- 重提示策略π θ ( ⋅ ∣ θ ) : P × A → Δ ( P ) \pi_{\theta}(\cdot |\theta): \mathcal{P} \times \mathcal{A} \to \Delta (\mathcal{P})πθ(⋅∣θ):P×A→Δ(P)。
优化奖励R RR定义为:
R ( p ; a , p 0 ) ≜ E ( x , a ) ⏟ 合规性 + E ( x , p 0 ) ⏟ 一致性 + E ( x ) ⏟ 质量 R(p;a,p_0) \triangleq \underbrace{E(\mathbf{x},a)}_{\text{合规性}} + \underbrace{E(\mathbf{x},p_0)}_{\text{一致性}} + \underbrace{E(\mathbf{x})}_{\text{质量}}R(p;a,p0)≜合规性E(x,a)+一致性E(x,p0)+质量E(x)
3.2 预备知识
回顾了 RLHF(从人类反馈中学习)、RLVR(利用可验证结果进行学习)和 RLMT(结合推理结构与奖励模型)。
图 3. 第一阶段:RLVR。我们采用课程学习将模型转化为鲁棒的内部批评者。通过在成对比较上训练,激活能够评估用户意图的高保真内部评估器E ( x ; a , p 0 ) E(x; a, p_0)E(x;a,p0)。
3.3 视觉指令详述
我们构建了一个包含 300 个样本的小型数据集D \mathcal{D}D,涵盖简单指令(直接属性映射)和困难指令(需要深层推理的概念性要求)。
3.4 自进化训练框架
3.4.1 第一阶段:RLVR
目标是激活内部评估器。采用课程学习:
- 阶段 1:基础对齐(具体的图文对)。
- 阶段 2:视觉指令监督(识别哪张图片更好地满足指令a aa并保留p 0 p_0p0)。
使用 **GRPO(群组相对策略优化)**进行成对评估器优化,目标函数如下:
J G R P O ( θ ) = E q , x , { u i } [ 1 N ∑ i = 1 N 1 L i ∑ t = 1 L i ( min ( s i , t 1 A i , s i , t 2 A i ) − β D K L ( π θ ( u i , t ∣ u i , < t , q , x ) ∥ π r e f ( u i , t ∣ u i , < t , q , x ) ) ] , \begin{array}{r l} & {\mathcal{J}_{\mathrm{GRPO}}(\theta) = \mathbb{E}_{q,\mathbf{x},\{u_i\}}\left[\frac{1}{N}\sum_{i = 1}^{N}\frac{1}{L_i}\sum_{t = 1}^{L_i}\left(\min (s_{i,t}^{1}A_i,s_{i,t}^{2}A_i)\right.\right.} \\ & {\left. - \beta D_{\mathrm{KL}}\left(\pi_{\theta}(u_{i,t}|u_{i,< t},q,\mathbf{x})\| \pi_{\mathrm{ref}}(u_{i,t}|u_{i,< t},q,\mathbf{x})\right)\right],} \end{array}JGRPO(θ)=Eq,x,{ui}[N1∑i=1NLi1∑t=1Li(min(si,t1Ai,si,t2Ai)−βDKL(πθ(ui,t∣ui,<t,q,x)∥πref(ui,t∣ui,<t,q,x))],
3.4.2 第二阶段:RLMT
利用第一阶段微调的评估器作为内源奖励模型,优化重提示策略。
图 4. 第二阶段:RLMT。模型通过“思考-生成-评估”循环优化其推理策略π θ \pi_{\theta}πθ。内源奖励通过比较推理生成结果( x p o l ) (x_{\mathrm{pol}})(xpol)与朴素基线结果( x r e f ) (x_{\mathrm{ref}})(xref)计算得出。
3.4.3 机理分析:隐式模型特有对齐
SEER 的优势在于结构上强制执行了模型特有对齐。由于评估器E EE和生成器G GG共享相同的表示空间,评估器对生成器的失败模式具有内在敏感性。这使得重提示策略能够学习到生成器先验范围内的描述,避免了外部模型常见的“视觉上无法实现”的描述问题。
4. 实验
4.1 实验设置
- 基座模型:Harmon (1.5B 参数),采用掩码自回归(MAR)生成范式。
- 训练细节:使用 2 张 A100 GPU,利用 300 个样本训练 10 个轮次。
- 基准测试:视觉理解能力测试(MME, POPE, GQA 等)和生成能力测试(GenEval, DPG-Bench)。
4.2 主要结果
4.2.1 评估器性能(第一阶段)
SEER-Eval 在内部测试集上达到了 0.92 的总体准确率,远超 Zero-shot (0.41) 和仅完成第一阶段培训的模型 (0.49)。这证明了“小型代理任务”有效地引导了模型的潜在评估能力。
表 2. SEER 与外部重提示方法的胜率对比。
表格显示 SEER 在处理硬/复杂任务时占据主导地位,同时保持了极高的效率(平均词数更少)。
| 外部基线 | 总计 | 域内 | 域外 | 平均词数 |
|---|---|---|---|---|
| vs. BeautifulPrompt | 0.90 | 0.89 | 0.90 | 55.13 |
| vs. PromptEnhancer | 0.75 | 0.77 | 0.73 | 153.04 |
| vs. GPT-4o | 0.68 | 0.73 | 0.62 | 46.23 |
| vs. Gemini 1.5 Pro | 0.61 | 0.63 | 0.58 | 33.06 |
| vs. Qwen2-VL-72B | 0.65 | 0.63 | 0.68 | 30.76 |
| SEER (Ours) | - | - | - | 22.94 |
4.2.2. 生成式推理性能(阶段 2)
我们通过盲法成对人类评估(blind pairwise human evaluation)来评估最终的生成质量。
指标:人类胜率(Human Win Ratio)。为了量化性能,我们进行了盲法成对比较。标注员会看到一张来自 SEER 的图像和一张来自基准模型的图像,并选择更符合视觉指令a aa且保留了p 0 p_0p0语义主体的图像。胜率> 0.5 > 0.5>0.5表示 SEER 更受青睐(详见附录 A.2)。
与外部重提示器(Reprompters)的比较。我们将 SEER 与两类模型进行了基准测试:(1)专用重提示器:BeautifulPrompt (Cao et al., 2023)、PromptEnhancer (Wang et al., 2025a);(2)最先进的 MLLM(多模态大语言模型):GPT-5.2 (OpenAI, 2025)、Gemini3 (Google DeepMind, 2025)、Qwen3max (Alibaba, 2025)。为了公平比较,我们将 SEER 的重提示策略替换为这些外部模型,并将其生成的重提示直接输入 SEER 的生成器。
结果。如表 2 所示,SEER 一致优于这两组模型。它超越了专用重提示器(对比 BeautifulPrompt 胜率为 0.90),这证实了不相交模型中的表示失配(representation mismatch)会导致重提示器与生成器的先验不匹配。最先进的 MLLM 表现出竞争力(对比 Gemini3 胜率为 0.61),这得益于其更强的理解知识;然而,SEER 仍以显著更少的单词量(平均 22.94 个词)实现了更优的性能。这种效率为我们在第 3.4.3 节中的机制分析提供了实证支持。值得注意的是,SEER 的优势在“困难指令”上通常会被放大(例如,对比 PromptEnhancer:在困难指令上为 0.74,而在简单指令上为 0.70)。如图 5 所示,不同于生成通用且冗长描述的外部 LLM,SEER 能够识别与生成器生成先验相一致的描述符。内部评估器自然地惩罚了不一致的重提示,从而将推理链修剪至最具可执行性的状态。
与 UMM(统一多模态模型)的比较。我们进一步将 SEER (1.5B) 与最先进的 UMM 进行了比较,包括:Harmon (Base)、Bagel (14B) (Deng et al., 2025)、Bagel-Think (CoT)、Blip3-o (8B) (Chen et al., 2025a) 和 Show-o2 (7B) (Xie et al., 2025b)。
结果。表 3 报告了 SEER 对比各基准模型的人类胜率。首先,SEER 对比 Harmon Base 取得了绝对优势(例如 0.85 的胜率),证实了内源性重提示(Endogenous Reprompting)有效地弥补了认知鸿沟。其次,尽管参数规模较小(1.5B),SEER 面对规模显著更大的模型仍具有竞争力。这种竞争力主要源于 SEER 在困难指令上的鲁棒性(例如,对比 Bagel:在困难指令上为 0.79,而在简单指令上为 0.63)。至关重要的是,这种与人类偏好高度的一致性证明了我们的内部评估器(阶段 1)已成功演化为能够模拟人类判断,从而正确引导重提示策略(阶段 2)在无需外部监督的情况下生成自我对齐的重提示。
图 5. 定性比较。基础模型(左)由于认知鸿沟无法执行视觉指令,外部重提示器(右)导致表示失配,而 SEER(中)生成的自我对齐重提示严格匹配生成器的先验,从而实现了卓越的视觉保真度。
4.3. 通用能力
通用视觉理解。为了验证 SEER 是否保留了 UMM 的核心认知能力,我们在 MME、POPE、GQA、MMMU 和 SEEDBench 上评估了经过后训练的模型。如表 5 所示,与基础 Harmon 模型相比,SEER 的性能保持高度稳定,波动处于正常微调方差范围内。值得注意的是,在 MME 上,SEER 达到了 1179 分(对比基础模型的 1155 分),显示出轻微提升。这种稳定性证实了 RLVR 是一种针对内部评估器的精准激活机制,而非破坏性的覆盖。
表 5. 通用多模态理解基准测试。我们报告了不同训练阶段的结果。与 Harmon 基础模型相比,SEER(阶段 2)保持或略微提升了理解能力。
| 模型 | MME | POPE Acc | POPE FF | GQA | MMMU | SEED |
|---|---|---|---|---|---|---|
| Harmon (Base) | 1155 | 83.8 | 83.9 | 58.8 | 34.7 | 65.2 |
| Phase 1 Only | 1172 | 83.7 | 83.9 | 58.9 | 34.8 | 65.2 |
| Stage 1 (RLVR) | 1179 | 84.0 | 84.3 | 58.9 | 35.2 | 64.4 |
| Stage 2 (SEER) | 1179 | 83.8 | 84.1 | 58.9 | 35.1 | 65.4 |
通用生成。我们使用 GenEval 和 DPG-Bench 评估标准的文本生成图像能力。由于这些基准测试主要由直接提示词组成,用于评估基本的组合属性,因此我们明确跳过了重提示增强过程,直接评估生成器的执行能力。如表 4 所示,即使没有主动推理,SEER(阶段 2)在大多数指标上仍实现了轻微提升(例如,GenEval 综合得分从0.72 → 0.74 0.72 \rightarrow 0.740.72→0.74)。重要的是,这些结果是在没有对图像生成目标进行任何直接微调的情况下取得的。这证实了理解与生成之间的对齐在学习生成式推理的过程中得到了本质上的细化。
5. 结论
我们通过引入 SEER 解决了 UMM 中的认知鸿沟,这是一个将被动理解转变为主动推理的自我演进框架。通过两阶段内源循环(RLVR 和 RLMT),SEER 仅通过 300 个样本的“视觉指令细化”便引导出了模型的重提示能力。实验证实,SEER 在评估准确性、重提示效率和生成质量方面均优于基准模型,同时保留了通用能力。至关重要的是,我们的方法实现了模型特有的对齐,确保推理能够作为精准的触发器,严格作用于生成器的先验范围内。这项工作建立了一个新的范式:将研究重心从优化执行转移到演进认知推理。
Original Abstract:Unified Multimodal Models (UMMs) exhibit strong understanding, yet this capability often fails to effectively guide generation. We identify this as a Cognitive Gap: the model lacks the understanding of how to enhance its own generation process. To bridge this gap, we propose Endogenous Reprompting, a mechanism that transforms the model’s understanding from a passive encoding process into an explicit generative reasoning step by generating self-aligned descriptors during generation. To achieve this, we introduce SEER (Self-Evolving Evaluator and Reprompter), a training framework that establishes a two-stage endogenous loop using only 300 samples from a compact proxy task, Visual Instruction Elaboration. First, Reinforcement Learning with Verifiable Rewards (RLVR) activates the model’s latent evaluation ability via curriculum learning, producing a high-fidelity endogenous reward signal. Second, Reinforcement Learning with Model-rewarded Thinking (RLMT) leverages this signal to optimize the generative reasoning policy. Experiments show that SEER consistently outperforms state-of-the-art baselines in evaluation accuracy, reprompting efficiency, and generation quality, without sacrificing general multimodal capabilities.
PDF Link:2601.20305v1