针对不完整多模态学习的检索增强动态提示调优-程序员充电站

论文总结

1、有开源代码：https://github.com/Jian-Lang/RAGPT

2、现有方法的不足：1）联合学习，使用像素或者空字符作为占位符去填充缺失模态，引入噪声；2）跨模态生成，存在模态鸿沟，重建质量差；3）静态提示（Prompt），与实例无关，无法适应不同缺失情况。

3、作者提出了RAGPT，一种增强检索的动态提示调优框架，包含多通道检索器、缺失模态生成器和上下文感知提示器三个模块，多通道检索器构建记忆库存储完整的模态样本，按照模态内相似度(使用的是余弦相似度）检索与目标最相似的K个实例（作者在超参数寻优部分，K在部分数据集上取值为3达到最优，部分数据集为5时达到最优）。避免跨模态检索的语义鸿沟。

在缺失模态生成器中，对于缺失模态，用检索到的同模态内容进行平均后，经过可学习滤波块（FFT+IFFT）去噪，近似恢复缺失表征。

上下文感知提示器，从检索实例的文本、图像和标签中提取动态提示（跨注意力+自适应池化），将这些提示与目标实例特征拼接，输入预训练MMT（多模态转换Transformer）的特定层，实现动态、实例自适应的提示增强。

摘要

多模态学习在不完全模态条件下既实用又具有挑战性。近年来，研究人员专注于通过应用可学习提示，增强预训练多模态变换器（MMT）在缺失模态条件下的鲁棒性。然而，这些基于提示的方法面临若干局限：（1）不完全模态为任务特定推理提供了有限的模态线索，（2）缺失内容的虚拟插补会导致信息丢失并引入噪声，（3）静态提示具有实例无关性，对各种缺失条件的实例提供有限的知识。为解决这些问题，我们提出了RAGPT，一种新型的检索-增强动态提示调优框架。RAGPT由三个模块组成：（I）多通道检索器，通过内模态检索策略识别相似实例;（II）缺失模态生成器，利用检索的上下文恢复缺失信息;（III）上下文感知提示器，捕捉相关实例的上下文知识并生成动态提示，大幅增强MMT的稳健性。对三个真实世界数据集进行的广泛实验表明，RAGPT在处理不完整模态问题方面始终优于所有竞争基线。

引言

多模态学习已成为科研和工业界的关键范式，展示了在医疗援助（Ghosh 等，2024）和恶意内容检测（Kiela 等，2020）等领域的广泛应用潜力。然而，大多数成功的方法通常假设所有模态的完整性在训练和推理阶段都是必不可少的。实际上，传感器故障和隐私问题等因素往往使收集完整模态变得不可行（马等，2021）。因此，不完整模态的挑战显著影响了多模态模型在实际应用中的可靠性、准确性和安全性（Woo 等，2023;Cheng 等，2024a）。为应对这一挑战，研究人员开发了多种稳健的多模态方法，大致分为三类：（1）联合学习方法（Wang 等，2021，2023; Yao等，2024年），（2）跨模态生成方法（马等，2021;Woo等，2023年），以及（3）基于提示的方法（Lee等，2023;Jang、Wang 和 Kim 2024）。对于联合学习方法，它们高度依赖相似度量的选择，并要求用掩码值填充缺失模态输入，导致关键信息丢失并引入模型中的噪声（Wang等，2024）。跨模态生成方法不可避免地面临模态异质性问题，且重建质量有限。近年来，由于强大的预训练多模态变换器（MMT）的兴起，基于提示的方法获得了显著关注。这些方法利用提示调优技术，有效将预训练于完整多模态数据集的MMT能力转移到涉及缺失模态的任务中，实现了显著性能，使其成为不完全多模态学习的主导趋势。然而，对于不完全模态，基于提示的方法通常将现有模态作为通过提示学习实现任务特定目标的唯一线索（见图1）。

尽管取得了进展，这些方法在严重缺失模态场景中常常表现不佳，因为其设计中存在若干未解决的问题：（1）剩余模态通常提供有限的模态信息当缺失模态包含关键模态线索时，无法有效解决特定任务。（2）模态不完整的输入常被虚值填充（例如文本/图像的空字符串/像素），这可能引入噪声，导致性能下降（马等，2022）。（3）提示token在所有输入间共享，因此不依赖实例。因此，这种静态提示调优不适合真实的多模态实例，因为缺少不同模态类型的实例属于不同的分布。此外，静态提示通常对缺失和全模态实例的知识有限。因此，这些观察促使我们设计通用提示调优策略，以增强预训练MMT对不完全模态的鲁棒性。为解决这些问题，我们从人类通过观察学习的能力中汲取灵感，即通过观察相关主题来掌握技能，而非试图死记硬背所有主题（Hodges 等，2007）。如图1所示，我们利用这一认知原则解决缺失模态的挑战。我们的核心思想是检索相关多模态内容，并将其作为提示，增强预训练MMT在缺失模态和完整模态情境下的鲁棒性。直观地，对于缺失模态的实例，从类似实例附加多模态内容，可以提供与缺失模态相关的上下文知识，并提升任务具体预测。为此，我们提出了RAGPT，一种新的检索增强动态提示调优框架，以自适应增强预训练MMT在缺失和全模态情境下的鲁棒性。从根本上说，我们以原则性的方式重新表述不完全模态学习，并保持模型无关设计，便于与各种基于提示的模型无缝集成。RAGPT包含三个模块：多通道检索器、缺失模态生成器和上下文感知提词器。在检索过程中，我们提出了一种通用多通道检索策略，将多模态表示解开为单模态组件，便于基于模态内相似性检索相似样本，适用于缺失和全模态情景。接下来，缺失模态生成器包含一个可学习的滤波器，用于近似缺失信息。在传统重建技术中存在跨模态生成时存在模态缺口外，该生成器通过利用与缺失模态相同的检索样本中的信息实现模态内重建，恢复缺失内容。此外，该设计丰富了缺失模态表示，确保在预训练阶段与预训练MMT的完全模态输入格式保持一致。最后，上下文感知提问器识别目标与检索实例之间的语义相关性，生成针对不同输入的动态多模态提示。这些提示促进了缺失和全模态场景中模态特征的自适应细化，从而增强预训练模型的鲁棒性。

我们将这些模块插入预训练MMT，以实现缺失和全模态数据的更准确表示。以下是我们的主要贡献：

• 据我们所知，这是首个针对不完全模态的检索增强范式。我们揭示，以往基于提示的方法存在虚假填充和静态提示的问题，在严重缺失模态情况下性能会大幅下降。

• 为解决这些问题，我们提出了RAGPT，开创性地采用检索增强动态提示调优框架，桥接目标与相关实例，恢复缺失模态，并生成动态提示，以增强MMT在多种缺失模态情境下的稳健性。

• 我们在三个真实世界数据集上进行了广泛实验，将RAGPT与9个竞争基线进行比较，结果证实了RAGPT在解决缺失模态问题上的有效性。我们的工作代码和基于提示的基线可在 https://github.com/Jian-Lang/RAGPT 获取。

图1：先前基于提示的方法与我们RAGPT在解决不完全多模态学习问题中的比较。

方法论

问题定义

本文考虑包含两种模态的多模态数据集。形式上，我们定义 D = {Df ， Dm} 表示多模态数据集。这里，Df = {（x1 i ， x2 i ， yi）}Nf i=1 表示模态完全子集，其中 yi 是第 i 个实例的类标签。x1 i 和 x2 i 表示两种模态（例如文本和图像）。N f 是子集 Df 中实例的总数。反过来，Dm = {（x1 i ，， yi） ∨ （， x2 i ， yi）}Nm i=1 是一个模态不完全子集，其中“”表示缺失的模态，N m 是 Dm 中缺失模态数据的数量。该任务的目标是在训练和测试阶段缺乏模态的情况下，增强模型的鲁棒性。图2展示了RAGPT中的关键组件及其关系。以下章节将深入探讨每个组件的具体内容及其相应的实现。

多通道增强

本节设计了一个统一的多通道检索器，通过利用模态内相似性识别相关模态内容。内存构建为存储高质量语义信息作为先验知识，我们定义了内存B，该内存通过一组（图像、文本、标签）三元组编码多模态实例。多通道检索为适应多样化的缺失和全模态场景，我们开发了多通道检索器（MCR），通过统一检索架构有效检索相关实例。具体来说，对于缺失文本通道，MCR将图像表示作为查询用于识别顶K相似图像，并结合相关文本创建多模态实例。对于完整的模态，MCR分别利用图像和文本搜索相关文本和图像，从而创建多模态实例。具体来说，在文本级分支中，MCR首先将目标实例Ti中的x1 i分成n个词词，然后将其投影为词嵌入Wi ∈ Rn×dt，其中dt为词嵌入维数。接着，嵌入Wi输入预训练文本编码器（例如CLIP文本编码器（Radford等，2021）Ψt（·），以获得文本表示，表示为Et i = Ψt（Wi） ∈ Rdt 。随后，MCR利用文本查询Et i计算内存B中文本表示Etr的相似度评分，从而识别前K文本相似实例CR i：

对于视觉内容，MCR首先将图像x2i划分为m个互不重叠的图像块，然后将其投影为一个图像块令牌序列Vi∈Rm × dv。然后，将这些令牌Vi输入到预训练的视觉编码器( e.g . , CLIP视觉编码器(雷德福et al 2021) ) Ψv ( · )中，以获得视觉查询Ev i∈Rdv。最后，搜索top - K视觉内容的检索过程与等式中定义的相同。1 .经过检索，可以很容易地得到top - K个实例CR i = { cr1i，· · ·，crK i }。每个检索到的实例crk i都包含(图像、文字、标签)三元组。检索到的top - K实例提供了辅助上下文，指导目标实例中缺失内容的恢复，提高任务特定的预测。

语境感知的提示语

为了显式地捕获表达性的上下文信息，并增强预训练MMTs对缺失模态问题的鲁棒性。我们设计了一个上下文感知的Prompter( Context-Aware Prompter，CAP )，它从检索到的实例CR i中构造文本级、视觉级和标签级的动态提示。对于文本级提示，CAP融合CR i中的参考文本特征，并通过一个简单的网络对齐Ti中的文本嵌入。具体来说，CAP首先将文本x1i和{ x1，rk i } K k = 1进行符号化并投影为词嵌入Wi∈Rn × dt和WR i = { W rk i } K k = 1∈RK × n × dt。随后，以词嵌入Wi为查询，通过交叉注意力块与检索到的文本特征{ Wrk i } K k = 1进行交互，以方便上下文理解，从而生成文本级综合表示P ' t i∈Rn × dt：

其中fQt ( . )，ftK ( . )，ftV ( . )分别表示查询，密钥和值投影函数.对于视觉级别的提示，CAP使用相同的过程，将视觉补丁令牌Vi∈Rm × dv与检索到的补丁令牌VR i∈RK × m × dv进行交互，得到视觉级别的表示P ' v i∈Rm × dv。然后，CAP采用自适应池化策略来获得最终的上下文感知提示Pt i∈Rl × dt和Pv i∈Rl × dv，其中l是提示长度。对于标签级别的提示，CAP产生一个标签嵌入矩阵P ' l i∈RC × d来编码C类标签，其中d是一个可调的维度。给定检索到的标签，CAP对嵌入矩阵P ' l i进行查找操作，得到每个标签的嵌入。接下来，CAP平均K个标签嵌入并生成标签级别的提示Pli∈Rd。

知识增强的提示微调

在这个过程中，我们首先利用检索到的模态信息，通过一个缺失模态生成器来近似缺失的内容。接下来，我们对预训练的MMT ( ( e.g . , ViLT ( Kim , Son , and Kim 2021) )进行动态的提示调整，以增强特定任务的推理。缺失模态生成器现有的重构方法( Ma et al 2021)通过可用的模态恢复缺失的内容来解决缺失模态问题。然而，这些方法往往忽略了模态异质性问题，并且依赖于复杂的生成结构。基于这些观察，我们提出了一种缺失模态生成器( Missing Modality Generator，MMG )，通过"模态内重构"来恢复缺失的模态。 MMG利用与缺失模态相同的检索内容，并结合可学习的过滤层，以更简单但有效的方式有效地近似缺失模态。具体地，给定文本缺失实例Ti，MMG采用非参数策略从检索实例CR i中平均所有文本嵌入WR i = { Wrk i } K k = 1，从而获得文本表示W￣i∈Rn × dt来近似缺失模态。考虑到综合文本表示W￣i中潜在的噪声，MMG引入了一个简单的可学习滤波器块(即,基于MLP的滤波器( Zhou et al 2022b ) )，通过去除噪声来有效地细化文本特征W￣i。具体来说，MMG沿文本维度使用快速傅里叶变换( FFT )。该操作将文本上下文表示W ~ i变换到频域：

式中：F ( · )为一维FFT，Zi为W ~ i的频谱。然后MMG通过与可学习滤波器W∈Cn × dt：的逐元素乘法来调制频谱。

最后，将恢复的表示W ( i )作为缺失模态的嵌入，并将其输入到预训练的MMT中。此外，将上述过程应用于包含缺失图像的场景，以获得相应的视觉块嵌入V ( i .动态提示调节给定一个预训练的具有N个连续多磁头自注意力( Self-Attention，MSA )层的MMT f θ，我们将第b个MSA层的输入表示记为hb∈RL × d，b = 1，2，..，N，输入长度L和嵌入维数d。对于全模态数据，我们利用预训练模型f θ ( · )的嵌入层得到相应的文本嵌入Et和图像嵌入Ev。在缺失模态的情况下，我们使用生成的词嵌入W (和视觉块嵌入V (来填充相应的缺失模态。h1是文本嵌入Et和图像嵌入Ev的级联。然后，上下文感知提示Pt、Pv和Pl沿着序列长度维度附加到嵌入特征上，形成扩展特征hbp = [ Pt、Pv、Pl、hb]。这些扩展特征hbp从第b层开始进入MMT，并继续在剩余层中传播。最后的输出hpN表示第N层之后的综合模态表示。而不是在每个MSA层添加提示，这会导致相当大的开销，我们选择性地将提示插入到特定的第b层。标签增强预测为了进一步利用标签级别提示中的上下文信息，我们通过计算MMT的输出表示与标签矩阵P ' l之间的相似度，设计了一个标签增强分类器。具体来说，对于最终的预测，我们将输出表示hpN输入到池化层，得到表示Z∈Rd × 1。接下来，我们计算概率。C类Y (∈RC × 1 )：y ( = softmax( P ' l⋅Z)。在训练过程中，我们冻结MMT中的所有参数，并使用交叉熵损失对模型进行优化。

实验

实验配置

该部分对实验设置进行了总结，包括数据集、基线、评估指标、缺失模式设置和实现细节。数据集在前期工作( Lee et al.2023 ; Jang , Wang , and Kim 2024)的基础上，我们在三个下游任务上评估了我们的RAGPT。( 1 ) MM-IMDb ( Arevalo等2017)，主要用于图像和文本两种模态的电影类型分类。( 2 ) Food101 ( Wang et al . 2015)，它专注于融合图像和文本的图像分类。( 3 ) HateMemes ( Kiela et al 2020)，旨在利用图像和文本模态识别模因中的仇恨言论。数据集的详细统计数据见表2。数据集的拆分与原始论文一致。基线我们将我们的RAGPT与9个竞争性基线进行比较，这些竞争性基线分为三类：( 1 )跨模态生成方法：SMIL ( Ma et al 2021)，TFRNet ( Yuan et al . 2021)和AcMAE ( Woo et al.2023)。( 2 )联合学习方法：IF-MMIN ( Zuo et al 2023)，ShaSpec ( Wang et al.2023)，DrFuse ( Yao et al.2024)，CorrKD ( Li et al.2024)。( 3 ) Prompt-Based方法：映射( Lee et al.2023)和Msps ( Jang , Wang , and Kim 2024)。评价在( Lee et al.2023 ; Jang , Wang , and Kim 2024)的工作基础上，我们采用了合适的数据集评估指标：MM - IMDb数据集的F1 - Micro ( F1-M )和F1Sample ( F1-S )，HateMemes数据集的AUROC和Food101数据集的分类准确率( ACC )。缺失模式的设置我们将缺失率η %定义为模态不完整数据相对于整个数据集的比例。对于每个数据集，存在3种可能的模态缺失情况：文本缺失、图像缺失和两种模态均缺失。缺失率为η %的文本/图像缺失表明存在η %的由文本/图像组成的实例和( 1-η ) %的同时包含两种模态的实例。两种模态同时缺失，缺失率为η %，表明有η 2 %的实例仅由图像组成，η 2 %的实例仅由文本组成，( 1-η ) %的实例是完整的，包含两种模态。实现细节遵循先前的工作( Lee et al 2023；Jang，Wang和Kim 2024 )，我们使用预训练的ViLT ( Kim , Son , and Kim 2021)作为MMT的骨干。每个数据集的内存B由对应的训练集构建。上下文感知提示长度l设为2，检索实例数K选自{ 1，3，5，7，9 }，提示插入层b设为2。采用学习率为1 × 10 - 3的Adam W优化器(洛什奇洛夫和哈特2017)，共20个历元进行参数优化。所有实验均在NVIDIA RTX 3090 GPU上进行。

模型总体性能

为了验证RAGPT的优越性，在η % = 70 %的缺失率下，将其与9条竞争基线在3个数据集上进行比较。从这些结果中，我们有以下观察：首先，我们的RAGPT在不同的模态条件和度量下，在三个数据集上一致地优于所有的强基线。此外，我们将RAGPT和最好的基线重新训练5次，以计算p值。值得注意的是，RAGPT实现了12 . 21 %、12 .在文本缺失的MM - IMDb数据集上，F1 - M和F1 - S指标分别提高了68 %。这些结果验证了我们对表达性知识的挖掘设计。检索实例以增强缺失和完整的模态数据。同时，缺失模态生成器和上下文感知提示器分别从检索实例中提取表达性的上下文信息来近似缺失内容和生成动态提示，从而提高模型对不完整模态的鲁棒性。其次，跨模态生成和联合学习方法表现出较差的性能，主要是由于随机占位引入的不确定性和重建中模态异质性的挑战，这造成了显著的性能瓶颈。此外，基于提示的方法在缺失模态场景中也表现出有限的有效性，因为它们依赖于虚拟填充和静态提示策略，进一步限制了它们的潜力，并导致性能停滞。

消融实验

我们进行了各种消融实验，以评估70 %文本缺失情况下RAGPT中每个组件的影响，并将结果总结在表3中。多通道检索器的影响为了分析RAGPT中检索器的影响，我们设计了两个变体：( 1 ) CM检索器：将多通道检索器替换为跨模态检索器；( 2 ) w / o检索器：将检索器全部移除。这些结果证实了跨模态检索中模态间隙问题的存在，使得检索到的实例与目标图像不相关。此外，这一发现加强了我们的多通道检索设计，通过计算模态内相似度来检索相关实例，从而增强缺失和完整的模态数据。缺失模态生成器的影响为了评估缺失模态生成器的影响，我们设计了不同的模型：( 1 ) Padding：使用随机值填充缺失模态，( 2 ) w / o Filter：完全去除滤波器块。我们观察到假人填充会导致性能下降。这一发现支持了我们的论断，即在基于提示的方法中，虚拟填充会导致性能瓶颈。此外，过滤层的去除会导致性能的显著下降，突出了过滤层在RAGPT中对有效抑制噪声的重要性。上下文感知提示的作用为了分析上下文感知提示，我们设计了变体：( 1 )静态提示：用静态提示替换上下文感知提示；( 2 ) w / o标记：去除标记增强；( 3 ) w / oPrompter：完全消除文本提示、视觉提示、标签提示。这三种变体导致了较差的表现，验证了静态提示为解决不完整的多模态学习提供了有限的相关线索。

超参数分析

图3 ( a )和图3 ( b )给出了RAGPT超参数K在MM - IMDb和HateMemes数据集上的敏感性分析。实验结果表明，通过检索相关实例，RAGPT的性能得到了提高。然而，由于噪声(即,不相关的实例)的引入，合并更多的实例可能会导致性能的下降。因此，我们在MMIMDb数据集上的图像缺失情况下采用K = 3，其他情况下采用K = 5。

检索质量呈现

为了进一步分析我们提出的多通道检索器的有效性，我们从Food101数据集中随机选择了两个模态不完整的实例。图4对Top - 2相似检索实例进行了可视化展示，展示了检索实例与目标实例在图像和文本模态上都具有较强的语义相关性。检索相关度的高质量表明我们的多通道检索器能够有效地识别相关模态信息。

模型泛化能力

为了考察模型的泛化能力，我们在训练集中设计了两个不同缺失率的实验。并在缺失率为90 %的测试集上评估它们的性能。与四个强基线( ShaSpec、DrFuse、MAPs和MSPs)相比，图5 ( a )展示了文本缺失情况下的结果，而图5 ( b )展示了两种模态都缺失情况下的结果。我们观察到，在所有缺失率下，我们的RAGPT优于所有基线，显示出对缺失模态的卓越性能。这些结果凸显了RAGPT的泛化能力，这可以归因于从相关情境中探索关键线索的能力。

对不同缺失率的稳健性

我们通过实验分析了模型对不同缺失率的稳健性。图6展示了RAGPT在HateMemes数据集上与4个强基线( ShaSpec、DrFuse、MAPs和MSPs)的比较结果。我们观察到，随着缺失率的增加，所有基线的表现都显著恶化。相比之下，随着缺失率的增加，RAGPT仅表现出轻微的性能下降。这一结果凸显了RAGPT中有效缓解缺失数据影响的有价值成分。具体来说，RAGPT利用检索实例的表达性知识，通过缺失模态生成器来近似缺失模态。此外，RAGPT生成上下文感知提示，增强了预训练MMT的性能。

模型的可扩展性

为了进一步验证RAGPT的可扩展性，我们集成了关键模块(多通道检索器、缺失模态生成器和上下文感知提示符)组成两个基于提示符的基线( MAPs和MSPs)。在图7中，我们观察到随着缺失率的增加，两个基线的性能下降速度明显变慢。这一发现表明，我们的模块显著增强了这些基线对不完整模态的鲁棒性。这也验证了我们的设计在从相关实例中提取信息丰富的多模态线索和提示预先训练的MMTs方面的有效性

模型预测可视化

图8展示了在90 %的文本缺失率下，MMIMDb测试集中三种体裁(即《体育》、《黑色电影》、《西)的嵌入分布的t - SNE ( Van der Maaten和Hinton 2008)可视化。我们观察到，基线MSP在学习可区分特征的同时，学习到的特征仍然交织在一起。相比之下，我们的RAGPT学习到的三种语类的表示更具有区分性，在具有不同标签的实例之间表现出更大的分离区域。

总结

在这项工作中，我们提出了RAGPT，一种新颖的检索增强的动态提示-校正框架来解决缺失模态问题。该模型不可知框架包括3个关键部分：( 1 )多通道检索器，( 2 )缺失模态生成器，( 3 )上下文感知提示器，以有效地将有价值的上下文知识注入到预训练的MMT中，从而增强其在缺失模态场景下的鲁棒性。在三个真实数据集上进行的大量实验证明了RAGPT在处理不完整模态学习方面的优越性。