news 2026/4/18 15:51:03

VisDoM: Multi-Document QA with Visually Rich ElementsUsing Multimodal Retrieval-Augmented Generatio

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
VisDoM: Multi-Document QA with Visually Rich ElementsUsing Multimodal Retrieval-Augmented Generatio

从包含多个文档的集合中理解信息,尤其是那些包含丰富视觉元素的文档,对于基于文档的问答(document-grounded QA)至关重要。本文提出了VisDoMBench,这是首个用于评估多文档、富多模态内容(包括表格、图表和演示文稿幻灯片)场景下问答系统的综合性基准。

我们进一步提出了VisDoMRAG,一种新颖的多模态检索增强生成(Retrieval Augmented Generation,RAG)方法,该方法同时利用视觉 RAG 与文本 RAG,将强大的视觉检索能力与复杂的语言推理能力相结合。VisDoMRAG 采用多步推理流程,包括证据筛选(evidence curation)和思维链(chain-of-thought)推理,在文本与视觉 RAG 管线中并行执行。

VisDoMRAG 的一个关键创新在于其一致性约束的模态融合机制,该机制在推理阶段对齐不同模态下的推理过程,从而生成连贯一致的最终答案。这一设计在关键信息分散于不同模态的场景中显著提升了准确性,并通过隐式的上下文归因提高了答案的可验证性。

通过对开源和闭源大型语言模型进行的大规模实验,我们在 VisDoMBench 上对当前最先进的文档问答方法进行了系统评测。实验结果表明,在端到端多模态文档问答任务中,VisDoMRAG 相比单模态方法和长上下文 LLM 基线模型取得了 12%–20% 的性能提升

下面是全文中文翻译(保持学术风格与术语一致性,适合论文阅读或引用):


引言(Introduction)

在当今信息高度密集的环境中,PDF 文档在金融、法律、科学研究等多个领域中发挥着至关重要的作用,用于信息的存储与传播。这类文档通常融合了文本、视觉以及表格数据等多种信息形式,使其对信息检索系统而言构成了独特的挑战。与数据库等结构化格式不同,PDF 本质上是非结构化的,其布局形式多样,往往同时包含段落文本、图片、图表和表格。这种复杂性要求采用先进的多模态处理技术,以同时理解文本与视觉内容。

对 PDF 中多模态内容的有效处理,对于下游任务至关重要,例如问答系统(Ding et al., 2022;Mathew et al., 2021)、摘要生成(Pang et al., 2023)以及知识抽取(Pal et al., 2023)。在这些任务中,准确且具备上下文感知能力的数据抽取能够显著提升决策过程的质量。因此,如何充分挖掘 PDF 文档的多模态特性,已成为一个关键的研究挑战。

在真实世界的文档问答系统中,用户的查询往往不是针对单一文档,而是面向一组源文档,系统需要从中定位包含相关答案的文档。这种场景在金融、科学和政策分析等领域尤为常见,用户通常需要在规模庞大且内容多样的文档集合中查找特定信息。在此情境下,核心挑战在于如何从分散在多个文档中的海量信息中有效定位与查询相关的上下文,这一过程类似于在“大海捞针”(Wang et al., 2024b)。

目前,多文档问答(Multi-document QA)数据集仍然十分稀缺。现有的多文档基准(Bai et al., 2023;Wang et al., 2024c)主要聚焦于纯文本信息,往往忽略了真实文档中普遍存在的多样化内容形式,如表格、图表和其他视觉元素。然而,这些视觉富集元素在回答特定类型的问题时至关重要。表格通常包含高密度、结构化的信息,难以通过纯文本完整表达;而图表和幻灯片则以视觉方式呈现趋势、关系或分布,需要超越文本描述的解释能力。缺乏涵盖这些模态的数据集,限制了现有问答模型应对复杂多模态问题的能力。例如,回答金融或科学领域的问题,往往需要同时理解表格中的数值数据、图形中的趋势,以及相关的文本说明。

在以视觉富集文档为核心的应用场景中,现有的 RAG 系统由于依赖单一模态(文本或视觉)进行检索而面临关键局限。基于文本的系统在语言推理方面表现出色,但往往忽视表格和图像等关键视觉元素;而利用视觉检索的多模态 RAG 系统(Chen et al., 2022)虽然能够有效提取视觉信息,但其端到端性能常受到 LLM 视觉推理能力的限制。已有研究表明,在相同上下文条件下,文本输入通常优于视觉输入(Deng et al., 2024),这可归因于视觉语言模型中的语言偏置(Niu et al., 2021;Wang et al., 2024a)以及视觉幻觉问题(Ghosh et al., 2024)。


主要结果(Main Results)

我们提出了VisDoMBench,这是首个专门面向多文档、多模态问答的基准数据集,重点覆盖表格、图表和幻灯片等视觉富集内容。VisDoMBench 包含多样化的复杂内容和问题类型,并配有人工标注的证据,使得对多模态问答系统进行全面评估成为可能。在本研究中,我们系统性地评测了多种视觉与文本检索方法在 VisDoMBench 上的表现,深入分析了它们在处理视觉富集、多文档查询时的有效性。

此外,我们提出了VisDoMRAG,一种新颖的多模态 RAG 方法,通过在文本 RAG 与视觉 RAG 管线之上进行有效的模态融合,同时发挥两者的优势。与仅进行纯文本或纯视觉检索的现有方法不同,VisDoMRAG 采用并行的文本与视觉 RAG 管线,每条管线均包含多步推理过程,包括证据筛选(Evidence Curation)、**思维链推理(Chain-of-Thought Reasoning)**以及答案生成。

随后,系统通过一种模态融合机制整合两条管线的输出,该机制对不同模态下的推理链施加一致性约束,确保在推理阶段对齐跨模态的推理过程,从而生成最终答案。与传统的单模态或较为简单的多模态系统相比,VisDoMRAG 具有多项显著优势:

首先,它能够全面利用文本与视觉线索,在关键信息分布于不同模态的场景中,生成更加准确、完整的答案。其次,证据筛选步骤天然支持答案的可验证性,因为上下文归因已内嵌于系统设计之中。

我们在多种开源和闭源大型语言模型设置下进行了广泛实验,将 VisDoMRAG 与多种策略进行对比,包括长上下文处理文本 RAG视觉 RAG。实验结果表明,VisDoMRAG 在 VisDoMBench 基准上的端到端问答性能提升显著,整体提升幅度达到 12%–20%

下面是你给出的Section 2–4.1 的完整中文翻译,我保持了论文级别的学术表达、术语一致性,并尽量贴合多模态 RAG / 文档 QA 领域的常用译法,方便你直接用于阅读、复述或写作参考。


2 相关工作(Related Work)

检索增强生成(Retrieval Augmented Generation)

尽管大型语言模型(Large Language Models,LLMs)已经取得了显著进展,但在整合外部知识以及适应新的、未见过的数据方面仍然面临挑战。检索增强生成(Retrieval Augmented Generation,RAG)通过引入外部信息来弥补这些不足,从而提升 LLM 输出结果的准确性与可靠性(Lewis et al., 2020)。

RAG 已被广泛应用于多种下游单模态 NLP 任务,包括机器翻译(Gu et al., 2018;He et al., 2021)、对话生成(Cai et al., 2018)、抽象式摘要(Peng et al., 2019)以及知识密集型生成任务(Izacard and Grave, 2020;Lewis et al., 2020)。在视觉问答(Visual Question Answering,VQA)领域,Lin and Byrne(2022)通过目标检测、图像描述生成以及光学字符识别(OCR),将目标图像转换为文本形式,从而应对开放域 VQA 的挑战。

在突破纯文本上下文的方向上,MuRAG 同时检索文本和图像数据,并将图像作为视觉 token 引入模型中(Chen et al., 2022)。RAMM 则通过独立的网络检索并编码相似的生物医学图像及其对应的描述文本,从而提升整体性能(Yuan et al., 2023)。


长上下文文档基准(Long Context Document Benchmarks)

长上下文文档问答基准的对比(见表 1)突出了不同数据集在内容类型、多文档能力和应用领域方面的多样性。现有基准如 L-Eval(An et al., 2023)、Marathon(Zhang et al., 2023)和 LooGLE(Li et al., 2023)主要聚焦于多领域来源的文本内容,但并不支持多文档输入。

LongBench(Bai et al., 2023)和 Loong(Wang et al., 2024c)在评测设置中引入了多文档场景,但整体仍然以文本为中心。


与现有数据集的对比(Comparison with Existing Datasets)

部分基准数据集(如 MPDocVQA(Tito et al., 2023)、UDA(Hui et al., 2024)以及 MMLONGBENCH-DOC(Ma et al., 2024)通过引入表格、图表和幻灯片拓展了内容模态的覆盖范围,但这些数据集仅支持单文档问答

相比之下,VisDoMBench 支持跨多文档的问答任务,并覆盖文本、表格、图表和幻灯片等多种内容类型,构建了一个更为全面的、多领域多模态评测框架。


3 问题定义(Problem Formulation)

给定一个查询 ( q ),我们有一个包含 ( M ) 个文档的集合
[
D = {d_1, d_2, \ldots, d_M},
]
其中每个文档 ( d_i ) 由 ( N_i ) 个页面组成,表示为
[
P_i = {p_i^1, p_i^2, \ldots, p_i^{N_i}}.
]

我们的目标是为每个查询 ( q ) 生成文本答案 ( \hat{a} ),以准确回答用户的问题。答案生成过程依赖于从一个或多个文档中检索相关的证据上下文。每个查询可能需要来自文档集合 ( D ) 中一个或多个文档、不同页面上的信息。

因此,我们旨在提出一个能够在多页、多文档文档集合上准确回答问题的框架:系统首先在页面级、段落级或文本块级别检索相关证据,然后利用检索到的上下文生成最终答案文本。


4 VisDoMBench

VisDoMBench 中的每一个数据样本都可以表示为三元组
[
(q, D, \hat{a}),
]
其中问题 ( q ) 针对文档集合 ( D ) 提出,( \hat{a} ) 为对应的真实答案。我们重新整合了五个已有的文档问答数据集来构建该基准。表 2 汇总了 VisDoMBench 中不同数据划分的统计信息,包括样本规模、问答类型以及内容类型。


4.1 VisDoMBench 数据构建(Data Sourcing)

在构建文档问答数据集的过程中,我们遵循了以下标准:

  1. 包含视觉富集内容,如表格、图表和演示文稿幻灯片;

  2. 使用公开可获取的源文档

  3. 具备可追溯的证据标注(grounded evidence)

制定这些标准的目的是确保数据集在多模态信息检索任务中的相关性,以及其在真实世界问答场景中的适用性。

我们的语料库主要由多个已有数据集的测试 / 评测集构成。具体而言,我们引入了 UDA Benchmark(Hui et al., 2024)中的PaperTabFeTaTab数据划分,这两个数据集分别来源于QASPER(Dasigi et al., 2021)和FeTaQA(Nan et al., 2022)。对于基于图表的问答样本,我们使用了SciGraphQA(Li and Tajbakhsh, 2023),这是一个面向科学论文图表的多轮问答数据集。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 10:52:31

Z-Image版镜像配置.NET开发环境:企业应用开发准备

Z-Image版镜像配置.NET开发环境:企业应用开发准备 如果你正在Jimeng AI Studio的Z-Image环境中探索AI应用开发,同时又需要构建一个稳定、专业的后端服务,那么为你的项目配置一个完整的.NET开发环境就至关重要了。Z-Image镜像本身专注于图像生…

作者头像 李华
网站建设 2026/4/17 14:07:56

RPG游戏资源解密完全指南:从加密到提取的全流程解决方案

RPG游戏资源解密完全指南:从加密到提取的全流程解决方案 【免费下载链接】RPG-Maker-MV-Decrypter You can decrypt RPG-Maker-MV Resource Files with this project ~ If you dont wanna download it, you can use the Script on my HP: 项目地址: https://gitco…

作者头像 李华
网站建设 2026/4/18 8:46:52

nlp_gte_sentence-embedding_chinese-large模型API封装:快速构建文本处理服务

nlp_gte_sentence-embedding_chinese-large模型API封装:快速构建文本处理服务 如果你正在做智能客服、文档检索或者内容推荐这类项目,大概率会遇到一个核心需求:把一段段文字转换成计算机能理解的“数字指纹”,也就是向量。这个步…

作者头像 李华
网站建设 2026/4/18 11:00:23

Seedance GPU加速失效报错(CUDA_ERROR_INVALID_VALUE)?别再重装驱动!这是NVIDIA官方未文档化的context初始化缺陷(含patch级修复补丁)

第一章:Seedance GPU加速失效报错(CUDA_ERROR_INVALID_VALUE)现象总览在 Seedance 框架中启用 CUDA 加速时,用户频繁遭遇 CUDA_ERROR_INVALID_VALUE 错误,导致推理任务中断、显存未释放或模型加载失败。该错误并非源于…

作者头像 李华