news 2026/4/18 4:00:03

【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

大型视觉语言模型(LVLMs)取得了长足的进步,将视觉识别和语言理解交织在一起,生成的内容不仅连贯而且与语境相契合。尽管取得了成功,LVLMs仍然受困于物体幻觉问题,即模型生成看似合理实则不正确的输出,其中包含图像中不存在的物体。为了缓解这一问题,本文引入了视觉对比解码(VCD),这是一种简单且训练无关的方法,通过对比源自原始视觉输入和扭曲视觉输入的输出分布来工作。所提出的VCD有效减少了对统计偏差和单模态先验的过度依赖,这是导致物体幻觉的两个主要根源。这种调整确保了生成的内容紧密基于视觉输入,从而产生上下文准确的输出。本文的实验表明,VCD 无需额外训练或使用外部工具,在不同的 LVLM 系列中显著缓解了物体幻觉问题。除了缓解物体幻觉外,VCD 在通用 LVLM 基准测试中也表现出色,凸显了其广泛的适用性。代码开源于https://github.com/damo-nlp-sg/vcd。

1. 引言

大型视觉语言模型(LVLMs)已成为计算机视觉和自然语言处理交叉领域不可或缺的一部分,得益于其能够从视觉输入生成语境相关的文本描述的能力,这使得一系列应用得以实现。这些模型的特点在于其能够有效捕捉并转化复杂的视觉模式,形成连贯的语言表征[5_Qwen-VL, 12_InstructBLIP, 18_MultiModal-GPT, 33_Otter, 45_Visual_Instruction_Tuning, 49_Video-ChatGPT, 70_mPLUG-Owl, 73, 78]。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 4:03:08

期末作业03

文章目录 一、基础概念1、什么是方法的重写?2、什么是接口接口?3、什么是抽象类?什么是抽象方法?4、常见异常类及继承关系5、常用API类整理(表格)6、集合整理(List,ArrayList&#x…

作者头像 李华
网站建设 2026/4/18 7:40:49

软件缺少msdxm.ocx文件无法启动问题 下载修复方法

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华
网站建设 2026/4/17 17:07:15

Windows系统文件mshtmled.dll缺少损坏问题 下载修复方法

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华
网站建设 2026/4/17 3:32:58

Windows10上为 VS Code 配置 CMake C++ 开发环境

在 Windows 10 上为 VS Code 配置 CMake C++ 开发环境,需要依次安装编译器、构建工具,并配置 VS Code 的扩展和项目文件。下面是详细的分步指南。 一、 需要安装的组件与环境配置 请按顺序安装以下三个核心软件,并正确配置系统环境变量。 组件 作用 安装与配置要点 编译器 …

作者头像 李华