news 2026/6/9 20:10:11

TPAMI 2025 | 双编码器 + 动态加权融合!多数据集验证,图像篡改定位泛化能力达 SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TPAMI 2025 | 双编码器 + 动态加权融合!多数据集验证,图像篡改定位泛化能力达 SOTA
点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达

你是否曾被朋友圈里的“高清无码”假照片骗到?随着PS、AI绘图工具的普及,图像篡改技术越来越高明,拼接、复制粘贴、修复等操作能做到天衣无缝。但今天要给大家介绍的这篇TPAMI 2025最新论文,用一种全新的思路破解了这个难题——通过捕捉像素间的“不一致”痕迹,让所有伪造区域无所遁形!

论文信息

题目:Pixel-Inconsistency Modeling for Image Manipulation Localization
图像篡改定位的像素不一致建模
作者:Chenqi Kong, Anwei Luo, Shiqi Wang, Haoliang Li, Anderson Rocha, Alex C. Kot

为什么传统方法总失手?

过去,图像篡改检测主要靠两种思路:要么找镜头畸变、噪声模式等人工设计的特征,要么用深度学习模型死磕训练数据里的规律。但这两种方法都有致命缺陷:

  • 传统特征太死板,面对新型篡改技术就歇菜

  • 深度学习模型容易“死记硬背”训练数据,换个数据集就翻车

  • 遇到AIGC生成的高逼真伪造图像,更是直接“睁眼瞎”

论文作者发现了一个关键规律:所有相机拍摄的原始图像,像素之间都存在天然的关联性。这是因为相机的图像信号处理器(ISP)会进行去马赛克操作,让相邻像素形成有规律的依赖关系。而任何篡改操作(拼接、复制移动等)都会破坏这种规律,留下“像素不一致”的痕迹。

就像拼图被强行拆开再拼接,边缘总会有细微的缝隙——这就是论文要抓的“小辫子”!

三大创新点,彻底刷新检测能力

这篇论文之所以能登上顶刊,靠的是三个硬核创新:

1. 史上最全面的测评基准

作者一口气整合了12个数据集,对16种主流检测方法进行了“全方面体检”:

  • 测试它们在未知数据集上的泛化能力

  • 模拟6种图像扰动(比如压缩、模糊)的9个严重级别,考验鲁棒性

  • 甚至拿AIGC生成的超逼真伪造图像当“终极BOSS”

这就像给所有检测方法搞了个“高考+模拟考+附加题”的全套测试,结果发现大部分方法在跨场景测试中成绩暴跌,而新方法却稳如泰山。

2. 双流框架:全局+局部双管齐下

论文设计的核心模型就像一个“精密侦探”,用两个“眼睛”同时观察图像:

整体框架图
  • 全局像素依赖编码器:用掩码自注意力机制,像读文章一样按顺序分析所有像素块的依赖关系。就像侦探排查整个案件的时间线,任何前后矛盾的细节都逃不过它的眼睛。

  • 局部像素依赖编码器:通过差分卷积技术,聚焦局部区域的像素差异。比如检查拼图边缘的细微错位,哪怕是1个像素的偏差都能捕捉到。

两个编码器的特征通过“学习加权模块”智能融合,最后由三个解码器分别预测篡改区域、边界和重建原始图像,相当于多维度交叉验证,确保判断准确。

3. 像素不一致数据增强:用真图造“假证”

最绝的是这个数据增强策略(PIDA)!它完全不用真实的伪造图像,直接对真实图像动手脚:

PIDA流程
  1. 给真实图像加压缩、噪声等“伤痕”

  2. 提取前景掩码,把“受伤”的部分和原图拼接

  3. 自动生成篡改边界标签

这样造出的“伪伪造图像”语义上完全合理,但像素级存在细微矛盾,强迫模型专注学习这种底层痕迹,而不是死记硬背“天空不能出现在地面”这种语义规律。这就像练武功时故意用反常规的招式训练,实战时才能应对各种奇招。

实测效果:秒杀现有方法

作者在11个测试数据集上进行了严格对比,新方法(PIM)的表现只能用“碾压”形容:

  • 在跨数据集测试中,平均F1分数比最先进的TruFor高2.3%,IoU指标更是全面领先

  • 面对10种修复篡改技术,8个数据集拿下第一,平均F1达0.649

  • 对付Dall-E2、Stable Diffusion生成的复杂伪造图像,F1和IoU指标全部登顶

  • 即使图像被恶意压缩、模糊,鲁棒性依然吊打其他方法

看这组可视化结果,红色是真实篡改区域,绿色是模型预测,新方法几乎完美贴合:

(此处可脑补对比图:其他方法边缘模糊,新方法精准勾勒)

尤其在AIGC生成的高逼真伪造图像上,传统方法经常把整个图像标为“可疑”,而新方法能精准揪出被篡改的局部区域,比如凭空添加的物体、修改的背景等。

为什么这项研究很重要?

在假新闻泛滥、AI换脸诈骗频发的今天,靠谱的图像篡改检测技术简直是“数字世界的防伪码”:

  • 新闻媒体可以用它验证素材真实性

  • 司法领域能快速鉴定证据是否被篡改

  • 社交媒体平台可自动拦截恶意伪造内容

  • 甚至能帮我们普通人练就“火眼金睛”

论文作者还特别提到,目前模型在极端低分辨率图像上表现还有提升空间,未来可能结合更多物理层特征(比如传感器噪声)进一步强化检测能力。

如果你也对图像取证、AI安全感兴趣,这篇论文绝对值得深入研读。毕竟在这个“眼见不一定为实”的时代,能看穿像素级谎言的技术,实在太重要了!

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:人工智能0基础学习攻略手册

在「小白学视觉」公众号后台回复:攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 13:19:15

智能垃圾桶:AI Agent的自动分类系统

智能垃圾桶:AI Agent的自动分类系统 关键词:智能垃圾桶、AI Agent、自动分类系统、机器学习、计算机视觉、垃圾分类 摘要:本文围绕智能垃圾桶的AI Agent自动分类系统展开,详细阐述了其核心概念、算法原理、数学模型等内容。首先介绍了系统开发的背景,包括目的、预期读者等…

作者头像 李华
网站建设 2026/6/10 13:18:52

5G时代,如何处理超大规模物联网数据

你好,我是程序员贵哥。 时间过的真快,转眼间我们已经结束了前五个模块的学习,来到了最后一个模块“大规模数据的挑战和未来”。 一门技术类课程的常见学习路线就是“过去→现在→未来”。这个专栏也是如此,我们首先研究了大数据处…

作者头像 李华
网站建设 2026/6/10 13:41:54

牛只行为识别研究:基于YOLO13与UniRepLKNetBlock的智能分类系统_1

cattle_be数据集是一个用于牛只行为识别的计算机视觉数据集,该数据集采用CC BY 4.0许可证授权,由qunshankj平台用户于2023年9月11日创建并导出。数据集共包含864张图像,所有图像均经过预处理,包括自动调整像素方向(剥离…

作者头像 李华
网站建设 2026/6/10 16:22:53

知识扩展-高精度空转(HD、Xenium、CosMx)banksy数据增强的意义

作者,Evil Genius 大家先看看下面HD的分析示例,供大家思考。 之前一直有一个问题就在于高精度空转的banksy聚类与数据本身聚类的之间的异同。 目前文章采用banksy的数量并不多,且理解上不是很容易,其与直接注释之间的区别我们需…

作者头像 李华
网站建设 2026/6/9 16:40:29

学术航行新坐标:书匠策AI——期刊论文写作的“智能舰队”

在学术海洋中,每一篇期刊论文都是研究者探索未知的航标,但传统写作方式常让人陷入“选题迷航”“逻辑风暴”“格式漩涡”等困境。如今,一支名为书匠策AI的“智能舰队”正悄然改变格局——它以六大核心功能为引擎,为科研工作者打造…

作者头像 李华
网站建设 2026/6/10 15:36:47

YOLO26涨点改进 | 全网独家首发,卷积创新改进篇 | TGRS 2025 | 引入MRCB多尺度感受野上下文提取模块,多种改进适用于复杂背景、小目标密集的红外或遥感图像目标检测场景,助力高效涨点

一、本文介绍 🔥本文给大家介绍使用 MRCB多尺度感受野上下文提取模块改进 YOLO26 网络模型,可以有效扩展其感受野、增强上下文理解和提升小目标的响应强度,显著提升检测精度与鲁棒性,尤其适用于复杂背景、小目标密集的红外或遥感图像场景。同时,MRCB 结构轻量、易于部署…

作者头像 李华