news 2026/5/5 23:12:08

顶刊TPAMI!打破“深度学习=黑盒“的范式!国防科大揭示红外弱小目标检测一关键归因

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
顶刊TPAMI!打破“深度学习=黑盒“的范式!国防科大揭示红外弱小目标检测一关键归因

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

转载自:遥感与深度学习

在军事侦察、海上搜救、无人机监控等关键场景中,红外小目标检测技术是实现"千里眼"的核心能力。然而,现实情况令人沮丧:当目标信噪比极低时,现有算法常常失效——要么误将动态杂波或噪声当作目标,要么彻底漏检真正的威胁。更令人困惑的是,这些深度学习模型究竟是"看到了什么"才做出判断的?没人说得清楚。国防科技大学最新研究成果《Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better》(DeepPro)为这一系列难题提供了系统性的新答案。

题目:Probing Deep into Temporal Profile Makes the Infrared Small Target Detector Much Better

期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence

论文:

https://arxiv.org/abs/2506.12766

项目:

https://tinalrj.github.io/DeepPro/

代码:

https://github.com/TinaLRJ/DeepPro

年份:2026

作者:李若敬,安玮,王应谦,应昕怡,戴一冕,王龙光,李淼,郭裕兰,刘丽

痛点:红外小目标检测的“三重挑战”

红外弱小目标检测(IRST)长期面临一个核心困境——精度、鲁棒性、效率三者难以兼得。论文指出,这一困境的根本原因在于目标与场景自身特性所带来的三大固有挑战:

  • 高精度挑战

    目标本身极小(通常仅占 ≤ 9×9 像素)、极暗(SNR ≤ 3),缺乏形状、纹理等充分的外观特征,难以构建有效的特征表征;同时,背景往往不平滑、不均匀,充斥着杂波和噪声,它们几乎占据整幅图像,且部分与目标高度相似,导致虚警难以抑制。

  • 高鲁棒性挑战

    在运动条件下,目标特性随时域演化——目标强度不断变化,其局部背景也在动态改变;此外,实际场景中包含多样的复杂背景(各具不同的杂波特性)和多种灰度分布截然不同的目标,这些复杂因素使得在多样化场景中持续、稳定地检测目标极为困难。

  • 高效率挑战

    红外弱小目标检测的应用需要实时处理海量数据流,而目标在空间域上又极其稀疏,因此很难平衡充分的特征提取与高效的计算。现有深度学习方法追求从空域和短时时空域中提取"更多"信息,不可避免地扩大感受野,造成严重计算冗余,更加损害了实时处理能力。

一个根本性问题浮现:在极端复杂场景下,到底哪个建模域能更好地呈现目标?哪种先验信息能更有效地捕获目标与背景之间的本质差异?

图1: 不同域中小目标可视化对比。在空域(c2)和短时时空域(c3),弱小目标几乎不可见或与干扰无法区分;而在时域剖面(c4)中,目标信号清晰、完整且突出。

突破:从“黑盒炼丹”到“可解释探针”

研究者们往往依靠来自传统领域以及深度学习领域的知识,通过搭建复杂的网络结构期望提取“more”特征。然而,这一路线是否足够明智和高性价比?网络在拟合了大量数据后,到底依赖什么“more essential”信息进行决策?深入探究这些问题对我们理解网络、发现关键决策依据,和解决“三重挑战”问题很重要。

DeepPro 团队没有走“堆叠模块、增大模型”的老路,而是从归因与理论分析出发,首次在红外弱小目标检测领域构建了可解释性分析工具,系统性地回答了两个关键问题:

1. 训练好的网络究竟在“看”什么?

为探究拟合了大量数据的网络以什么信息为关键特征实现检测,团队构建了该领域首个预测归因(Attribution)工具,通过梯度归因揭示网络决策机制。归因分析给出了两点关键发现:

  • 发现一

    对网络预测影响最大的像素,集中在目标的时域剖面附近,并沿时间轴成呈圆柱状分布。这意味着网络在做出正确判断时,核心依赖的是目标的时域剖面信息

图6: 现有网络对目标区域预测的归因可视化。归因结果直观揭示:网络最关注的是目标区域沿时间轴连续分布的像素,这正是时域剖面信息的核心体现。
  • 发现二

    时域剖面上参考帧的重要性随时间呈U型曲线变化。在一段时间内,远时刻信息也像近时刻信息一样重要。这说明时域剖面上信号的长期变化对红外小目标检测十分重要

图7: 平均影响力随参考帧时间的变化。

核心洞察:两点发现共同指向一个结论——时域剖面信息是网络做出正确判断的关键依据

2. 时域剖面上的“关键信息”是什么?

研究团队从信号处理角度深入分析了红外弱小目标在时域剖面(Temporal Profile)中的特性。时域剖面记录了固定空间位置上所有信号随时间的统计变化。关键发现如下:

  • 全局时域显著性

    当弱小目标穿越探测单元时,其强度随时间呈现"先增后减"的规律性波动——这是目标区别于随机噪声的本质特征。在 SNR ≤ 3 的极端条件下,目标在空域几乎不可见,但在时域剖面中依然清晰突出。

图4: 真实复杂场景下,不同 SNR 目标的空域与时域剖面对比。当 SNR < 3 时,空域目标几乎不可见,但时域剖面中目标信号依然显著。
  • 相关性信息

    时域剖面中包含目标信号和其他信号之间的相关性信息。即使在强干扰环境下,目标信号仍保持自相关性,并与杂波和噪声信号无关。

图5: 干扰下目标信号的时域剖面可视化图,和目标、噪声、动态杂波之间的相关性分析结果。不同程度干扰下,目标信号始终保持显著自相关性,并与其他信号无关。

因此,充分利用时域剖面上的这些特性能够支撑实现极弱小目标的高精度和高鲁棒检测。

方法:DeepPro——领域首个一维时域探针网络

基于上述归因发现和理论分析,DeepPro 团队将红外弱小目标检测任务重新建模为一维时序信号异常检测问题,并提出了领域内首个仅在时域进行计算的深度时域探针网络(Deep Temporal Probe Network,DeepPro)。

图9: DeepPro 整体框架。TPro(像素级时域探针机制)从时域剖面中提取关键特征,仅通过一维时域乘加运算完成目标检测。

核心创新:像素级时域探针机制(TPro)

图8: TPro 结构图。

TPro 的设计基于信号在时域剖面上的可区分性特性:

  • 时域探针抽取完整时域特征

    为输入特征图的每个空间位置抽取其时域特征(固定空间位置 × 时间维),通过时域探针从输入特征中拉取单个像素的完整时域特征,将高维时空内的检测问题转化为一维时序异常检测。

  • SCorM 提取时域相关性特征

    在获得逐像素时域特征后,TPro 应用多个可学习的信号相关性矩阵(Signal Correlation Matrix, SCorM),从时域特征中提取信号间的相关性特征。SCorM 的作用在于:利用前述理论分析揭示的目标信号与噪声/杂波在时域剖面上的相关性差异(目标信号保持自相关性,且与噪声和杂波信号无关),通过学习到的相关性使目标特征被增强、背景特征被抑制,从而在极低 SNR 和强干扰条件下实现可靠的目标-背景分离。

整个 TPro 流程排除任何空间维度计算,所有乘加运算仅在一维时域完成,无需复杂的空间卷积或时空注意力,同时实现了极致的轻量化设计。

结果:精度、鲁棒性、效率全面超越

DeepPro 在多个红外数据集上进行了全面验证,包括 NUDT-MIRSDT、NUDT-MIRSDT-HiNo、IRSDT-simulation、IRSatVideo-LEO、RGBT-Tiny 五大数据集(涵盖仿真数据集和实测数据集,天基视角数据集和陆基、空基视角数据集,显著目标数据集和极低信噪比/高噪数据集)。以下是与现有最优方法的对比结果:

表2: 对比实验结果。
1. 低 SNR 场景下的检测性能

NUDT-MIRSDT数据集(SNR ≤ 3 的弱小目标)上,DeepPro 的性能对比如表2(第一个子数据集)。

关键数据:DeepPro 在 SNR ≤ 3 的条件下实现了95.84% 的检测率的虚警率,相比现有最优方法以更低虚警提升检测率超3 个百分点,检测性能远超对比方法。

2. 计算效率对比

模型参数量和推理速度(在大小图像上)对比结果如表2最后两列,以及不同模型的浮点计算量(在大小图像上)对比结果如下表所示。

表3: 更多对比结果以及计算量对比。

极致轻量化:DeepPro 参数量相比对比算法中最轻量的单帧方法(ACM)减少了87.6%,同时推理速度(FPS)达到184 帧每秒(提升13 帧每秒),仅次于单帧检测模型Res-UNet。DeepPro 在大小图像上的计算量仅为1.01GFLOPs,仅高于单帧算法ALCNet的计算量。

3. 鲁棒性验证:强噪声场景

在高噪数据集NUDT-MIRSDT-HiNo上,DeepPro 的性能对比如表2(最后一个数据集)。同时,在各种不同噪声强度条件下,DeepPro 的性能对比如下图。

图15: 不同噪声条件下不同网络性能对比。

复杂场景稳健:DeepPro 在强噪声干扰和复杂背景下依然保持最优检测性能。因此,我们的 DeepPro 对于不同的噪声强度具有更优的鲁棒性。

更多图表分析和消融实验可见原文

意义:打破范式,开辟新思路

DeepPro 的贡献远超一项“更好的检测算法”,它推动了该领域的范式转变:

🌟 新建模域:将红外弱小目标检测建模为一维时序信号异常检测问题,突破了现有深度模型在二维空间/时空联合建模的局限。

🔬 新洞察:通过领域首个可解释性分析工具,揭示了时域剖面信息是红外弱小目标检测的“更关键信息”(并不意味着否定空域信息或短时时空信息,DeepPro-Plus的更优表现充分证明了这一点),为后续算法设计提供了理论指导。

⚡ 新方法:提出了首个完全基于时域计算的目标检测网络,证明了"更本质"的特征比“更多次重要”的特征更有效。

📈 新性能:在精度、鲁棒性和效率三个维度上同时实现突破,突破了该领域长期存在的“三重挑战”问题。

更多图表分析可见原文

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载566页课件PPT!大家赶紧学起来!

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复:CVPR2026,即可下载CVPR 2026 所有论文和代码!

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 23:10:40

华硕笔记本终极优化:如何用G-Helper轻松实现AMD CPU降压降温

华硕笔记本终极优化&#xff1a;如何用G-Helper轻松实现AMD CPU降压降温 【免费下载链接】g-helper Fast, native tool for tuning performance, fans, GPU, battery, and RGB on any Asus laptop or handheld - ROG Zephyrus, Flow, Strix, TUF, Vivobook, Zenbook, ProArt, A…

作者头像 李华
网站建设 2026/5/5 23:10:30

【成功实践版】workbuddy_把多张图片转成完整Markdown笔记

首先说明&#xff1a; 我在桌面上见了两个工作目录&#xff0c;原因是之前图片放在工作目录内&#xff0c;我在尝试通过告知Agent要读取的png图片频繁无效的情况下&#xff0c;所以选择了拖拽进行处理&#xff0c;发现我将图片拖拽给Agent的时候&#xff0c;它又会重新去工作目…

作者头像 李华
网站建设 2026/5/5 23:02:30

Lenovo刃7000K BIOS高级权限解锁技术深度解析

Lenovo刃7000K BIOS高级权限解锁技术深度解析 【免费下载链接】Lenovo-7000k-Unlock-BIOS Lenovo联想刃7000k2021-3060版解锁BIOS隐藏选项并提升为Admin权限 项目地址: https://gitcode.com/gh_mirrors/le/Lenovo-7000k-Unlock-BIOS 本文深入探讨Lenovo刃7000K系列主机&…

作者头像 李华
网站建设 2026/5/5 22:57:39

用AutoXJS 28.1.0给小米11写个自动刷直播福袋的脚本(附完整源码与UI设计)

AutoXJS 28.1.0在小米11上的直播福袋自动化实战指南 最近不少开发者开始关注移动端自动化工具在直播场景中的应用&#xff0c;特别是像AutoXJS这样的Android自动化框架。今天我们就来深入探讨如何利用AutoXJS 28.1.0为小米11设备编写一个高效的直播福袋自动领取脚本。 1. 环境准…

作者头像 李华
网站建设 2026/5/5 22:53:48

串口服务器— 设计方案

UART转以太网服务器解析&#xff1a;完整代码解析与流程图 一、项目概述 本项目实现了一个嵌入式Linux下的串口转以太网服务器&#xff0c;它可以&#xff1a; 通过JSON配置文件动态指定工作模式&#xff08;TCP Server 或 TCP Client&#xff09; 实时监听配置文件变化&…

作者头像 李华
网站建设 2026/5/5 22:53:42

Windows 11系统精简终极指南:使用Tiny11Builder打造高效轻量系统

Windows 11系统精简终极指南&#xff1a;使用Tiny11Builder打造高效轻量系统 【免费下载链接】tiny11builder Scripts to build a trimmed-down Windows 11 image. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiny11builder 如果你正在寻找一个能够显著提升Wind…

作者头像 李华