news 2026/4/18 11:56:07

TPAMI‘25 | 无需对齐模块!DSTNet 用判别式融合 + 小波传播,打造轻量化视频去模糊新范式

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TPAMI‘25 | 无需对齐模块!DSTNet 用判别式融合 + 小波传播,打造轻量化视频去模糊新范式
点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达

你有没有过这样的经历:好不容易拍到爱豆舞台瞬间,回放时却发现画面糊成一团;旅行中抓拍的绝美风景,因为手一抖变成了"印象派画作"。别担心,计算机视觉领域的最新研究已经能帮你解决这个难题!

今天要给大家介绍一篇发表在顶刊TPAMI 2025上的重磅论文——《基于深度判别学习的高效时空视频去模糊网络》。来自南京理工大学等机构的研究团队开发了一种能让模糊视频变清晰的AI模型,不仅效果惊艳,还特别高效,手机都能跑!

论文信息

题目:Learning Efficient Deep Discriminative Spatial and Temporal Networks for Video Deblurring
基于深度判别学习的高效时空视频去模糊网络
作者:Jinshan Pan, Long Sun, Boming Xu, Jiangxin Dong, and Jinhui Tang

为什么视频去模糊这么难?

拍视频时的模糊主要来自三个原因:物体移动、相机抖动和曝光时间内的深度变化。单张图片去模糊已经够难了,视频去模糊更是难上加难——因为它不仅要处理每帧画面的空间信息,还要兼顾帧与帧之间的时间关系。

传统方法要么用复杂的光流计算来对齐画面,结果模型变得又大又慢;要么直接把相邻帧堆在一起处理,有用没用的信息全混在一起,反而影响效果。比如有些方法光是参数就有两千多万,普通电脑根本跑不动!

这个新方法厉害在哪?

研究团队提出的DSTNet+网络,就像给视频装了个"智能高清滤镜",能精准识别画面中的有用信息,剔除干扰。它有三个核心黑科技:

1. 通道门控动态网络:给画面做"精细体检"

就像医生用不同仪器检查身体不同部位,这个模块能针对视频帧的每个"通道"(可以理解为画面的不同特征)生成专属"检测工具"。它通过多层感知器(MLP)生成动态滤波器,自适应地挖掘画面中的空间细节,比传统方法更精准。

简单说,它能自动判断:哪里是需要重点清晰化的主体,哪里是可以适当忽略的背景,让算力花在刀刃上。

2. 判别性时间特征融合:智能挑选有用信息

相邻帧的信息不是越多越好!比如拍运动场景时,前一帧的模糊轨迹对当前帧其实没什么用。这个模块就像个"智能筛子":

  • 先把相邻帧的特征混在一起

  • 用门控机制筛选出真正有用的信息

  • 再通过逐像素滤波器优化细节

这样就避免了无效信息干扰,让模型专注于对清晰化真正有帮助的内容。

3. 小波特征传播:远距离帧也能帮上忙

处理长视频时,远处的帧其实也藏着有用信息,但直接拿来用容易累积误差。研究团队想到了个妙招——用小波变换:

  1. 把视频帧分解成"粗略结构"(低频部分)和"细节纹理"(高频部分)

  2. 只对低频部分进行远距离传播,避免误差累积

  3. 最后再把处理好的低频信息和高频细节重新组合

这样既利用了更多帧的信息,又大大降低了计算量,简直是"鱼和熊掌兼得"!

效果到底有多惊艳?

话不多说,直接看对比!在GoPro数据集上的测试显示,DSTNet+处理后的视频不仅清晰度碾压传统方法,连汽车上的字符、边界都能完美还原:

在DVD数据集上,面对复杂的动态场景,它依然能保持画面清晰和色彩准确:

更厉害的是真实世界拍摄的视频,左边是其他方法的结果,右边是DSTNet+的处理效果,桥梁结构和道路线条瞬间变得清晰可辨:

不仅好用,还特别高效!

很多AI去模糊方法虽然效果好,但需要超强算力支持。而DSTNet+做到了"又快又好":

  • 模型参数比同类方法少50%以上

  • 计算速度比ShiftNet+快3.4倍

  • 不需要额外的对齐模块,结构更紧凑

研究团队还做了大量消融实验,证明每个模块都必不可少:

  • 去掉通道门控网络,PSNR值下降0.15dB

  • 不用判别性融合模块,性能损失0.78dB

  • 没有小波传播方法,效果直接掉4.76dB!

(左:普通方法 右:DSTNet+ 细节差距一目了然)

还有这些惊喜应用

除了视频去模糊,这个方法在视频去噪任务上也表现出色。在常用数据集上的测试显示,它的去噪效果远超不少专门的去噪算法。

研究还发现,使用30帧左右的视频序列处理效果最好——既能保证精度,又不会增加太多计算成本。

一点小遗憾

当然,这个方法也有小缺点:面对突然变化的场景(比如物体或相机突然快速移动),处理效果会打折扣。研究团队表示,未来会结合目标检测技术来解决这个问题。

总结一下

这篇论文提出的DSTNet+网络,通过三个核心创新模块,实现了视频去模糊效果和效率的双重突破。它不仅能让模糊视频变清晰,还特别轻量化,为手机、无人机等移动设备的实时视频处理提供了新可能。

如果你也常被视频模糊问题困扰,不妨关注一下这个研究的开源项目,说不定很快就能用到这些黑科技啦!

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:人工智能0基础学习攻略手册

在「小白学视觉」公众号后台回复:攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:00:53

智能垃圾桶:AI Agent的自动分类系统

智能垃圾桶:AI Agent的自动分类系统 关键词:智能垃圾桶、AI Agent、自动分类系统、机器学习、计算机视觉、垃圾分类 摘要:本文围绕智能垃圾桶的AI Agent自动分类系统展开,详细阐述了其核心概念、算法原理、数学模型等内容。首先介绍了系统开发的背景,包括目的、预期读者等…

作者头像 李华
网站建设 2026/4/17 12:49:20

5G时代,如何处理超大规模物联网数据

你好,我是程序员贵哥。 时间过的真快,转眼间我们已经结束了前五个模块的学习,来到了最后一个模块“大规模数据的挑战和未来”。 一门技术类课程的常见学习路线就是“过去→现在→未来”。这个专栏也是如此,我们首先研究了大数据处…

作者头像 李华
网站建设 2026/4/18 10:07:10

牛只行为识别研究:基于YOLO13与UniRepLKNetBlock的智能分类系统_1

cattle_be数据集是一个用于牛只行为识别的计算机视觉数据集,该数据集采用CC BY 4.0许可证授权,由qunshankj平台用户于2023年9月11日创建并导出。数据集共包含864张图像,所有图像均经过预处理,包括自动调整像素方向(剥离…

作者头像 李华
网站建设 2026/4/18 8:53:18

知识扩展-高精度空转(HD、Xenium、CosMx)banksy数据增强的意义

作者,Evil Genius 大家先看看下面HD的分析示例,供大家思考。 之前一直有一个问题就在于高精度空转的banksy聚类与数据本身聚类的之间的异同。 目前文章采用banksy的数量并不多,且理解上不是很容易,其与直接注释之间的区别我们需…

作者头像 李华
网站建设 2026/4/18 5:29:46

学术航行新坐标:书匠策AI——期刊论文写作的“智能舰队”

在学术海洋中,每一篇期刊论文都是研究者探索未知的航标,但传统写作方式常让人陷入“选题迷航”“逻辑风暴”“格式漩涡”等困境。如今,一支名为书匠策AI的“智能舰队”正悄然改变格局——它以六大核心功能为引擎,为科研工作者打造…

作者头像 李华
网站建设 2026/4/18 8:01:44

YOLO26涨点改进 | 全网独家首发,卷积创新改进篇 | TGRS 2025 | 引入MRCB多尺度感受野上下文提取模块,多种改进适用于复杂背景、小目标密集的红外或遥感图像目标检测场景,助力高效涨点

一、本文介绍 🔥本文给大家介绍使用 MRCB多尺度感受野上下文提取模块改进 YOLO26 网络模型,可以有效扩展其感受野、增强上下文理解和提升小目标的响应强度,显著提升检测精度与鲁棒性,尤其适用于复杂背景、小目标密集的红外或遥感图像场景。同时,MRCB 结构轻量、易于部署…

作者头像 李华