news 2026/6/10 11:05:56

【即插即用模块】SCI1区 IF 15.5!| 空间注意力融合模块聚合结构细节,跨注意力融合模块捕捉全局语义,兼顾细粒度与上下文!SCI保二区争一区!彻底疯狂!!!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【即插即用模块】SCI1区 IF 15.5!| 空间注意力融合模块聚合结构细节,跨注意力融合模块捕捉全局语义,兼顾细粒度与上下文!SCI保二区争一区!彻底疯狂!!!

0 论文信息

  • 论文标题: Rethinking the necessity of image fusion in high-level vision tasks: A practical infrared and visible image fusion network based on progressive semantic injection and scene fidelity
  • 中文标题:重新思考高级视觉任务中图像融合的必要性:一种基于渐进语义注入和场景保真度的实用红外与可见光图像融合网络
  • 论文链接
  • 论文代码
  • 论文出处:Information Fusion

1 论文概述

现有红外与可见光图像融合算法多侧重视觉效果,语义驱动方法未充分挖掘图像级融合相对于特征级融合的潜力,而特征级融合存在计算量大、泛化性差、适配新骨干网络繁琐等问题。为此,本文提出 PSFusion 网络,包含场景恢复分支(含图像融合路径与场景保真路径)和稀疏语义感知分支。通过稀疏语义感知分支提取边界、语义、二值分割等多维度语义特征,借助渐进语义注入模块融入融合网络;场景保真路径约束融合特征保留源图像完整信息;基于对比掩码和显著目标掩码的融合损失保证视觉效果。实验验证,PSFusion 在 MSRS、M3FD 等多个数据集上,视觉质量和高级语义性能(如语义分割 mIoU)优于现有 SOTA 方法,且图像级融合搭配先进单模态分割模型,可媲美特征级融合方案,计算量更优。

2 实验动机

  1. 现有图像融合算法多聚焦视觉效果,未充分满足下游高级视觉任务(如语义分割、目标检测)的语义需求。
  2. 语义驱动方法(如 SeAFusion)依赖特定高级模型约束,泛化性差,且未对比图像级与特征级融合的潜力。
  3. 特征级融合存在固有缺陷:模态共享骨干网络适配性差,双独立骨干网络计算量翻倍,且融合模块与新骨干网络适配需繁琐重构。
  4. 极端环境(夜间、雾天、过曝光)下,现有融合方法难以同时保留显著目标与场景细节,影响后续任务性能。

3 创新之处

  1. 首次验证图像级融合的潜力:明确证明图像级融合在高级视觉任务中可达到特征级融合相当性能,且仅需单特征提取分支,计算量显著降低。
  2. 渐进语义注入机制:在特征级通过语义注入模块,将多维度语义特征(边界、语义、二值分割)逐步融入融合网络,使融合结果适配任意高级语义模型,鲁棒性更强。场景保真路径设计:并行于图像融合路径,通过重构源图像约束融合特征包含完整场景信息,避免关键细节丢失。
  3. 掩码引导的融合损失:结合对比掩码(保留高对比度区域)和显著目标掩码(突出红外显著目标),平衡视觉效果与语义信息。
  4. 分层特征融合模块:浅层特征采用通道 - 空间注意力融合模块(SDFM)聚合结构细节,深层特征采用跨注意力融合模块(PSFM)捕捉全局语义,兼顾细粒度与上下文信息。

4 模块介绍

深层语义融合模块(Profound Semantic Fusion Module)

PSFM(Profound Semantic Fusion Module,深层语义融合模块)的核心作用
PSFM 是 PSFusion 网络中针对深层语义特征聚合设计的关键模块,基于交叉注意力机制,核心作用是充分挖掘红外与可见光两种模态深层特征中的全局上下文语义信息,实现跨模态语义互补融合,为后续高级视觉任务(如语义分割、目标检测)提供强语义支撑。

具体作用细节

  1. 增强深层特征表达先通过密集层强化骨干网络(ResNet)提取的红外 / 可见光深层特征,提升特征的语义区分度,为跨模态融合奠定基础。
  2. 跨模态全局语义对齐
    通过投影操作将两种模态的增强特征转换为 Key(关键信息)和 Value(价值信息),并基于两种模态特征联合生成模态不变 Query(查询),避免单模态偏见,充分利用双模态互补性。
  3. 精准语义注意力聚合
    计算模态特异性注意力图,捕捉每种模态特征与全局语义的关联,再通过注意力加权融合 Value 特征,得到包含全局上下文的语义特征,解决深层特征中模态差异导致的语义割裂问题。
  4. 特征互补增
    强将融合后的全局语义特征,与另一模态的原始深层特征相加,再通过通道拼接和卷积整合,最终输出兼具两种模态语义优势的融合特征,既保留红外模态的显著目标信息,又融入可见光模态的场景结构语义。
importtorchimporttorch.nnasnnclassPSFM(nn.Module):''' 基于注意力的自适应特征聚合 Fusion_Module (PSFM: Pyramid Spatial Feature Fusion Module) 该模块通过注意力机制自适应地聚合两个输入特征图,实现有效的特征融合 '''def__init__(self,channels=64,r=4):super(PSFM,self).__init__()inter_channels=int(channels//r)# 计算中间通道数,用于特征降维# 特征自校正模块:对拼接后的特征进行通道级重校准self.Recalibrate=nn.Sequential(nn.AdaptiveAvgPool2d(1),# 全局平均池化,生成通道级统计信息nn.Conv2d(2*channels,2*inter_channels,kernel_size=1,stride=1,padding=0),# 1x1卷积降维nn.BatchNorm2d(2*inter_channels),# 批归一化nn.ReLU(inplace=True),# ReLU激活函数nn.Conv2d(2*inter_channels,2*channels,kernel_size=1,stride=1,padding=0),# 1x1卷积升维nn.BatchNorm2d(2*channels),# 批归一化nn.Sigmoid(),# Sigmoid激活,生成通道注意力权重)# 通道聚合模块:将拼接后的特征压缩到原始通道数self.channel_agg=nn.Sequential(nn.Conv2d(2*channels,channels,kernel_size=1,stride=1,padding=0),# 1x1卷积降维nn.BatchNorm2d(channels),# 批归一化nn.ReLU(inplace=True),# ReLU激活函数)# 局部注意力模块:生成空间级注意力权重self.local_att=nn.Sequential(nn.Conv2d(channels,inter_channels,kernel_size=1,stride=1,padding=0),# 1x1卷积降维nn.BatchNorm2d(inter_channels),# 批归一化nn.ReLU(inplace=True),# ReLU激活函数nn.Conv2d(inter_channels,channels,kernel_size=1,stride=1,padding=0),# 1x1卷积升维nn.BatchNorm2d(channels),# 批归一化)# 全局注意力模块:生成通道级注意力权重self.global_att=nn.Sequential(nn.AdaptiveAvgPool2d(1),# 全局平均池化nn.Conv2d(channels,inter_channels,kernel_size=1,stride=1,padding=0),# 1x1卷积降维nn.BatchNorm2d(inter_channels),# 批归一化nn.ReLU(inplace=True),# ReLU激活函数nn.Conv2d(inter_channels,channels,kernel_size=1,stride=1,padding=0),# 1x1卷积升维nn.BatchNorm2d(channels),# 批归一化)self.sigmoid=nn.Sigmoid()# Sigmoid激活函数,用于生成最终的注意力权重defforward(self,x1,x2):# 输入: x1, x2 - 两个需要融合的特征图,形状为 [N, C, H, W]_,c,_,_=x1.shape# 获取特征图的通道数input=torch.cat([x1,x2],dim=1)# 在通道维度拼接两个特征图,形状变为 [N, 2C, H, W]# 步骤1: 特征自校正recal_w=self.Recalibrate(input)# 生成通道注意力权重,形状为 [N, 2C, 1, 1]recal_input=recal_w*input# 应用注意力权重进行通道级重校准recal_input=recal_input+input# 残差连接,保留原始信息# 步骤2: 分离自校正后的特征x1,x2=torch.split(recal_input,c,dim=1)# 将重校准后的特征分离回两个特征图# 步骤3: 特征聚合与注意力生成agg_input=self.channel_agg(recal_input)# 将拼接后的特征压缩到原始通道数local_w=self.local_att(agg_input)# 生成局部(空间)注意力权重global_w=self.global_att(agg_input)# 生成全局(通道)注意力权重w=self.sigmoid(local_w*global_w)# 融合局部和全局注意力,生成最终的自适应权重# 步骤4: 自适应特征融合xo=w*x1+(1-w)*x2# 根据注意力权重融合两个特征图returnxo# 返回融合后的特征图if__name__=="__main__":x1=torch.randn(1,64,640,640)x2=torch.randn(1,64,640,640)fusion_module=PSFM(channels=64,r=4)fusion_module.eval()# 设置为评估模式,避免BatchNorm2d在批量大小为1时出错output=fusion_module(x1,x2)print(output.shape)print(f"输入张量形状:{x1.shape}")print(f"输出张量形状:{output.shape}")print("科研通天路提醒您:正确代码无误!")print("祝您科研之路畅通无阻~~~~")

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 0:06:39

【SpringMVC】请求接收与结果响应

接收参数的常用注解1.RequestParam注解作用:把请求中的指定名称的参数传递给控制器中的形参赋值属性:value:请求参数中的名称,指定请求参数名与方法参数名的映射关系(解决名称不一致的问题);req…

作者头像 李华
网站建设 2026/6/10 19:30:41

一个小时把论文AI率从78%降到5%的3种方法(实测有用)

马上就要截稿了,很多同学此时的心情大概是:查重率过了,以为万事大吉,结果一查AI率直接炸了 。 虽然论文是你一个个字敲出来的(或者真的借鉴了一点点),但只要AI检测报告上显示红色预警&#xff…

作者头像 李华
网站建设 2026/6/10 16:52:11

Python学习之路:一份给编程新手的真诚建议

Python学习之路:一份给编程新手的真诚建议亲爱的学弟学妹们:当你们打开Python的第一行代码,心中或许既有期待又有忐忑。作为过来人,我想与你们分享一些在编程路上的心得,这些经验是我走过弯路、踩过坑后的真诚总结。一…

作者头像 李华
网站建设 2026/6/10 16:05:08

学生管理系统源码 Python+Django+Vue 前后分离 设计文档

一、关键词学生管理系统、学籍管理系统、教务系统、选课系统、成绩管理系统二、作品包含源码数据库万字设计文档全套环境和工具资源本地部署教程三、项目技术前端技术:Html、Css、Js、Vue3.2、Element-Plus后端技术:Python、Django、PyMySQL四、运行环境…

作者头像 李华