【即插即用模块】SCI1区 IF 15.5！| 空间注意力融合模块聚合结构细节，跨注意力融合模块捕捉全局语义，兼顾细粒度与上下文！SCI保二区争一区！彻底疯狂！！！-程序员充电站

0 论文信息

论文标题: Rethinking the necessity of image fusion in high-level vision tasks: A practical infrared and visible image fusion network based on progressive semantic injection and scene fidelity
中文标题：重新思考高级视觉任务中图像融合的必要性：一种基于渐进语义注入和场景保真度的实用红外与可见光图像融合网络
论文链接
论文代码
论文出处：Information Fusion

1 论文概述

现有红外与可见光图像融合算法多侧重视觉效果，语义驱动方法未充分挖掘图像级融合相对于特征级融合的潜力，而特征级融合存在计算量大、泛化性差、适配新骨干网络繁琐等问题。为此，本文提出 PSFusion 网络，包含场景恢复分支（含图像融合路径与场景保真路径）和稀疏语义感知分支。通过稀疏语义感知分支提取边界、语义、二值分割等多维度语义特征，借助渐进语义注入模块融入融合网络；场景保真路径约束融合特征保留源图像完整信息；基于对比掩码和显著目标掩码的融合损失保证视觉效果。实验验证，PSFusion 在 MSRS、M3FD 等多个数据集上，视觉质量和高级语义性能（如语义分割 mIoU）优于现有 SOTA 方法，且图像级融合搭配先进单模态分割模型，可媲美特征级融合方案，计算量更优。

2 实验动机

现有图像融合算法多聚焦视觉效果，未充分满足下游高级视觉任务（如语义分割、目标检测）的语义需求。
语义驱动方法（如 SeAFusion）依赖特定高级模型约束，泛化性差，且未对比图像级与特征级融合的潜力。
特征级融合存在固有缺陷：模态共享骨干网络适配性差，双独立骨干网络计算量翻倍，且融合模块与新骨干网络适配需繁琐重构。
极端环境（夜间、雾天、过曝光）下，现有融合方法难以同时保留显著目标与场景细节，影响后续任务性能。

3 创新之处

首次验证图像级融合的潜力：明确证明图像级融合在高级视觉任务中可达到特征级融合相当性能，且仅需单特征提取分支，计算量显著降低。
渐进语义注入机制：在特征级通过语义注入模块，将多维度语义特征（边界、语义、二值分割）逐步融入融合网络，使融合结果适配任意高级语义模型，鲁棒性更强。场景保真路径设计：并行于图像融合路径，通过重构源图像约束融合特征包含完整场景信息，避免关键细节丢失。
掩码引导的融合损失：结合对比掩码（保留高对比度区域）和显著目标掩码（突出红外显著目标），平衡视觉效果与语义信息。
分层特征融合模块：浅层特征采用通道 - 空间注意力融合模块（SDFM）聚合结构细节，深层特征采用跨注意力融合模块（PSFM）捕捉全局语义，兼顾细粒度与上下文信息。

4 模块介绍

深层语义融合模块（Profound Semantic Fusion Module）

PSFM（Profound Semantic Fusion Module，深层语义融合模块）的核心作用
PSFM 是 PSFusion 网络中针对深层语义特征聚合设计的关键模块，基于交叉注意力机制，核心作用是充分挖掘红外与可见光两种模态深层特征中的全局上下文语义信息，实现跨模态语义互补融合，为后续高级视觉任务（如语义分割、目标检测）提供强语义支撑。

具体作用细节

增强深层特征表达先通过密集层强化骨干网络（ResNet）提取的红外 / 可见光深层特征，提升特征的语义区分度，为跨模态融合奠定基础。
跨模态全局语义对齐
通过投影操作将两种模态的增强特征转换为 Key（关键信息）和 Value（价值信息），并基于两种模态特征联合生成模态不变 Query（查询），避免单模态偏见，充分利用双模态互补性。
精准语义注意力聚合
计算模态特异性注意力图，捕捉每种模态特征与全局语义的关联，再通过注意力加权融合 Value 特征，得到包含全局上下文的语义特征，解决深层特征中模态差异导致的语义割裂问题。
特征互补增
强将融合后的全局语义特征，与另一模态的原始深层特征相加，再通过通道拼接和卷积整合，最终输出兼具两种模态语义优势的融合特征，既保留红外模态的显著目标信息，又融入可见光模态的场景结构语义。

importtorchimporttorch.nnasnnclassPSFM(nn.Module):''' 基于注意力的自适应特征聚合 Fusion_Module (PSFM: Pyramid Spatial Feature Fusion Module) 该模块通过注意力机制自适应地聚合两个输入特征图，实现有效的特征融合 '''def__init__(self,channels=64,r=4):super(PSFM,self).__init__()inter_channels=int(channels//r)# 计算中间通道数，用于特征降维# 特征自校正模块：对拼接后的特征进行通道级重校准self.Recalibrate=nn.Sequential(nn.AdaptiveAvgPool2d(1),# 全局平均池化，生成通道级统计信息nn.Conv2d(2*channels,2*inter_channels,kernel_size=1,stride=1,padding=0),# 1x1卷积降维nn.BatchNorm2d(2*inter_channels),# 批归一化nn.ReLU(inplace=True),# ReLU激活函数nn.Conv2d(2*inter_channels,2*channels,kernel_size=1,stride=1,padding=0),# 1x1卷积升维nn.BatchNorm2d(2*channels),# 批归一化nn.Sigmoid(),# Sigmoid激活，生成通道注意力权重)# 通道聚合模块：将拼接后的特征压缩到原始通道数self.channel_agg=nn.Sequential(nn.Conv2d(2*channels,channels,kernel_size=1,stride=1,padding=0),# 1x1卷积降维nn.BatchNorm2d(channels),# 批归一化nn.ReLU(inplace=True),# ReLU激活函数)# 局部注意力模块：生成空间级注意力权重self.local_att=nn.Sequential(nn.Conv2d(channels,inter_channels,kernel_size=1,stride=1,padding=0),# 1x1卷积降维nn.BatchNorm2d(inter_channels),# 批归一化nn.ReLU(inplace=True),# ReLU激活函数nn.Conv2d(inter_channels,channels,kernel_size=1,stride=1,padding=0),# 1x1卷积升维nn.BatchNorm2d(channels),# 批归一化)# 全局注意力模块：生成通道级注意力权重self.global_att=nn.Sequential(nn.AdaptiveAvgPool2d(1),# 全局平均池化nn.Conv2d(channels,inter_channels,kernel_size=1,stride=1,padding=0),# 1x1卷积降维nn.BatchNorm2d(inter_channels),# 批归一化nn.ReLU(inplace=True),# ReLU激活函数nn.Conv2d(inter_channels,channels,kernel_size=1,stride=1,padding=0),# 1x1卷积升维nn.BatchNorm2d(channels),# 批归一化)self.sigmoid=nn.Sigmoid()# Sigmoid激活函数，用于生成最终的注意力权重defforward(self,x1,x2):# 输入: x1, x2 - 两个需要融合的特征图，形状为 [N, C, H, W]_,c,_,_=x1.shape# 获取特征图的通道数input=torch.cat([x1,x2],dim=1)# 在通道维度拼接两个特征图，形状变为 [N, 2C, H, W]# 步骤1: 特征自校正recal_w=self.Recalibrate(input)# 生成通道注意力权重，形状为 [N, 2C, 1, 1]recal_input=recal_w*input# 应用注意力权重进行通道级重校准recal_input=recal_input+input# 残差连接，保留原始信息# 步骤2: 分离自校正后的特征x1,x2=torch.split(recal_input,c,dim=1)# 将重校准后的特征分离回两个特征图# 步骤3: 特征聚合与注意力生成agg_input=self.channel_agg(recal_input)# 将拼接后的特征压缩到原始通道数local_w=self.local_att(agg_input)# 生成局部（空间）注意力权重global_w=self.global_att(agg_input)# 生成全局（通道）注意力权重w=self.sigmoid(local_w*global_w)# 融合局部和全局注意力，生成最终的自适应权重# 步骤4: 自适应特征融合xo=w*x1+(1-w)*x2# 根据注意力权重融合两个特征图returnxo# 返回融合后的特征图if__name__=="__main__":x1=torch.randn(1,64,640,640)x2=torch.randn(1,64,640,640)fusion_module=PSFM(channels=64,r=4)fusion_module.eval()# 设置为评估模式，避免BatchNorm2d在批量大小为1时出错output=fusion_module(x1,x2)print(output.shape)print(f"输入张量形状:{x1.shape}")print(f"输出张量形状:{output.shape}")print("科研通天路提醒您：正确代码无误！")print("祝您科研之路畅通无阻~~~~")