news 2026/6/10 12:42:34

TPAMI 2025 | 中石大北交大联合提出WeCLIP系列:冻结CLIP-DINO做骨干,弱监督语义分割性能与效率双突破!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TPAMI 2025 | 中石大北交大联合提出WeCLIP系列:冻结CLIP-DINO做骨干,弱监督语义分割性能与效率双突破!
点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达

弱监督语义分割(WSSS)作为计算机视觉领域的重要研究方向,长期面临着标注成本与模型性能之间的权衡难题。近日,一篇题为《Frozen CLIP-DINO: A Strong Backbone for Weakly Supervised Semantic Segmentation》的研究论文,提出了创新性的单阶段解决方案WeCLIP及其进阶版本WeCLIP+,在PASCAL VOC 2012测试集上实现了83.9%的mIoU,刷新了弱监督语义分割任务的性能纪录。本文将系统解析这一突破性方法的技术原理与实验成果。

论文信息

题目:Frozen CLIP-DINO: A Strong Backbone for Weakly Supervised Semantic Segmentation
冻结的CLIP-DINO:用于弱监督语义分割的强大主干网络
作者:Bingfeng Zhang, Siyue Yu, Jimin Xiao, Yunchao Wei, Yao Zhao

研究背景与动机

弱监督语义分割旨在利用图像级标签等低成本标注信息实现像素级分割,现有方法主要分为两类:

  • 多阶段方法:通过生成伪标签间接训练分割模型,流程复杂且训练成本高昂

  • 单阶段方法:直接利用弱监督信号训练模型,但性能普遍落后于多阶段方法

尽管CLIP模型在跨模态语义理解方面展现出强大能力,现有研究仅将其用于改进伪标签生成,尚未探索其作为分割骨干网络的潜力。同时,自监督学习模型DINO所具备的细粒度语义表示能力,为补充CLIP特征提供了可能。基于此,研究团队提出将冻结的CLIP与DINO模型结合,构建高性能单阶段分割框架。

方法架构解析

1. WeCLIP框架设计

WeCLIP的核心创新在于将冻结的CLIP模型直接作为语义特征提取骨干,通过轻量级解码器实现端到端分割。其整体架构包含四个关键模块:

WeCLIP整体框架
  • 冻结CLIP骨干:保持CLIP的图像编码器与文本编码器参数固定,避免微调带来的计算开销

  • 初始CAM生成:利用GradCAM从CLIP特征生成类别激活图,提供初始定位线索

  • 轻量级解码器:采用Transformer架构,将CLIP各层特征融合并生成分割预测

  • RFM优化模块:通过解码器动态特征与CLIP注意力图建立特征关系,优化初始CAM

解码器设计是WeCLIP的核心亮点,其通过MLP转换各层CLIP特征,经卷积融合后输入多头Transformer层,实现从冻结特征到分割掩码的精准映射。RFM模块则创新性地利用解码器生成的亲和图筛选高质量注意力图,动态修正静态CAM,有效解决了伪标签误差累积问题。

2. WeCLIP+的增强策略

为进一步提升性能,WeCLIP+引入冻结DINO模型构建混合骨干网络,主要改进包括:

WeCLIP+整体框架
  • 双模型特征融合:结合CLIP的跨模态语义与DINO的细粒度特征,仅使用两者最后一层特征即实现高效解码

  • 共享解码器设计:采用参数共享的Transformer结构,使CLIP与DINO特征相互促进,可学习参数减少至WeCLIP的58%

  • RFM+优化模块:利用CLIP与DINO的联合特征生成亲和图,结合模型预测结果优化CAM,进一步提升伪标签质量

对比可视化结果显示,WeCLIP+生成的伪标签在边界完整性与细节保留方面显著优于WeCLIP:

伪标签质量对比

实验结果与分析

1. 性能对比

在PASCAL VOC 2012数据集上,WeCLIP+以83.9%的mIoU显著超越现有方法,较此前最佳多阶段方法CPAL提升9.2%,甚至超过使用SAM模型的S2C方法6.4%:

VOC数据集性能对比

在MS COCO数据集上,WeCLIP+同样以56.3%的mIoU刷新纪录,较单阶段方法提升超过9.6%:

COCO数据集性能对比

2. 效率分析

与现有方法相比,WeCLIP系列展现出卓越的计算效率:

  • 可学习参数仅为传统方法的24%

  • 单张2080Ti显卡即可完成训练(<12G显存)

  • 30,000次迭代仅需5小时,训练成本大幅降低

训练成本对比

3. 消融实验

组件有效性验证表明:

  • RFM模块为WeCLIP带来6.2%的mIoU提升

  • DINO特征引入使性能提升3.9%,RFM+进一步贡献4.5%增益

  • 3层Transformer解码器性能最优,过深易导致过拟合

Transformer层数影响

多尺度策略分析显示,WeCLIP+得益于DINO特征,在1.0-1.5倍尺度下性能最佳,印证了双模型特征的互补性:

多尺度策略影响

可视化效果与创新价值

定性结果显示,WeCLIP+能够精准分割复杂场景中的细小物体与模糊边界,在自行车链条、动物毛发等细节表现上远超对比方法:

分割效果可视化

该研究的核心价值在于:

  1. 首次将冻结CLIP直接作为分割骨干,验证了预训练模型零微调的可行性

  2. 提出CLIP-DINO混合骨干,实现跨模态与自监督特征的高效融合

  3. 设计动态伪标签优化机制,解决了静态监督的固有缺陷

从初始CAM到最终分割结果的进化过程,直观展现了方法的迭代优化能力:

CAM优化过程

总结与展望

WeCLIP系列方法通过创新性地利用冻结预训练模型,在弱监督语义分割领域实现了性能与效率的双重突破。其单阶段架构设计为工业界应用提供了实用解决方案,而"冻结骨干+动态优化"的技术路线,也为其他弱监督任务提供了重要借鉴。未来研究可进一步探索多模态预训练模型在更精细分割任务中的应用潜力,推动低成本视觉理解技术的实际落地。

下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 下载3:人工智能0基础学习攻略手册 在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。 交流群 欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 11:05:14

11、摄影合成与修复:解锁照片无限可能

摄影合成与修复:解锁照片无限可能 摄影合成基础 摄影合成,简而言之,就是将多个独立的图像组合成一个新图像。通过运用分层、不透明度、混合模式、蒙版、渐变以及选择工具等技术,能创造出各种令人惊叹的效果。 使用选择工具进行合成 准备 sunset.jpg 和 skull.jpg 两…

作者头像 李华
网站建设 2026/6/10 12:54:02

AI智能绘图完全实战:三步掌握专业图表制作技巧

还在为复杂的图表制作而头疼吗&#xff1f;传统的绘图工具需要你手动拖拽每个元素、调整每条连接线&#xff0c;耗费大量时间却效果不佳。现在&#xff0c;通过Next AI Draw.io的智能绘图能力&#xff0c;你只需用自然语言描述需求&#xff0c;就能快速生成专业级图表&#xff…

作者头像 李华
网站建设 2026/6/10 0:05:51

Pydantic AI环境变量配置的3个实战技巧与调试方法

Pydantic AI环境变量配置的3个实战技巧与调试方法 【免费下载链接】pydantic-ai Agent Framework / shim to use Pydantic with LLMs 项目地址: https://gitcode.com/GitHub_Trending/py/pydantic-ai 在构建基于Pydantic AI的智能应用时&#xff0c;环境变量的正确配置往…

作者头像 李华
网站建设 2026/6/9 20:45:37

博物馆|基于java + vue博物馆展览与服务一体化系统(源码+数据库+文档)

目录 基于springboot vue博物馆展览与服务一体化系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 基于springboot vue博物馆展览与服务一体化系统 一、前言 博主介绍…

作者头像 李华
网站建设 2026/6/10 15:06:12

终极指南:零基础掌握clipboard.js前端复制方案

还在为用户需要手动复制网页内容而烦恼吗&#xff1f;传统的复制流程不仅繁琐&#xff0c;还容易出错。今天&#xff0c;我将带你手把手掌握clipboard.js这个仅3KB的轻量级前端复制工具&#xff0c;让你彻底告别复杂的数据复制难题&#xff01;&#x1f3af; 【免费下载链接】c…

作者头像 李华
网站建设 2026/6/9 19:30:43

Qwen3-VL-8B-Instruct-GGUF终极指南:边缘AI多模态模型完整解析

Qwen3-VL-8B-Instruct-GGUF作为当前最先进的轻量化多模态模型&#xff0c;正在重新定义边缘设备上AI应用的边界。该模型通过GGUF格式的巧妙设计&#xff0c;将语言模型与视觉编码器分离部署&#xff0c;为开发者提供了前所未有的灵活性和效率。&#x1f680; 【免费下载链接】Q…

作者头像 李华