news 2026/4/19 12:44:56

实验室3篇论文被CVPR 2026录用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
实验室3篇论文被CVPR 2026录用

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

转载自:THUSIGSICLAB

智能计算实验室

科研成果

CVPR2026

CVPR(Conference on Computer Vision and Pattern Recognition),全称是国际计算机视觉与模式识别会议,是计算机视觉领域全球最具有影响力、内容最全面的顶级学术会议,它与ICCV和ECCV并称为计算机视觉领域的三大顶会,同时被中国计算机学会(CCF)认定为A类学术会议。

近日CVPR 2026公布的论文录取结果,在16092份的有效投稿中,只有4090篇被录用,录取率为25.42%。本课题组共有3篇论文被CVPR 2026录用,以下为录取论文的简要介绍。

01

论文题目:Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

论文作者:陈楚彬,胡素婕,黄妮莎,方承煜,李秀

作者单位:清华大学,阿里巴巴

近年来,通过强化学习(RLHF)使文本到图像(T2I)模型对齐人类偏好取得了重大进展 。然而,模型在过度优化奖励分数时常陷入“偏好模式坍塌”(PMC),即生成风格单一、特征高度同质化的高分图像,严重破坏了生成多样性 。这种现象主要源于奖励模型固有的偏见,且现有研究缺乏对多样性的有效量化 。针对此痛点,本文提出了一项名为“定向解耦对齐”(D2-Align)的新型优化框架。该方法首先在冻结生成器的情况下,于奖励模型的连续嵌入空间中学习一个定向校正向量。随后,利用该向量在优化过程中修正奖励信号,从而有效防止模型陷入特定的坍塌模式。此外,本文还构建了专门评估生成多样性的新型多维度基准测试DivGenBench广泛的实验表明,D2-Align成功打破了人类偏好与多样性之间的权衡限制,在保持卓越生成质量与文本对齐度的同时,显著保留了生成多样性,实现了更真实的人类偏好对齐。

02

论文题目:DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO

论文作者:刘恒霖,黄慧娟,王晶,刘畅,李秀,季向阳

作者单位:清华大学,快手可灵,中山大学

强化学习(RL),特别是GRPO (Group Relative Policy Optimization),通过比较同组内生成图像的相对表现,显著提升了图像生成质量。然而,在训练后期,模型倾向于产生同质化的输出,缺乏创造性和视觉多样性,限制了模型的应用场景。这一问题可以从奖励建模生成动态两个角度进行分析。首先,传统的GRPO依赖单一样本质量作为奖励信号,驱使模型收敛于少数高奖励的生成模式,而忽视了分布层面的多样性。其次,常规的GRPO正则化忽略了早期去噪在保持多样性中的主导作用,导致正则化预算分配不当,限制了质量与多样性之间的权衡空间。基于这些观察,我们重新从奖励建模生成动态两方面审视多样性退化问题。在奖励层面,我们提出了一种基于语义分组的分布级创造力奖励机制。具体而言,通过对同一描述生成样本进行谱聚类构建分布级表征,并根据分组规模自适应分配探索性奖励,以鼓励发现新颖的视觉模式。在生成层面,我们引入了结构感知正则化,在强化早期阶段约束以保持多样性的同时,不影响奖励优化的效率。实验表明,在匹配的质量分数下,我们的方法将语义多样性提升了13%∼18%,为基于GRPO的图像生成建立了质量与多样性之间的新帕累托前沿。

03

论文题目:MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds

论文作者:吴相佐,任程威,周俊,李秀,刘缘

作者单位:清华大学,香港科技大学

本文提出MVInverse,一种前馈式多视角逆向渲染框架,能从RGB图像序列中直接预测反照率、金属度、粗糙度、漫反射光照及表面法向信息。与忽略跨视角关联的单视角方法和计算成本高昂的多视角优化方法不同,MVInverse通过跨视角交替注意力机制,同时捕捉视角内的光照交互与视角间的材质一致性,在单次前向推理中即可完成场景级理解。既避免了多视角结果不一致的问题,又大幅提升了计算效率。针对真实训练数据稀缺的难题,本文提出了基于一致性的微调策略,利用无标注的真实视频让模型在真实环境中自我优化,进一步增强多视角一致性和泛化鲁棒性。测试结果显示,MVInverse在多视角一致性、材质与法向估计质量、真实场景泛化能力等方面均表现优异。用户只需输入一组多视角RGB图像序列,即可获得高质量、跨视角一致的场景逆向渲染结果,可广泛应用于三维重建、AR/VR内容制作、影视特效等实际场景。

图文 | 课题组团队

编辑 | 吴鑫

审核 | 李老师

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载566页课件PPT!大家赶紧学起来!

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复:CVPR2026,即可下载CVPR 2026 所有论文和代码!

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/19 12:44:42

前端监控实战:用Sentry捕获并分析生产环境错误

前端监控实战:用Sentry捕获并分析生产环境错误 在现代前端开发中,生产环境的错误监控至关重要。即使经过严格的测试,线上问题仍可能因用户设备、网络环境或未知操作而出现。如何快速定位并修复这些错误?Sentry作为一款强大的错误…

作者头像 李华
网站建设 2026/4/19 12:42:47

Scrcpy Mask:在电脑上流畅玩手游的终极解决方案

Scrcpy Mask:在电脑上流畅玩手游的终极解决方案 【免费下载链接】scrcpy-mask A Scrcpy client in Rust, Bevy and React, aimed at providing mouse and key mapping to control Android device, similar to a game emulator 项目地址: https://gitcode.com/gh_m…

作者头像 李华
网站建设 2026/4/19 12:39:15

无人机+MID360雷达实战:FAST_LIO建图避坑指南(附ROS1配置全流程)

无人机MID360雷达实战:FAST_LIO建图避坑指南(附ROS1配置全流程) 当MID360激光雷达遇上FAST_LIO算法,无人机建图能力将迎来质的飞跃——但这套黄金组合的配置过程却暗藏玄机。本文将带你直击IP配置陷阱、JSON文件修改雷区、ROS1驱动…

作者头像 李华
网站建设 2026/4/19 12:38:22

用Python+ddddocr搞定条形码查询网站的验证码识别(附完整代码)

Python实战:基于ddddocr的条形码查询网站验证码破解全攻略 每次尝试从条形码查询网站抓取数据时,那个恼人的验证码是不是总让你功亏一篑?作为爬虫开发者,验证码就像一道无法逾越的城墙。但今天,我要分享一个实战解决方…

作者头像 李华
网站建设 2026/4/19 12:33:01

【AGI信任基石崩塌预警】:封闭黑箱正在杀死可验证性,3个已证实的推理失效案例+开放验证工具链实测报告

第一章:AGI信任基石崩塌预警 2026奇点智能技术大会(https://ml-summit.org) 当AGI系统在医疗诊断、司法量刑与金融风控等高敏场景中开始自主生成不可追溯的决策链,人类对“可解释性”的最后防线正加速瓦解。近期多项实证研究表明,超过68%的…

作者头像 李华