点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—>【顶会/顶刊】投稿交流群
添加微信号:CVer2233,小助手拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!
转载自:THUSIGSICLAB
智能计算实验室
科研成果
CVPR2026
CVPR(Conference on Computer Vision and Pattern Recognition),全称是国际计算机视觉与模式识别会议,是计算机视觉领域全球最具有影响力、内容最全面的顶级学术会议,它与ICCV和ECCV并称为计算机视觉领域的三大顶会,同时被中国计算机学会(CCF)认定为A类学术会议。
近日CVPR 2026公布的论文录取结果,在16092份的有效投稿中,只有4090篇被录用,录取率为25.42%。本课题组共有3篇论文被CVPR 2026录用,以下为录取论文的简要介绍。
01
论文题目:Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning
论文作者:陈楚彬,胡素婕,黄妮莎,方承煜,李秀
作者单位:清华大学,阿里巴巴
近年来,通过强化学习(RLHF)使文本到图像(T2I)模型对齐人类偏好取得了重大进展 。然而,模型在过度优化奖励分数时常陷入“偏好模式坍塌”(PMC),即生成风格单一、特征高度同质化的高分图像,严重破坏了生成多样性 。这种现象主要源于奖励模型固有的偏见,且现有研究缺乏对多样性的有效量化 。针对此痛点,本文提出了一项名为“定向解耦对齐”(D2-Align)的新型优化框架。该方法首先在冻结生成器的情况下,于奖励模型的连续嵌入空间中学习一个定向校正向量。随后,利用该向量在优化过程中修正奖励信号,从而有效防止模型陷入特定的坍塌模式。此外,本文还构建了专门评估生成多样性的新型多维度基准测试DivGenBench。广泛的实验表明,D2-Align成功打破了人类偏好与多样性之间的权衡限制,在保持卓越生成质量与文本对齐度的同时,显著保留了生成多样性,实现了更真实的人类偏好对齐。
02
论文题目:DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO
论文作者:刘恒霖,黄慧娟,王晶,刘畅,李秀,季向阳
作者单位:清华大学,快手可灵,中山大学
强化学习(RL),特别是GRPO (Group Relative Policy Optimization),通过比较同组内生成图像的相对表现,显著提升了图像生成质量。然而,在训练后期,模型倾向于产生同质化的输出,缺乏创造性和视觉多样性,限制了模型的应用场景。这一问题可以从奖励建模和生成动态两个角度进行分析。首先,传统的GRPO依赖单一样本质量作为奖励信号,驱使模型收敛于少数高奖励的生成模式,而忽视了分布层面的多样性。其次,常规的GRPO正则化忽略了早期去噪在保持多样性中的主导作用,导致正则化预算分配不当,限制了质量与多样性之间的权衡空间。基于这些观察,我们重新从奖励建模和生成动态两方面审视多样性退化问题。在奖励层面,我们提出了一种基于语义分组的分布级创造力奖励机制。具体而言,通过对同一描述生成样本进行谱聚类构建分布级表征,并根据分组规模自适应分配探索性奖励,以鼓励发现新颖的视觉模式。在生成层面,我们引入了结构感知正则化,在强化早期阶段约束以保持多样性的同时,不影响奖励优化的效率。实验表明,在匹配的质量分数下,我们的方法将语义多样性提升了13%∼18%,为基于GRPO的图像生成建立了质量与多样性之间的新帕累托前沿。
03
论文题目:MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds
论文作者:吴相佐,任程威,周俊,李秀,刘缘
作者单位:清华大学,香港科技大学
本文提出MVInverse,一种前馈式多视角逆向渲染框架,能从RGB图像序列中直接预测反照率、金属度、粗糙度、漫反射光照及表面法向信息。与忽略跨视角关联的单视角方法和计算成本高昂的多视角优化方法不同,MVInverse通过跨视角交替注意力机制,同时捕捉视角内的光照交互与视角间的材质一致性,在单次前向推理中即可完成场景级理解。既避免了多视角结果不一致的问题,又大幅提升了计算效率。针对真实训练数据稀缺的难题,本文提出了基于一致性的微调策略,利用无标注的真实视频让模型在真实环境中自我优化,进一步增强多视角一致性和泛化鲁棒性。测试结果显示,MVInverse在多视角一致性、材质与法向估计质量、真实场景泛化能力等方面均表现优异。用户只需输入一组多视角RGB图像序列,即可获得高质量、跨视角一致的场景逆向渲染结果,可广泛应用于三维重建、AR/VR内容制作、影视特效等实际场景。
图文 | 课题组团队
编辑 | 吴鑫
审核 | 李老师
本文系学术转载,如有侵权,请联系CVer小助手删文
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载566页课件PPT!大家赶紧学起来!
CVPR 2026 所有论文和代码下载
在CVer公众号后台回复:CVPR2026,即可下载CVPR 2026 所有论文和代码!
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看