随着多模态大模型的飞速发展,我们正处于从“固定模态对”向“任意模态转换”跨越的关键节点。
我们诚邀您参加 CVPR 2026 A2A-MML Workshop!本次研讨会旨在汇聚视觉、语言、音频、3D、机器人及认知科学领域的专家,共同绘制任意模态智能(Any-to-Any Multimodal Intelligence)的未来蓝图。
研讨会简介
(Workshop Introduction)
近年来,大模型在 Vision-Language-Audio 等多模态领域取得了巨大突破,但现有系统仍受限于固定模态组合,难以实现真正的灵活推理与泛化。A2A-MML Workshop 旨在推动:
从 “固定模态对” → “任意模态组合(Any-to-Any)” 的范式转变
构建具备统一理解、转换与协作能力的多模态智能系统
我们的核心愿景是:
Bridging Representation, Transformation, and Collaboration
Toward Any-to-Any Multimodal Intelligence
核心信息
(Core Information)
Workshop 简称
A2A-MML
会议地点
Denver, Colorado(Hybrid Mode)
截稿日期(Deadline)
March 01, 2026(AOE)
录用通知(Notification)
March 19, 2026(AOE)
官方网站
https://a2a-mml-2026.vercel.app/
征稿主题
(Topics & Themes)
我们欢迎所有与多模态学习相关的投稿,特别关注以下前沿方向:
Multimodal Representation Learning(多模态表示学习):解耦模态特定因素、学习泛化对齐空间及增强表示的可解释性。
Multimodal Transformation(多模态转换):探索 text-to-image, image-to-video, video-to-audio 等跨模态生成机制及 Diffusion Transformer 框架。
Multimodal Synergistic Collaboration(多模态协同合作):研究模态间的交互、补充与补偿机制,如协作注意力机制与跨模态反馈环路。
Benchmarking and Evaluation(基准测试与评估):开发评估任意模态组合、转换保真度及推理一致性的新指标。
Other Emerging Topics(其他主题):统一模态基座模型、具身智能中的表示学习、以及 3D/触觉/生理信号等稀缺模态的集成。
顶尖讲师阵容
(Keynote Speakers)
本次 Workshop 邀请到了多位学术界的领军人物分享最新洞察:
Paul Liang (MIT)
Manling Li (Northwestern University)
Mohit Bansal (UNC Chapel Hill)
Zhedong Zheng (University of Macau)
Yossi Gandelsman (Reve / TTIC)
Georgia Gkioxari (Caltech)
Saining Xie (NYU)
投稿指南
(Submission Guidelines)
Regular Papers
最多 8 页,介绍原始方法或新颖愿景。
Tiny/Short Papers
2-4 页,欢迎未发表的洞察、理论分析或实验复现。
奖励
所有录用论文将以 Poster 形式展示,其中 6-8 篇将被选为 Short Oral。研讨会还将评选出 Best Paper Award。
投稿系统
OpenReview
(https://openreview.net/group?id=thecvf.com/CVPR/2026/Workshop/A2A-MML#tab-recent-activity)
(Double-blind policy)
组织委员会
(Organizers)
由来自 Oxford, MIT, UNC, EPFL 和 University of Trento 的研究者共同组织:Shengqiong Wu, Wei Dai, Han Lin, Chenyu(Monica)Wang, Yichen Li, Sharut Gupta, Roman Bachmann, Elisa Ricci, Hao Fei.
期待在 Denver 与您共同探讨 A2A 的无限可能!
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·