news 2026/4/18 5:21:38

谷歌微软All in多模态!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
谷歌微软All in多模态!

多模态可以说是当下最火的领域之一,CV和NLP都在积极拥抱它,VLM和3D文生图更是当红辣子鸡。尤为值得一提的是,其任务场景非常广泛、故事性强、且缺乏统一的理论框架,可发论文的着手点很多,创新空间广阔,非常推荐想快速出成果的伙伴多关注。

为让大家能够紧跟领域前沿,找到更多idea启发。我给大家对领域内的代表性文章进行了梳理,共330篇,原文和源码都有!主要涉及核心方法与技术、模型架构与训练范式、垂直领域应用、学习场景与挑战等4大方面。

扫描下方二维码,回复「多模态197」

免费获取全部论文合集及项目代码

核心方法与技术

主要聚焦多模态对齐、多模态融合等核心技术的算法、模块

TouchFormer: A Robust Transformer-based Framework for Multimodal Material Perception

内容:这篇论文提出了TouchFormer框架,这是一个基于Transformer的鲁棒多模态材料感知框架,专门用于在视觉受限或嘈杂环境下进行材料分类。该框架通过模态自适应门控机制、跨模态注意力机制和跨实例嵌入正则化策略,能够动态整合触觉、听觉等多种传感器信息,在材料分类任务中显著优于现有方法,并在模拟火灾等极端环境下的机器人实验中验证了其实用性。

AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment

内容:这篇论文提出了AlignMamba框架,通过结合最优传输(OT)的局部token级对齐和最大均值差异(MMD)的全局分布级对齐,增强了Mamba架构在多模态融合中的跨模态关系建模能力,在保持线性计算复杂度的同时显著提升了融合效果,在完整和不完整多模态任务中均达到最先进性能,同时大幅降低GPU内存使用和推理时间。

模型架构与训练范式

主要是模型的宏观、规模以及训练的策略和方法,包括多模态大模型、多模态预训练……

Notes-guided MLLM Reasoning: Enhancing MLLM with Knowledge and Visual Notes for Visual Question Answering

内容:这篇论文提出NoteMR框架,通过让MLLM先基于检索到的外部知识生成"知识笔记"过滤噪声并激活正确隐式知识,再用知识笔记与原图计算跨模态注意力得到聚焦关键区域的"视觉笔记",最后把两种笔记连同原图和问题一起输入MLLM并辅以候选答案重排,显著提升知识型VQA性能,在OK-VQA和A-OKVQA上分别超过SOTA 5.31%和3.4%,有效缓解幻觉并增强细粒度感知。

扫描下方二维码,回复「多模态197」

免费获取全部论文合集及项目代码

垂直领域应用

主要涉及医学图像、情感分析、目标检测、遥感、多模态生成……

BSAFusion: A Bidirectional Stepwise Feature Alignment Network for Unaligned Medical Image Fusion

内容:这篇论文提出BSAFusion框架,通过无模态差异特征表示(MDF-FR)减少跨模态匹配差异,并采用双向逐步特征对齐与融合(BSFA-F)策略,在统一网络中同时完成非对齐多模态医学图像的配准与融合,显著提升了非对齐医学图像融合任务的性能。

学习场景与挑战

主要是数据或任务受限等特定挑战下的学习范式,涉及小样本学习、迁移学习

Connecting Giants: Synergistic Knowledge Transfer of Large Multimodal Models for Few-Shot Learning

内容:这篇论文提出SYNTRANS框架,通过“视觉知识蒸馏+协同语义挖掘+双向视觉-语义桥接”三阶段,把CLIP、大语言模型和视觉-语言模型中的显式与隐式知识转化为类别特异分类器权重,并与小样本视觉原型自适应融合,在4个FSL基准上仅用一个轻量编码器就显著超越现有SOTA,实现大模型知识向小样本学习者的协同迁移。

扫描下方二维码,回复「多模态197」

免费获取全部论文合集及项目代码

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 2:21:15

Whisper-medium.en:打造超精准英语语音转文字体验

Whisper-medium.en:打造超精准英语语音转文字体验 【免费下载链接】whisper-medium.en 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-medium.en 导语:OpenAI推出的Whisper-medium.en模型凭借769M参数规模和4.12%的超低词错误率&…

作者头像 李华
网站建设 2026/4/17 22:07:08

Qwen2.5-VL-3B:30亿参数视觉AI强力进化

Qwen2.5-VL-3B:30亿参数视觉AI强力进化 【免费下载链接】Qwen2.5-VL-3B-Instruct 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen2.5-VL-3B-Instruct 导语:阿里云推出Qwen2.5-VL-3B-Instruct多模态大模型,以30亿参数实现视觉…

作者头像 李华
网站建设 2026/4/13 18:49:56

Pcileech-DMA-NVMe-VMD:开源固件替代方案技术解析

Pcileech-DMA-NVMe-VMD:开源固件替代方案技术解析 【免费下载链接】Pcileech-DMA-NAMe-VMD Firmware emulation to implement NVMe-VMD functionality 项目地址: https://gitcode.com/gh_mirrors/pc/Pcileech-DMA-NAMe-VMD 还在为商业VMD固件的限制而困扰&am…

作者头像 李华
网站建设 2026/4/18 4:01:06

Moq框架实战:3个技巧让ASP.NET Core测试效率翻倍

Moq框架实战:3个技巧让ASP.NET Core测试效率翻倍 【免费下载链接】moq The most popular and friendly mocking framework for .NET 项目地址: https://gitcode.com/gh_mirrors/moq4/moq4 在开发ASP.NET Core Web API时,你是否曾经遇到过这样的困…

作者头像 李华
网站建设 2026/4/17 7:42:45

手机端AI视觉新王者:MiniCPM-V 2.0性能超34B

手机端AI视觉新王者:MiniCPM-V 2.0性能超34B 【免费下载链接】MiniCPM-V-2 项目地址: https://ai.gitcode.com/OpenBMB/MiniCPM-V-2 导语:OpenBMB团队推出的MiniCPM-V 2.0以仅2.8B参数量实现超越34B大模型的视觉理解能力,首次将GPT-4…

作者头像 李华
网站建设 2026/4/17 21:16:15

SweetAlert for Bootstrap 终极使用指南:打造美观弹框体验

SweetAlert for Bootstrap 终极使用指南:打造美观弹框体验 【免费下载链接】bootstrap-sweetalert 项目地址: https://gitcode.com/gh_mirrors/bo/bootstrap-sweetalert 在现代Web开发中,优雅的弹框组件能够显著提升用户体验。SweetAlert for Bo…

作者头像 李华