谷歌微软All in多模态！-程序员充电站

多模态可以说是当下最火的领域之一，CV和NLP都在积极拥抱它，VLM和3D文生图更是当红辣子鸡。尤为值得一提的是，其任务场景非常广泛、故事性强、且缺乏统一的理论框架，可发论文的着手点很多，创新空间广阔，非常推荐想快速出成果的伙伴多关注。

为让大家能够紧跟领域前沿，找到更多idea启发。我给大家对领域内的代表性文章进行了梳理，共330篇，原文和源码都有！主要涉及核心方法与技术、模型架构与训练范式、垂直领域应用、学习场景与挑战等4大方面。

扫描下方二维码，回复「多模态197」

免费获取全部论文合集及项目代码

核心方法与技术

主要聚焦多模态对齐、多模态融合等核心技术的算法、模块

TouchFormer: A Robust Transformer-based Framework for Multimodal Material Perception

内容：这篇论文提出了TouchFormer框架，这是一个基于Transformer的鲁棒多模态材料感知框架，专门用于在视觉受限或嘈杂环境下进行材料分类。该框架通过模态自适应门控机制、跨模态注意力机制和跨实例嵌入正则化策略，能够动态整合触觉、听觉等多种传感器信息，在材料分类任务中显著优于现有方法，并在模拟火灾等极端环境下的机器人实验中验证了其实用性。

AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment

内容：这篇论文提出了AlignMamba框架，通过结合最优传输（OT）的局部token级对齐和最大均值差异（MMD）的全局分布级对齐，增强了Mamba架构在多模态融合中的跨模态关系建模能力，在保持线性计算复杂度的同时显著提升了融合效果，在完整和不完整多模态任务中均达到最先进性能，同时大幅降低GPU内存使用和推理时间。

模型架构与训练范式

主要是模型的宏观、规模以及训练的策略和方法，包括多模态大模型、多模态预训练……

Notes-guided MLLM Reasoning: Enhancing MLLM with Knowledge and Visual Notes for Visual Question Answering

内容：这篇论文提出NoteMR框架，通过让MLLM先基于检索到的外部知识生成"知识笔记"过滤噪声并激活正确隐式知识，再用知识笔记与原图计算跨模态注意力得到聚焦关键区域的"视觉笔记"，最后把两种笔记连同原图和问题一起输入MLLM并辅以候选答案重排，显著提升知识型VQA性能，在OK-VQA和A-OKVQA上分别超过SOTA 5.31%和3.4%，有效缓解幻觉并增强细粒度感知。

扫描下方二维码，回复「多模态197」

免费获取全部论文合集及项目代码

垂直领域应用

主要涉及医学图像、情感分析、目标检测、遥感、多模态生成……

BSAFusion: A Bidirectional Stepwise Feature Alignment Network for Unaligned Medical Image Fusion

内容：这篇论文提出BSAFusion框架，通过无模态差异特征表示（MDF-FR）减少跨模态匹配差异，并采用双向逐步特征对齐与融合（BSFA-F）策略，在统一网络中同时完成非对齐多模态医学图像的配准与融合，显著提升了非对齐医学图像融合任务的性能。

学习场景与挑战

主要是数据或任务受限等特定挑战下的学习范式，涉及小样本学习、迁移学习

Connecting Giants: Synergistic Knowledge Transfer of Large Multimodal Models for Few-Shot Learning

内容：这篇论文提出SYNTRANS框架，通过“视觉知识蒸馏+协同语义挖掘+双向视觉-语义桥接”三阶段，把CLIP、大语言模型和视觉-语言模型中的显式与隐式知识转化为类别特异分类器权重，并与小样本视觉原型自适应融合，在4个FSL基准上仅用一个轻量编码器就显著超越现有SOTA，实现大模型知识向小样本学习者的协同迁移。

扫描下方二维码，回复「多模态197」

免费获取全部论文合集及项目代码

Whisper-medium.en：打造超精准英语语音转文字体验

Whisper-medium.en：打造超精准英语语音转文字体验【免费下载链接】whisper-medium.en 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-medium.en 导语：OpenAI推出的Whisper-medium.en模型凭借769M参数规模和4.12%的超低词错误率&…

李华

Qwen2.5-VL-3B：30亿参数视觉AI强力进化

Qwen2.5-VL-3B：30亿参数视觉AI强力进化【免费下载链接】Qwen2.5-VL-3B-Instruct 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen2.5-VL-3B-Instruct 导语：阿里云推出Qwen2.5-VL-3B-Instruct多模态大模型，以30亿参数实现视觉…

李华

Pcileech-DMA-NVMe-VMD：开源固件替代方案技术解析

Pcileech-DMA-NVMe-VMD：开源固件替代方案技术解析【免费下载链接】Pcileech-DMA-NAMe-VMD Firmware emulation to implement NVMe-VMD functionality 项目地址: https://gitcode.com/gh_mirrors/pc/Pcileech-DMA-NAMe-VMD 还在为商业VMD固件的限制而困扰&am…

李华

Moq框架实战：3个技巧让ASP.NET Core测试效率翻倍

Moq框架实战：3个技巧让ASP.NET Core测试效率翻倍【免费下载链接】moq The most popular and friendly mocking framework for .NET 项目地址: https://gitcode.com/gh_mirrors/moq4/moq4 在开发ASP.NET Core Web API时，你是否曾经遇到过这样的困…

李华

手机端AI视觉新王者：MiniCPM-V 2.0性能超34B

手机端AI视觉新王者：MiniCPM-V 2.0性能超34B 【免费下载链接】MiniCPM-V-2 项目地址: https://ai.gitcode.com/OpenBMB/MiniCPM-V-2 导语：OpenBMB团队推出的MiniCPM-V 2.0以仅2.8B参数量实现超越34B大模型的视觉理解能力，首次将GPT-4…

李华

SweetAlert for Bootstrap 终极使用指南：打造美观弹框体验

SweetAlert for Bootstrap 终极使用指南：打造美观弹框体验【免费下载链接】bootstrap-sweetalert 项目地址: https://gitcode.com/gh_mirrors/bo/bootstrap-sweetalert 在现代Web开发中，优雅的弹框组件能够显著提升用户体验。SweetAlert for Bo…

李华