news 2026/5/9 11:21:05

2025_NIPS_MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2025_NIPS_MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation

MLLM-For3D 文章总结与翻译

一、主要内容总结

1. 研究背景与问题

  • 3D推理分割需基于人类意图和空间推理分割复杂场景中的目标物体,在具身智能、自动驾驶等领域至关重要,但现有方法依赖大量人工标注的⟨3D, 文本⟩配对数据,成本高昂。
  • 现有2D多模态大语言模型(MLLMs)在2D推理分割中表现出色,但直接迁移至3D场景时面临两大核心问题:一是单视图易出现不存在物体的“幻觉标注”,二是多视图预测缺乏空间一致性,导致3D模型性能下降。

2. 核心框架:MLLM-For3D

  • 提出一种无标签框架,将2D MLLMs的推理能力迁移至3D场景理解,无需人工3D标注。
  • 核心流程:
    1. 多视图伪标签生成:利用冻结的2D MLLM(如LISA)和SAM模型,从3D场景的多视角RGB图像中生成伪分割掩码和[SEG]令牌嵌入;
    2. 视图过滤:通过令牌注意力机制筛选可靠视图,抑制遮挡或语义不一致的噪声视图;
    3. 3D模型训练:结合多模态语义对齐和空间一致性约束,训练3D分割网络(以MinkowskiNet14为骨干),实现跨视图目标的一致识别。

3. 实验结果

  • 在Instruct3D、Intent3D、VG-w/o-ON三大基准测试中表现优异,无3D标注时仍
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 11:20:16

保护你的PDF:如何设置文件打开密码

担心发送出去的PDF文件被无关人员打开?给 PDF 设置 “打开密码” 就能完美解决!这个功能可以让文件只有输入正确密码才能查看,从源头阻断未授权访问,是保护敏感文档的重要方法。今天我们就来看看如何给PDF文件设置密码&#xff0c…

作者头像 李华
网站建设 2026/4/10 3:01:48

电网数字化运营可视化大屏系统(Vue3+Three.js前端源码)

温馨提示:文末有联系方式一、纯前端技术栈打造高性能可视化大屏 采用Three.js三维渲染引擎结合Vue3响应式框架,基于Vite构建工具与TypeScrt强类型语言开发,全程零后端耦合,代码结构清晰、可维护性强,适配现代浏览器与大…

作者头像 李华
网站建设 2026/4/10 2:59:21

别再用传统 ERP 了!没 CLI 功能接口的,注定会被 AI 时代所淘汰

AI 浪潮正全面重构企业经营逻辑,数据资产、流程自动化、敏捷响应已成为企业生存发展的核心能力。作为企业数字化的核心枢纽,ERP 系统的架构能力直接决定企业能否抓住 AI 红利。开源智造・Odoo 金牌服务明确指出:缺乏 CLI 命令行接口的传统 ER…

作者头像 李华
网站建设 2026/4/10 2:59:19

AXI协议之写对齐

AXI 总线协议中的写对齐 在 AXI (Advanced eXtensible Interface) 协议中,写操作的数据对齐是一个重要的概念,它主要涉及 地址、数据总线宽度 和 字节选通信号 之间的关系。地址对齐: AXI 协议规定,传输的起始地址必须对齐到数据总…

作者头像 李华