news 2026/5/9 11:21:05

2025_NIPS_MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation

张小明

前端开发工程师

1.2k 24

文章封面图 — 2025_NIPS_MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation

MLLM-For3D 文章总结与翻译

一、主要内容总结

1. 研究背景与问题

3D推理分割需基于人类意图和空间推理分割复杂场景中的目标物体，在具身智能、自动驾驶等领域至关重要，但现有方法依赖大量人工标注的⟨3D, 文本⟩配对数据，成本高昂。
现有2D多模态大语言模型（MLLMs）在2D推理分割中表现出色，但直接迁移至3D场景时面临两大核心问题：一是单视图易出现不存在物体的“幻觉标注”，二是多视图预测缺乏空间一致性，导致3D模型性能下降。

2. 核心框架：MLLM-For3D

提出一种无标签框架，将2D MLLMs的推理能力迁移至3D场景理解，无需人工3D标注。
核心流程：
1. 多视图伪标签生成：利用冻结的2D MLLM（如LISA）和SAM模型，从3D场景的多视角RGB图像中生成伪分割掩码和[SEG]令牌嵌入；
2. 视图过滤：通过令牌注意力机制筛选可靠视图，抑制遮挡或语义不一致的噪声视图；
3. 3D模型训练：结合多模态语义对齐和空间一致性约束，训练3D分割网络（以MinkowskiNet14为骨干），实现跨视图目标的一致识别。

3. 实验结果

在Instruct3D、Intent3D、VG-w/o-ON三大基准测试中表现优异，无3D标注时仍

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/5/9 11:20:16

保护你的PDF：如何设置文件打开密码

担心发送出去的PDF文件被无关人员打开？给 PDF 设置 “打开密码” 就能完美解决！这个功能可以让文件只有输入正确密码才能查看，从源头阻断未授权访问，是保护敏感文档的重要方法。今天我们就来看看如何给PDF文件设置密码&#xff0c…

作者头像

李华

网站建设 2026/4/10 3:01:48

电网数字化运营可视化大屏系统（Vue3+Three.js前端源码）

温馨提示：文末有联系方式一、纯前端技术栈打造高性能可视化大屏采用Three.js三维渲染引擎结合Vue3响应式框架，基于Vite构建工具与TypeScrt强类型语言开发，全程零后端耦合，代码结构清晰、可维护性强，适配现代浏览器与大…

作者头像

李华

网站建设 2026/4/10 3:01:46

不用死磕提示词！测试了下这款“懂情商”的电商AI，让买家秀瞬间变大片

做电商设计，现在最怕被问的不是能不能再快点，而是这两个直戳脊梁骨的灵魂拷问： “有没有那种不用抽卡、一键就能出大片的AI？”“快！给我一个万能提示词，要那种能直接出神图的！” 说实话&#…

作者头像

李华

网站建设 2026/4/10 2:59:21

别再用传统 ERP 了！没 CLI 功能接口的，注定会被 AI 时代所淘汰

AI 浪潮正全面重构企业经营逻辑，数据资产、流程自动化、敏捷响应已成为企业生存发展的核心能力。作为企业数字化的核心枢纽，ERP 系统的架构能力直接决定企业能否抓住 AI 红利。开源智造・Odoo 金牌服务明确指出：缺乏 CLI 命令行接口的传统 ER…

作者头像

李华

网站建设 2026/4/10 2:59:19

AXI协议之写对齐

AXI 总线协议中的写对齐在 AXI (Advanced eXtensible Interface) 协议中，写操作的数据对齐是一个重要的概念，它主要涉及地址、数据总线宽度和字节选通信号之间的关系。地址对齐： AXI 协议规定，传输的起始地址必须对齐到数据总…

作者头像

李华

网站建设 2026/4/10 2:59:19

不用装软件！这款MicroPython浏览器 IDE :让你在手机上也能调试树莓派 Pico似

1、普通的insert into 如果（主键/唯一建）存在，则会报错新需求：就算冲突也不报错，用其他处理逻辑回到顶部 2、基本语法（INSERT INTO ... ON CONFLICT (...) DO (UPDATE SET ...)/(NOTHING)） 语…

作者头像

李华