MLLM-For3D 文章总结与翻译
一、主要内容总结
1. 研究背景与问题
- 3D推理分割需基于人类意图和空间推理分割复杂场景中的目标物体,在具身智能、自动驾驶等领域至关重要,但现有方法依赖大量人工标注的⟨3D, 文本⟩配对数据,成本高昂。
- 现有2D多模态大语言模型(MLLMs)在2D推理分割中表现出色,但直接迁移至3D场景时面临两大核心问题:一是单视图易出现不存在物体的“幻觉标注”,二是多视图预测缺乏空间一致性,导致3D模型性能下降。
2. 核心框架:MLLM-For3D
- 提出一种无标签框架,将2D MLLMs的推理能力迁移至3D场景理解,无需人工3D标注。
- 核心流程:
- 多视图伪标签生成:利用冻结的2D MLLM(如LISA)和SAM模型,从3D场景的多视角RGB图像中生成伪分割掩码和[SEG]令牌嵌入;
- 视图过滤:通过令牌注意力机制筛选可靠视图,抑制遮挡或语义不一致的噪声视图;
- 3D模型训练:结合多模态语义对齐和空间一致性约束,训练3D分割网络(以MinkowskiNet14为骨干),实现跨视图目标的一致识别。
3. 实验结果
- 在Instruct3D、Intent3D、VG-w/o-ON三大基准测试中表现优异,无3D标注时仍