news 2026/4/18 3:45:21

这篇文章旨在解决多模态3D检测中稀疏检测器的性能问题。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
这篇文章旨在解决多模态3D检测中稀疏检测器的性能问题。

全文总结

元宝

研究背景

  1. 研究问题:

    这篇文章旨在解决多模态3D检测稀疏检测器的性能问题。尽管稀疏检测器在计算成本和下游任务适应性方面优于基于鸟瞰图(BEV)的检测器,但现有的稀疏检测器忽略了token表示的质量,导致前景质量不佳和性能有限。

  2. 研究难点:

    该问题的研究难点在于如何提高稀疏检测器中token的质量,特别是在几何结构和类别分布方面的优化。现有的token采样策略依赖于简单的top-k操作,容易导致小物体token的丢失和对象边界的缺失。

  3. 相关工作:

    现有工作主要包括基于LiDAR的3D检测、基于相机的3D检测和多模态3D检测。基于LiDAR的检测器利用点云的几何信息进行精确定位,而基于相机的检测器则通过多视图图像捕捉丰富的语义信息。多模态3D检测方法通过融合LiDAR和相机数据,利用两者的互补优势来提高检测性能。

研究方法

本文提出了一种名为CrossRay3D的稀疏多模态检测器,主要通过Sparse Selector (SS)模块来提高token采样的质量。具体方法如下:

  1. Sparse Selector (SS):

    • Ray-Aware Supervision (RAS): 通过在训练阶段恢复高几何信息,利用从光学中心到物体的射线作为对象结构导向的监督,生成高结构前景token。具体来说,RAS通过射线与地面真实框的交集来标记正负样本,并通过卷积操作进行token采样。

    • Class-balancedSupervision (CBS): 通过调整token的显著性权重,避免在token采样过程中丢失小物体token。CBS损失函数根据地面真实类别的分布重新加权token的显著性,公式如下:

      Wn​={λ,Sigmoid(max(y^​n,c​)),​ if n∈ distribution, otherwise,​

      其中,λ≥1是超参数,y^​n,c​是第n个token的类别概率分布。

  2. Ray Positional Encoding (Ray PE):

    • 为了解决图像和LiDAR数据之间的分布差异,提出了Ray PE,通过采样3D锚点沿射线生成位置编码,映射相机和BEV位置编码到统一的3D空间,实现多模态特征的直接交互。

  3. Decoder and Loss:

    • 使用标准的Transformer解码器,通过Ray PE和潜在空间,查询与多模态稀疏token直接交互,预测3D边界框。损失函数包括CBS损失、分类损失和回归损失,公式如下:

      L=ω1​Lt​+Lcls​(c,c^)+Lreg​(b,b^),

      其中,ω1​是平衡CBS损失的超参数。

实验设计

  1. 数据集:

    • 实验在nuScenes数据集上进行,该数据集包含1000个场景,分为训练集、验证集和测试集,分别包含700、150和150个场景。每个场景包含6个摄像头和1个LiDAR传感器的数据。

  2. 评估指标:

    • 使用官方的nuScenes指标,包括nuScenes Detection Score (NDS)、mean Average Precision (mAP)、mean Average Translation Error (mATE)等。

  3. 实现细节:

    • 图像特征提取使用ResNet50,LiDAR特征提取使用3D稀疏骨干网络。模型在2个A40 GPU上训练20个epoch,批量大小为12。

结果与分析

  1. 主要结果:

    • 在nuScenes测试集上,CrossRay3D达到了74.7%的NDS和72.4%的mAP,超过了现有的最先进方法,并且在推理速度上是其他领先方法的两倍。

    • 在nuScenes验证集上,CrossRay3D也表现出色,特别是在处理遮挡和远距离小物体方面。

  2. 消融实验:

    • RAS的效果: 添加RAS后,CrossRay3D在NDS和mAP上分别提高了1.4%和1.6%,并且计算成本仅增加了0.1 FPS。

    • CBS的效果: CBS损失函数在类平衡监督方面表现出色,特别是在小物体(如障碍物和交通锥)的AP上提高了0.3%。

    • Ray PE的效果: 添加Ray PE后,mAP显著提高了9.3%,证明了其在稀疏特征表示中的有效性。

    • Token保留比例的影响: 减少保留的token数量可以降低计算负载,同时保持较高的检测精度。

总体结论

本文提出了CrossRay3D,一种端到端的稀疏多模态检测器,通过几何结构和类别分布的联合优化,实现了高质量的token采样。实验结果表明,CrossRay3D在nuScenes数据集上达到了最先进的性能,并且在计算效率和鲁棒性方面具有显著优势。未来的工作将集中在进一步优化骨干网络和探索不同模态的互补优势。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 3:29:35

【提升应用健壮性必读】:Symfony 8路由参数验证的3种高效实现方式

第一章:Symfony 8路由参数验证概述在现代Web开发中,确保从客户端传入的数据安全、合法是构建健壮应用的关键环节。Symfony 8 提供了强大的路由系统,支持在定义路由时直接对参数进行约束与验证,从而在请求进入控制器之前就完成初步…

作者头像 李华
网站建设 2026/4/17 13:44:21

【顶级医院都在用的生存分析方法】:基于R语言的真实案例解析

第一章:顶级医院都在用的生存分析方法概述在现代医疗数据分析中,生存分析已成为评估患者预后、治疗效果和疾病进展的核心工具。顶级医疗机构广泛采用此类方法来处理带有时间依赖性结局的数据,尤其适用于癌症、心血管疾病等长期随访研究。什么…

作者头像 李华
网站建设 2026/4/17 7:11:11

Pyroscope Java 接入最佳实践

Pyroscope Pyroscope 是 Grafana 开源的持续性能分析平台,旨在帮助用户从应用程序中获取性能洞察,以优化资源使用,如 CPU、内存和 I/O 操作。将 Pyroscope 数据上报到观测云,使用户能够全面了解应用程序的行为,并能够…

作者头像 李华