핵심 개념
提出了一种全稀疏的多模态3D物体检测框架FSF,通过双模态实例生成和双模态实例预测实现了高效和高精度的检测。
초록
本文提出了一种名为Fully Sparse Fusion (FSF)的全稀疏多模态3D物体检测框架。该框架由两个主要部分组成:双模态实例生成模块和双模态实例预测模块。
双模态实例生成模块包括两个部分:LiDAR实例生成和相机实例生成。LiDAR实例生成使用3D实例分割生成LiDAR实例,相机实例生成利用2D实例分割生成相机实例。这两种实例相互补充,可以克服单一模态的局限性。
双模态实例预测模块包括四个部分:实例特征提取、实例特征交互、实例形状对齐和最终预测头。这些模块可以有效地融合双模态实例,产生最终的3D检测结果。
此外,作者还提出了一种双阶段的实例标签分配策略,以解决相机实例中噪声点的问题。
总的来说,FSF框架实现了全稀疏的多模态3D物体检测,在nuScenes、Waymo Open Dataset和Argoverse 2数据集上均取得了SOTA性能,特别是在长距离检测场景下表现出色。
통계
在Argoverse 2数据集上,FSF在Motorcycle、Bicycle和Traffic Cone等类别的mAP比之前的SOTA方法提高了8到10个百分点。
在Argoverse 2数据集上,FSF的推理速度比其他SOTA多模态3D检测方法快2.7倍。
인용구
"Currently prevalent multi-modal 3D detection methods rely on dense detectors that usually use dense Bird's-Eye-View (BEV) feature maps. However, the cost of such BEV feature maps is quadratic to the detection range, making it not scalable for long-range detection."
"We propose Fully Sparse Fusion (FSF), a novel fully sparse multi-modality perception framework, which leverages instance-based fusion without any dense BEV feature maps."