核心概念
本文提出了一種名為 OneDet3D 的新型三維物體偵測模型,該模型能夠透過多領域聯合訓練,使用單一模型架構和參數集,對室內和室外場景中的點雲數據進行三維物體偵測。
摘要
文獻摘要
本研究論文介紹了一種名為 OneDet3D 的新型三維物體偵測模型,旨在解決現有模型在跨不同數據集和場景的泛化能力不足的問題。OneDet3D 的核心目標是實現「萬物歸一」,即使用單一模型和參數集,就能對不同領域的點雲數據進行三維物體偵測。
研究背景
現有的三維物體偵測模型大多遵循單一數據集訓練和測試的模式,這限制了模型的泛化能力。由於室內和室外場景的點雲數據存在顯著差異,例如點雲範圍、場景組成、物體大小和稀疏程度等,現有模型難以適應不同的數據分佈。
OneDet3D 模型架構
OneDet3D 採用全稀疏架構,並結合了以下關鍵設計:
- 三維稀疏卷積特徵提取器: 相較於基於點的結構,基於體素的特徵對領域差異更具魯棒性,且對超參數的敏感度較低,適用於多領域訓練。
- 無錨框偵測頭: 直接將稀疏卷積的點視為中心點來表示物體,避免了從稀疏特徵圖轉換為密集特徵圖的需求,更能適應不同領域的點雲數據。
- 領域感知分區: 針對數據層面的干擾,OneDet3D 採用領域感知分區策略,將容易產生干擾的參數(例如歸一化層中的縮放和平移參數)分區為特定於領域的參數,而大多數模型參數則在不同領域之間共享。
- 語義引導分類: 針對類別層面的干擾,OneDet3D 採用語義引導分類方法,利用 CLIP 模型提取類別名稱的語義嵌入向量,並將其用於最終分類,有效減輕了不同數據集之間的標籤衝突問題。
實驗結果
實驗結果表明,OneDet3D 在多個室內和室外數據集上均取得了優異的性能,證明了其強大的泛化能力。具體而言,OneDet3D 在 SUN RGB-D、ScanNet、KITTI 和 nuScenes 數據集上均取得了與現有最佳模型相當或更優的性能。此外,OneDet3D 在跨領域測試中也表現出色,例如在 S3DIS 和 Waymo 數據集上均取得了顯著的性能提升。
總結
OneDet3D 是一種基於點雲的三維物體偵測模型,透過多領域聯合訓練和創新的模型設計,有效解決了現有模型在跨數據集和場景的泛化能力不足的問題。實驗結果證明,OneDet3D 能够有效地學習通用的三維物體偵測知識,並在各種室內和室外場景中實現高精度的三維物體偵測。
統計資料
在 SUN RGB-D 數據集上,OneDet3D 的 AP25 達到 65.0%,超過 FCAF3D 1.2%。
在 KITTI 數據集上,OneDet3D 的性能與 PV-RCNN 相當。
在 nuScenes 數據集上,OneDet3D 的 AP 超過了 VoxelNeXt 和 UVTR 等現有方法。
在 SUN RGB-D 和 KITTI 數據集上,多數據集聯合訓練使 OneDet3D 的性能提升了 1.8%。
在 S3DIS 數據集上,經過多數據集聯合訓練的 OneDet3D 的跨領域 AP 提升了 4% 以上。
在 Waymo 數據集上,多數據集聯合訓練使 OneDet3D 的跨領域 AP3D 提升了 23.1%。
引述
「現有的三維偵測器仍然遵循單一數據集訓練和測試的模式,即推理過程中使用的點雲應該與訓練過程中使用的點雲來自完全相同的領域。」
「本文中,我們提出了 OneDet3D,這是一個統一的基於點雲的三維偵測器,透過多領域聯合訓練,僅使用一組參數。」
「據我們所知,這是第一個支持來自室內和室外領域的點雲,並且僅使用一組參數的三維偵測器。」