核心概念
RayFormer 透過模擬相機光學特性,以徑向查詢初始化和基於射線段的採樣方法,從圖像和鳥瞰圖視角中提取特徵,從而改進了基於查詢的多相機 3D 物體偵測。
摘要
RayFormer: 基於射線中心策略改進基於查詢的多相機 3D 物體偵測
簡介
本研究提出了一種名為 RayFormer 的新型多相機 3D 物體偵測方法,該方法透過模擬相機光學特性,以徑向查詢初始化和基於射線段的採樣方法,從圖像和鳥瞰圖視角中提取特徵,從而提高偵測精度。
研究背景
現有的基於查詢的多相機 3D 物體偵測方法通常在笛卡爾坐標系中以網格狀初始化物件查詢,忽略了圖像與 3D 空間之間的實際對應關係。這種初始化方式容易導致多個獨立查詢投影到圖像中的同一個物件上,從而提取到相似的特徵,影響偵測精度。
RayFormer 方法
RayFormer 採用徑向查詢初始化和基於射線段的採樣方法,以解決上述問題。具體而言,RayFormer 首先利用圖像特徵和預測的深度分佈,透過 Lift-Splat-Shoot 方法生成鳥瞰圖特徵。然後,以自車為中心,利用徑向線和圓環對感知區域進行劃分,並在每條徑向線上均勻稀疏地初始化基礎查詢點。此外,RayFormer 還利用 2D 物體偵測結果,選擇與預測的 2D 邊界框相交的徑向線作為前景徑向線,並在這些徑向線上選擇額外的查詢點,以增加真實物件周圍的查詢點密度。在特徵採樣方面,RayFormer 不再像傳統方法那樣在查詢點位置周圍選擇採樣點,而是在每條徑向線上以查詢點位置為中心,將一段射線段作為採樣單元,從圖像和鳥瞰圖視角中提取特徵。
實驗結果
在 nuScenes 自動駕駛數據集上進行的大量實驗表明,RayFormer 在 mAP 和 NDS 指標上均優於現有的先進方法。具體而言,在輸入分辨率為 640 × 1600,骨幹網絡為 VoVNet-99 的情況下,RayFormer 在測試集上取得了 55.5% 的 mAP 和 63.3% 的 NDS,分別比基準方法 SparseBEV 提高了 1.2% 和 0.6%。
總結
RayFormer 提出了一種基於射線中心策略的查詢初始化和特徵採樣方法,有效地提高了基於查詢的多相機 3D 物體偵測的精度。
統計資料
RayFormer 在 nuScenes 測試集上取得了 55.5% 的 mAP 和 63.3% 的 NDS,分別比基準方法 SparseBEV 提高了 1.2% 和 0.6%。
在輸入分辨率為 640 × 1600,骨幹網絡為 VoVNet-99 的情況下,RayFormer 在測試集上取得了最佳性能。
在輸入分辨率為 256 × 704,骨幹網絡為 ResNet50 的情況下,RayFormer 的 mAP 達到 45.9%,NDS 達到 55.8%,分別優於 StreamPETR 0.9% 和 0.8%。
在輸入分辨率為 512 × 1408,骨幹網絡為 ResNet101 的情況下,RayFormer 的 mAP 達到 51.1%,NDS 達到 59.4%,分別優於 StreamPETR 0.7% 和 0.2%。
引述
"In this work, we re-formulate the initial location of the object query by well considering the optical characteristics of cameras."
"Formally, we introduce RayFormer, a query-based multi-camera 3D object detection approach that initializes sparse queries in a radial distribution and organizes sampling points along a ray segment for each query to extract both image and BEV features."