toplogo
登入

基於射線中心策略的 RayFormer:改進基於查詢的多相機 3D 物體偵測


核心概念
RayFormer 透過模擬相機光學特性,以徑向查詢初始化和基於射線段的採樣方法,從圖像和鳥瞰圖視角中提取特徵,從而改進了基於查詢的多相機 3D 物體偵測。
摘要

RayFormer: 基於射線中心策略改進基於查詢的多相機 3D 物體偵測

簡介

本研究提出了一種名為 RayFormer 的新型多相機 3D 物體偵測方法,該方法透過模擬相機光學特性,以徑向查詢初始化和基於射線段的採樣方法,從圖像和鳥瞰圖視角中提取特徵,從而提高偵測精度。

研究背景

現有的基於查詢的多相機 3D 物體偵測方法通常在笛卡爾坐標系中以網格狀初始化物件查詢,忽略了圖像與 3D 空間之間的實際對應關係。這種初始化方式容易導致多個獨立查詢投影到圖像中的同一個物件上,從而提取到相似的特徵,影響偵測精度。

RayFormer 方法

RayFormer 採用徑向查詢初始化和基於射線段的採樣方法,以解決上述問題。具體而言,RayFormer 首先利用圖像特徵和預測的深度分佈,透過 Lift-Splat-Shoot 方法生成鳥瞰圖特徵。然後,以自車為中心,利用徑向線和圓環對感知區域進行劃分,並在每條徑向線上均勻稀疏地初始化基礎查詢點。此外,RayFormer 還利用 2D 物體偵測結果,選擇與預測的 2D 邊界框相交的徑向線作為前景徑向線,並在這些徑向線上選擇額外的查詢點,以增加真實物件周圍的查詢點密度。在特徵採樣方面,RayFormer 不再像傳統方法那樣在查詢點位置周圍選擇採樣點,而是在每條徑向線上以查詢點位置為中心,將一段射線段作為採樣單元,從圖像和鳥瞰圖視角中提取特徵。

實驗結果

在 nuScenes 自動駕駛數據集上進行的大量實驗表明,RayFormer 在 mAP 和 NDS 指標上均優於現有的先進方法。具體而言,在輸入分辨率為 640 × 1600,骨幹網絡為 VoVNet-99 的情況下,RayFormer 在測試集上取得了 55.5% 的 mAP 和 63.3% 的 NDS,分別比基準方法 SparseBEV 提高了 1.2% 和 0.6%。

總結

RayFormer 提出了一種基於射線中心策略的查詢初始化和特徵採樣方法,有效地提高了基於查詢的多相機 3D 物體偵測的精度。

edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
RayFormer 在 nuScenes 測試集上取得了 55.5% 的 mAP 和 63.3% 的 NDS,分別比基準方法 SparseBEV 提高了 1.2% 和 0.6%。 在輸入分辨率為 640 × 1600,骨幹網絡為 VoVNet-99 的情況下,RayFormer 在測試集上取得了最佳性能。 在輸入分辨率為 256 × 704,骨幹網絡為 ResNet50 的情況下,RayFormer 的 mAP 達到 45.9%,NDS 達到 55.8%,分別優於 StreamPETR 0.9% 和 0.8%。 在輸入分辨率為 512 × 1408,骨幹網絡為 ResNet101 的情況下,RayFormer 的 mAP 達到 51.1%,NDS 達到 59.4%,分別優於 StreamPETR 0.7% 和 0.2%。
引述
"In this work, we re-formulate the initial location of the object query by well considering the optical characteristics of cameras." "Formally, we introduce RayFormer, a query-based multi-camera 3D object detection approach that initializes sparse queries in a radial distribution and organizes sampling points along a ray segment for each query to extract both image and BEV features."

深入探究

RayFormer 如何應對極端天氣或光照條件下,相機圖像質量下降帶來的挑戰?

RayFormer 的設計主要針對多相機 3D 物體偵測任務,並未特別針對極端天氣或光照條件進行優化。在這些情況下,相機圖像質量下降,可能會影響 RayFormer 的性能。以下是一些可能的影響和應對方法: 影響: 特徵提取困難: 極端天氣和光照條件會導致圖像模糊、色彩失真等問題,使得圖像特徵難以提取,進而影響 RayFormer 的性能。 深度估計誤差: 深度估計模塊依賴於清晰的圖像紋理和結構信息,惡劣條件下深度估計的準確性會下降,影響 BEV 特徵的生成和查詢點的投影。 2D 物體偵測性能下降: 用於輔助學習和前景查詢補充的 2D 物體偵測模塊也會受到圖像質量下降的影響,進而影響 RayFormer 的整體性能。 應對方法: 數據增強: 在訓練數據中加入模擬極端天氣和光照條件的樣本,例如使用圖像處理技術添加雨、雪、霧等效果,或調整圖像亮度和對比度,可以提高模型的魯棒性。 多模態融合: 結合其他傳感器信息,例如激光雷達或毫米波雷達,可以彌補相機在惡劣條件下的不足。 圖像增強技術: 在模型輸入端使用圖像增強技術,例如去雨、去霧、低照度增強等,可以提高圖像質量,提升模型性能。

如果放棄模擬相機光學特性,而採用其他更通用的查詢初始化和特徵採樣策略,是否也能達到與 RayFormer 相當的性能?

放棄模擬相機光學特性,採用更通用的查詢初始化和特徵採樣策略,例如 DETR3D 和 PETR 中使用的方法,可能也能在一定程度上實現 3D 物體偵測,但性能可能難以與 RayFormer 相當。 通用方法的不足: 查詢點冗餘: 通用方法通常在 3D 空間中均匀地初始化查詢點,而忽略了相機光學特性。這會導致在靠近相機的區域查詢點冗餘,而在遠離相機的區域查詢點不足,影響效率和準確性。 特徵採樣效率低: 通用方法的特徵採樣策略通常圍繞查詢點進行,沒有考慮到相機光線的投影關係,導致採樣到的特徵信息可能不夠精確,影響性能。 RayFormer 的優勢: 查詢點分佈合理: RayFormer 模擬相機光學特性,採用徑向查詢初始化,使查詢點的分佈更加合理,避免了查詢點冗餘或不足的問題。 特徵採樣效率高: RayFormer 採用基於射線段的特徵採樣策略,可以更精確地提取與查詢點對應的圖像特徵,提高了特徵採樣效率。 總之,RayFormer 的設計理念充分考慮了相機光學特性,並針對性地設計了查詢初始化和特徵採樣策略,這是其性能優於其他通用方法的關鍵。

RayFormer 的設計理念是否可以應用於其他基於視覺的感知任務,例如深度估計、語義分割等?

RayFormer 的設計理念,特別是徑向查詢初始化和基於射線段的特徵採樣策略,具有一定的通用性,可以考慮應用於其他基於視覺的感知任務,例如深度估計、語義分割等。 深度估計: 可以將 RayFormer 中的查詢點視為待估計深度的像素點,利用徑向分佈和射線段採樣策略,更有效地提取多視角圖像特徵,提高深度估計精度。 語義分割: 可以將 RayFormer 中的查詢點視為待分割的圖像區域,利用徑向分佈和射線段採樣策略,更精確地提取圖像特徵,提高語義分割的邊緣精度和整體性能。 當然,將 RayFormer 應用於其他任務時,需要根據具體任務需求進行適當的調整和優化,例如修改網絡結構、損失函數等。
0
star