核心概念
這篇文章旨在解決開放集物體偵測(OSOD)領域中缺乏統一基準測試和明確問題定義的問題,並提出新的基準測試和評估指標,以及基於偽標籤的改進方法,以促進更一致和有意義的OSOD 方法評估。
摘要
論文資訊
- 標題:開放集物體偵測:邁向統一的問題表述和基準測試
- 作者:Hejer Ammar, Nikita Kiselov, Guillaume Lapouge, and Romaric Audigier
- 機構:Université Paris-Saclay, CEA, List, F-91120, Palaiseau, France
研究目標
本研究旨在解決開放集物體偵測(OSOD)領域中存在的兩個主要問題:缺乏統一的基準測試和對未知物體定義不明確。這些問題阻礙了對不同 OSOD 方法進行一致且有意義的比較。
方法
- 統一基準測試:
- 結合 Pascal-VOC 和 MS-COCO 數據集,建立統一的基準測試和測試集分割方法。
- 將評估分為三個獨立的測試集:僅包含已知物體的 Dtest,ID、僅包含未知物體的 Dtest,OOD,以及包含已知和未知物體的 Dtest,all。
- OpenImagesRoad 數據集:
- 提出一個新的、更豐富的基準測試數據集 OpenImagesRoad,該數據集源自 OpenImages 數據集,並使用 BigDetection 標註和層次結構。
- OpenImagesRoad 僅包含道路圖像,並利用層次化方法定義未知物體,將每個超類別分為已知和未知類別。
- 評估指標:
- 提出新的評估指標,以更全面地評估 OSOD 方法的性能。
- 除了 APunk 之外,還提出了 APall 和 APsc,分別用於評估類別無關的平均精度和基於超類別層次結構的平均精度。
- 改進的偽標籤方法:
- 提出 OW-DETR+ 和 OW-DETR++,利用自監督視覺轉換器 DINOv2 的功能來改進最先進的偽標籤方法 OW-DETR。
- OW-DETR+ 使用 DINOv2 的激活圖進行偽標籤,而 OW-DETR++ 則進一步採用聚類和過濾技術來優化偽標籤過程。
主要發現
- 不同的 OSOD 方法在已知和未知物體檢測方面表現出不同的優缺點。
- 偽標籤方法(如 OW-DETR++)在已知物體檢測和物體定位方面表現出色,而對比學習方法(如 OpenDet)在正確檢測和分類未知物體方面更勝一籌。
- 方法的性能受學習場景的影響,偽標籤方法在已知物體在訓練期間可能出現的未標記場景中表現更好。
結論
本研究為 OSOD 領域提供了寶貴的貢獻,包括新的基準測試、評估指標和改進的偽標籤方法。這些貢獻將促進更一致和有意義的 OSOD 方法評估,並為未來的研究提供有價值的見解。
統計資料
VOC 訓練集包含 14K 張圖像,共 20 個類別。
COCO 數據集包含與 VOC 相同的 20 個類別,以及額外的 60 個非 VOC 類別。
OpenImagesRoad 數據集包含 228,153 張圖像和 1,120,348 個物體。
OpenImagesRoad 數據集中,最頻繁的 50% 類別(至少包含 60 個實例)被視為已知類別,其餘類別則為未知類別。
OW-DETR++ 使用 ViT-S/14 DINOv2 預訓練模型進行偽標籤提取。
ResNet-50 和 ViT-S/14 的參數數量分別為 23M 和 22M。
引述
"In real-world applications where confidence is key, like autonomous driving, the accurate detection and appropriate handling of classes differing from those used during training are crucial."
"This study provides a clear problem definition, ensures consistent evaluations, and draws new conclusions about the effectiveness of OSOD strategies."
"These well-defined benchmarks, scenarios, baselines and problem characterisations should provide clearer and fair settings for analysing outcomes of future OSOD works."