本研究では、従来の物体検出モデルが閉じたクラス条件下で設計・訓練・評価されているのに対し、実世界では未知のオブジェクトが存在するオープンセット環境での物体検出の重要性に着目した。そこで、既知クラスの検出精度と未知オブジェクトの検出recall性能の両立を目指す新しい「オープンセット物体検出と発見(OSODD)」タスクを提案した。
OSODD評価プロトコルでは、ID(既知)クラスのmAP、クラス非依存の提案ネットワークのAR、ID vs OOD、OOD vs BG、FG vs BGのAUROCなどの指標を用いて、モデルの性能を包括的に評価する。これにより、従来の「オープンセット物体検出」や「未知認知物体検出」のアプローチでは捉えきれなかった重要な側面を評価できる。
提案するOSR-ViTフレームワークは、クラス非依存の提案ネットワークと強力なViTベースの分類器から構成される。このモジュール式設計により、ユーザーは提案ネットワークや特徴抽出器を柔軟に変更できる。実験の結果、OSR-ViTは教師あり手法を大きく上回る性能を示し、特に少データ環境でも優れた結果を得られることが分かった。また、ViTの表現力の高さにより、IDクラスと未知オブジェクトの分離性能も優れていることが確認された。
OSR-ViT: A Simple and Modular Framework for Open-Set Object Detection and Discovery
Stats
物体検出器の既知クラスに対するmAP(平均精度)は最大で約31%
ID vs OOD、ID vs Non-ID、OOD vs BG、FG vs BGのAUROCはそれぞれ最大で約87%、86%、64%、82%