Core Concepts
Eine einfache, aber effektive Methode zur Erkennung von Objekten außerhalb der Verteilung in Objekterkennungsnetzwerken, ohne dass eine Neuausbildung oder Architekturänderung erforderlich ist.
Abstract
Die Studie präsentiert einen neuartigen Ansatz zur Erkennung von Objekten außerhalb der Verteilung (Out-of-Distribution, OoD) in Objekterkennungsnetzwerken, ohne dass eine Neuausbildung oder Architekturänderung erforderlich ist. Der Ansatz, Box Abstraction-based Monitors (BAM) genannt, nutzt eine endliche Vereinigung konvexer Boxabstraktionen, um die erlernten Merkmale von Objekten für Daten innerhalb der Verteilung (In-Distribution, ID) zu erfassen. Eine wichtige Beobachtung ist, dass Merkmale von OoD-Daten mit größerer Wahrscheinlichkeit außerhalb dieser Boxen liegen. Die Vereinigung konvexer Regionen im Merkmalsraum ermöglicht die Bildung nicht-konvexer und interpretierbarer Entscheidungsgrenzen, ohne die Echtzeitperformance zu beeinträchtigen.
Die Experimente zeigen, dass BAM, wenn es in Faster R-CNN-basierte Objekterkennungsnetzwerke integriert wird, eine deutlich verbesserte Leistung gegenüber state-of-the-art-Techniken zur OoD-Erkennung erzielt. BAM kann direkt in jedes gut ausgebildete Objekterkennungsnetzwerk integriert werden, ohne dass Architekturänderungen oder Neuausbildungen erforderlich sind, und bietet eine vernachlässigbare Latenzerhöhung von nur 1,65% im Vergleich zur Standardimplementierung von Faster R-CNN.
Stats
Die Verwendung von BAM erhöht die durchschnittliche Inferenzzeit pro Bild auf einem Nvidia RTX A4000 GPU von 40,8 ms auf 41,1 ms, was einer Leistungseinbuße von nur 0,7% entspricht.
Auf dem BDD-Datensatz erhöht sich die durchschnittliche Inferenzzeit pro Bild mit einem BAM-Monitor von 7000 Boxen für die Kategorie "Auto" von 85,4 ms auf 94,4 ms.
Quotes
"BAM erweitert Boxabstraktionsmonitore in der Klassifizierung, um sie auf die Objekterkennung anzuwenden."
"Die Vereinigung konvexer Regionen im Merkmalsraum ermöglicht die Bildung nicht-konvexer und interpretierbarer Entscheidungsgrenzen, ohne die Echtzeitperformance zu beeinträchtigen."