Core Concepts
Wir zeigen, dass Video-Instanzsegmentierung mit nur einem einzigen annotierten Punkt pro Objekt in einem Videoframe eine wettbewerbsfähige Leistung im Vergleich zu vollständig überwachten Methoden erreichen kann.
Abstract
Die Autoren untersuchen die Frage, wie weit die Annotationskosten für die Video-Instanzsegmentierung reduziert werden können, ohne die Leistung stark zu beeinträchtigen. Sie präsentieren einen Ansatz für die punkt-überwachte Video-Instanzsegmentierung (PointVIS), der folgende Schlüsselkomponenten umfasst:
Klassenneutrale Vorschlagsgenerierung: Unter Verwendung eines auf COCO vortrainierten Bildinstanzsegmentierungsmodells werden dichte klassen-agnostische räumlich-zeitliche Vorschläge für jedes Video generiert, um die Spärlichkeit der Punktannotationen auszugleichen.
Punkt-basierter Matcher: Ein speziell entworfener Matching-Algorithmus, der die Punktannotationen mit den Vorschlägen abgleicht, um hochwertige Pseudo-Masken zu erzeugen. Dieser Algorithmus nutzt sowohl annotierte als auch annotationsfreie negative Hinweise, um eine präzise Zuordnung zu erhalten.
Selbsttraining zur Überwindung der Domänenverschiebung: Um die Generalisierung auf neue Kategorien zu verbessern, führen die Autoren einen Selbsttrainingsprozess durch, bei dem die Pseudo-Masken aus dem vorherigen Trainingsdurchgang verwendet werden.
Die umfassenden Experimente auf drei Video-Instanzsegmentierungsdatensätzen zeigen, dass PointVIS mit nur einem einzigen annotierten Punkt pro Objekt eine Leistung erreicht, die bis zu 96,7% der vollständig überwachten Methoden beträgt. Die Autoren führen auch eine detaillierte Analyse durch, um zu verstehen, welche Art von Punktannotationen für die Video-Instanzsegmentierung am wichtigsten sind.
Stats
Mit nur einem einzigen annotierten Punkt pro Objekt erreicht PointVIS 87% der Leistung vollständig überwachter Methoden auf YouTube-VIS 2019.
Mit einem positiven und einem negativen Punkt pro Objekt erreicht PointVIS 96,7% der Leistung vollständig überwachter Methoden auf YouTube-VIS 2019.
Auf dem herausfordernden OVIS-Datensatz erreicht PointVIS 72,6% der Leistung vollständig überwachter Methoden.
Quotes
"Selbst ein einziger positiver, pro Objekt annotierter Punkt in einem Video erreicht bereits eine gute Leistung und behält 87% der Leistung vollständig überwachter Methoden auf Youtube-VIS 2019 bei."
"Zusätzliche negative Punkte verbessern die Leistung, während das Hinzufügen von positiven Punkten allein wenig Gewinn bringt."