Konsep Inti
Zwei neuartige Aufmerksamkeitsmechanismen, Inter-Modalitäts-Aufmerksamkeit (IMA) und Inter-Frame-Aufmerksamkeit (IFA), werden vorgeschlagen, um die Zusammenarbeit von Erscheinungs- und Bewegungsinformationen sowie die zeitliche Kohärenz in Videos effektiv zu nutzen, um die Leistung bei der unüberwachten Video-Objektsegmentierung erheblich zu verbessern.
Abstrak
Die Studie befasst sich mit dem Problem der unüberwachten Video-Objektsegmentierung, bei dem das Ziel darin besteht, das auffälligste Objekt in einer Videosequenz zu erkennen und zu segmentieren, ohne externe Anleitung wie Zielmasken oder Referenztexte zu verwenden.
Die Autoren schlagen zwei neuartige Module vor, um die Beschränkungen bestehender Ansätze zur Fusion von Mehrfachmodalitäten und zeitlichen Aggregation zu überwinden:
-
Inter-Modalitäts-Aufmerksamkeit (IMA):
- Ermöglicht ein dichtes und gründliches Austausch von Informationen zwischen Erscheinungs- und Bewegungsmerkmalen auf der Grundlage eines Prototypen-Aufmerksamkeitsmechanismus.
- Extrahiert zunächst nützliche Merkmale für jede Modalität und verfeinert sie, um der jeweils anderen Modalität wertvolle Informationen zu liefern.
- Anstatt einer naiven Fusion werden die Merkmale jeder Modalität basierend auf gegenseitiger Merkmalsausbreitung adaptiv der anderen Modalität zugewiesen.
-
Inter-Frame-Aufmerksamkeit (IFA):
- Nutzt den globalen Kontext eines Videos, ohne einen hohen Rechenaufwand zu erfordern.
- Wählt zunächst eine bestimmte Anzahl von Frames aus dem gesamten Videosequenz aus und speichert deren Merkmale in einem externen Speicher.
- Wenn einzelne Frames vorhergesagt werden, werden die gespeicherten Merkmale adaptiv an die Abfrage-Frames propagiert, um die allgemeinen Eigenschaften des Videos bereitzustellen.
Beide Module werden durch den Einsatz eines Prototypen-Frameworks weiter verbessert, um zuverlässigere und umfassendere Merkmale zu nutzen, da jeder Prototyp räumliches Strukturwissen der Szenen besitzt.
Die Experimente auf öffentlichen Benchmark-Datensätzen zeigen, dass der vorgeschlagene Ansatz die Leistung aller bestehenden Methoden deutlich übertrifft, ohne einen hohen Rechenaufwand zu erfordern.
Statistik
Die Segmentierungsleistung wird auf drei öffentlichen Benchmark-Datensätzen evaluiert: DAVIS 2016 Validierungsset, FBMS Testset und YouTube-Objects Datensatz.
Auf allen drei Datensätzen übertrifft der vorgeschlagene Ansatz (DPA) die Leistung aller bestehenden Methoden deutlich.
Kutipan
Keine relevanten Zitate identifiziert.