Die Arbeit präsentiert eine Methode zum effizienten Lernen lokaler und globaler zeitlicher Kontexte, um die Leistung der semantischen Videosegmentierung zu verbessern.
Eine neuartige Methode zur Lokalisierung und Erkennung von Aktionen in Videoclips ohne Trainingsdaten, die eine Anpassung des Modells zur Laufzeit vornimmt.
Das vorgeschlagene Modell verwendet geführte Slots, eine Feature-Aggregations-Transformer und KNN-Filterung, um die Fähigkeit zur Unterscheidung von Vorder- und Hintergrund in komplexen Szenen zu verbessern und den aktuellen Stand der Technik bei der unüberwachten Videoobjektsegmentierung zu übertreffen.
Unser Ansatz HTR integriert ein neuartiges hybrides Gedächtnis in ein End-to-End-Paradigma, um die zeitliche Konsistenz und Genauigkeit der Referenz-Videoobjektsegmentierung signifikant zu verbessern.