Effiziente und robuste unüberwachte Videoobjektsegmentierung durch geführte Slot-Aufmerksamkeit
Das vorgeschlagene Modell verwendet geführte Slots, eine Feature-Aggregations-Transformer und KNN-Filterung, um die Fähigkeit zur Unterscheidung von Vorder- und Hintergrund in komplexen Szenen zu verbessern und den aktuellen Stand der Technik bei der unüberwachten Videoobjektsegmentierung zu übertreffen.