Das vorgeschlagene Modell nutzt einen neuartigen, clip-basierten DETR-Stil-Encoder-Decoder, der systematisch die Herausforderungen von komplexen Objekttransformationen, kleinen Objekten und Langzeit-Tracking adressiert. Es umfasst eine neuartige transformationsbewusste Verlustfunktion, ein multiplikatives zeitcodiertes Gedächtnis und einen ganzheitlichen Multi-Skalen-Video-Transformer für Tracking.
Zwei neuartige Aufmerksamkeitsmechanismen, Inter-Modalitäts-Aufmerksamkeit (IMA) und Inter-Frame-Aufmerksamkeit (IFA), werden vorgeschlagen, um die Zusammenarbeit von Erscheinungs- und Bewegungsinformationen sowie die zeitliche Kohärenz in Videos effektiv zu nutzen, um die Leistung bei der unüberwachten Video-Objektsegmentierung erheblich zu verbessern.
Ein transformerbasierter Ansatz, der ein optimiertes und dynamisches langfristiges moduliertes Kreuzaufmerksamkeitsgedächtnis (MCA) einführt, um die zeitliche Glättung ohne häufige Speichererweiterung zu modellieren. Der vorgeschlagene MCA kodiert effektiv sowohl lokale als auch globale Merkmale auf verschiedenen Granularitätsebenen und erhält dabei eine konsistente Geschwindigkeit unabhängig von der Videolänge.