Effiziente Videoobjektsegmentierung durch modulierte Kreuzaufmerksamkeitsgedächtnis
Ein transformerbasierter Ansatz, der ein optimiertes und dynamisches langfristiges moduliertes Kreuzaufmerksamkeitsgedächtnis (MCA) einführt, um die zeitliche Glättung ohne häufige Speichererweiterung zu modellieren. Der vorgeschlagene MCA kodiert effektiv sowohl lokale als auch globale Merkmale auf verschiedenen Granularitätsebenen und erhält dabei eine konsistente Geschwindigkeit unabhängig von der Videolänge.