Die Studie untersucht umfassend die Leistungsfähigkeit von Zustandsraummodellen, insbesondere am Beispiel von Mamba, für verschiedene Videoanalyseaufgaben. Das Video Mamba Suite umfasst 14 Mamba-basierte Modelle/Module für 12 Videoanalyseaufgaben auf 13 Datensätzen.
Die Ergebnisse zeigen, dass Mamba in verschiedenen Rollen - als temporales Modell, temporales Modul, multimodale Interaktionskomponente und raumzeitliches Modell - starke Leistungen erbringt und vielversprechende Effizienz-Leistungs-Kompromisse aufweist. Im Vergleich zu Transformer-basierten Methoden übertrifft Mamba in vielen Fällen die Leistung, insbesondere bei Aufgaben wie der zeitlichen Handlungslokalisation, der zeitlichen Handlungssegmentierung, der dichten Videobeschriftung und der Aktion-Antizipation.
Die umfassende Evaluierung unterstreicht die Eignung von Mamba als leistungsfähige Alternative zu Transformern für Videoanalyseaufgaben und eröffnet neue Möglichkeiten für dessen Anwendung in der Computervision.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Guo Chen,Yif... at arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.09626.pdfDeeper Inquiries