Alapfogalmak
SpikeMba ist ein neuartiges Netzwerkmodell, das Spiking Neural Networks und State Space Models integriert, um die feingranularen Beziehungen zwischen multimodalen Eingaben effektiv zu erfassen und lange Videosequenzen effizient zu verarbeiten. Das Modell erzielt durch die Verwendung von relevanten Slots, einem kontextuellen Moment-Reasoner und einem Spike-Salienz-Detektor Spitzenleistungen bei der temporalen Videoverankerung.
Kivonat
Der Artikel präsentiert ein neuartiges Modell namens SpikeMba für die temporale Videoverankerung. Das Modell kombiniert Spiking Neural Networks (SNNs) und State Space Models (SSMs), um die feingranularen Beziehungen zwischen multimodalen Eingaben effektiv zu erfassen und lange Videosequenzen effizient zu verarbeiten.
Zentrale Aspekte des Modells sind:
- Salienz-Vorschlagssatz: Der SNN-basierte Salienz-Detektor nutzt den Schwellwertmechanismus von SNNs, um potenzielle Salienz-Vorschläge zu identifizieren und zu erforschen.
- Relevante Slots: Lernbare Tensoren, die als "relevante Slots" bezeichnet werden, werden eingeführt, um selektiv Vorwissen darzustellen und das Gedächtnis des Modells für kontextuelle Informationen in langen Videosequenzen zu verbessern.
- Kontextueller Moment-Reasoner: Dieser Reasoner nutzt die dynamisch relevanten Slots, um kontextuelle semantische Zusammenhänge zu inferieren und einen Ausgleich zwischen der Erhaltung von Kontextinformationen und der Erkundung semantischer Relevanz zu finden.
- Multi-modale relevante Mamba: Basierend auf State Space Models verbessert dieser Block die Modellierung langfristiger Abhängigkeiten, während die lineare Komplexität in Bezug auf die Eingabegröße beibehalten wird.
Die Experimente zeigen, dass SpikeMba die Leistung aktueller Methoden auf gängigen Benchmarks für temporale Videoverankerung und Highlight-Erkennung übertrifft.
Statisztikák
Die Recall@0.5-Werte von SpikeMba betragen 64,13% auf dem Testdatensatz und 65,32% auf dem Validierungsdatensatz der QVHighlights-Benchmark.
Die durchschnittliche mAP-Werte von SpikeMba liegen bei 43,79% auf dem Testdatensatz und 44,84% auf dem Validierungsdatensatz der QVHighlights-Benchmark.
Auf dem TACoS-Datensatz erreicht SpikeMba Recall@0.3 von 51,98%, Recall@0.5 von 39,34% und einen mittleren IoU von 35,81%.
Auf dem Charades-STA-Datensatz erzielt SpikeMba Recall@0.3 von 71,24%, Recall@0.5 von 59,65% und einen mittleren IoU von 51,74%.
Idézetek
"SpikeMba konzentriert sich auf zwei Hauptaspekte: 1) Salienz-Vorschlagssatz: Wir nutzen Spiking Neural Networks (SNNs), um einen fortschrittlichen Salienz-Detektor aufzubauen. 2) Relevante Vorkenntnis: Wir führen lernbare Tensoren, die als 'relevante Slots' bezeichnet werden, ein, um selektiv Vorwissen darzustellen und das Gedächtnis des Modells für kontextuelle Informationen in langen Videosequenzen zu verbessern."