核心概念
Mamba-ND, eine Erweiterung des Mamba-Architektur, erreicht wettbewerbsfähige Leistungen auf verschiedenen mehrdimensionalen Benchmarks bei gleichzeitiger Reduzierung der Parameteranzahl im Vergleich zu Transformer-basierten Modellen.
摘要
Die Studie präsentiert Mamba-ND, eine Erweiterung des Mamba-Architektur, um mehrdimensionale Daten effizient zu modellieren.
Zentrale Erkenntnisse:
- Mamba-ND erreicht wettbewerbsfähige Leistungen auf Benchmarks wie ImageNet-1K Bildklassifikation, HMDB-51 und UCF-101 Videoerkennung, ERA5 Wettervorhersage und BTCV 3D-Segmentierung.
- Mamba-ND übertrifft dabei Transformer-basierte Modelle bei deutlich geringerer Parameteranzahl.
- Die Autoren untersuchen verschiedene Möglichkeiten, Mamba auf mehrdimensionale Daten zu erweitern, und finden, dass eine einfache Alternierung der Sequenzreihenfolge in den Mamba-Schichten eine überraschend effektive Strategie ist.
- Ausführliche Ablationstests zeigen, dass komplexere Designs nicht zwangsläufig zu besseren Ergebnissen führen.
- Mamba-ND behält die lineare Komplexität bezüglich der Eingabelänge bei, im Gegensatz zur quadratischen Komplexität von Transformern.
統計資料
"Mamba-ND zeigt eine bemerkenswerte Verbesserung von +3,8 in der Genauigkeit im Vergleich zu ViT, bei gleichzeitiger Reduzierung der Parameteranzahl um 20,7%."
"Mamba-3D erreicht einen Gewinn von +2,7 DICE-Punkten im Vergleich zu UNETR, bei ähnlicher Parameteranzahl."
"Mamba-3D reduziert die Parameteranzahl im Vergleich zu Cli-ViT um 44,5%, bei gleichzeitiger Verbesserung des ACC um +0,7."
引述
"Mamba-ND übertrifft Transformer-basierte Modelle, wenn sie unter ähnlichen Bedingungen arbeiten, und erreicht Ergebnisse auf Augenhöhe mit dem neuesten Stand der Technik bei State-Space-Modellen wie S4ND."
"Entgegen der Intuition und den Ergebnissen auf Schichtenebene führt das Hinzufügen von mehrdirektionalem Design auf Blockebene zu einer Verschlechterung der Leistung."