Kernkonzepte
Sigma, ein Siamese-Mamba-Netzwerk, nutzt die Vorteile von State-Space-Modellen, um robuste und effiziente multimodale semantische Segmentierung zu erreichen.
Zusammenfassung
Der Artikel stellt Sigma, ein Siamese-Mamba-Netzwerk für die multimodale semantische Segmentierung, vor.
Kernpunkte:
- Sigma verwendet einen Siamese-Encoder, um globale Langzeitabhängigkeiten aus verschiedenen Modalitäten (RGB, Wärme, Tiefe) zu extrahieren.
- Ein Fusionsmodul mit Cross-Mamba-Block und Concat-Mamba-Block aggregiert die Informationen aus den Modalitäten effizient.
- Ein kanalbasierter Mamba-Decoder verbessert die Modellierung der Kanalinformationen.
- Umfangreiche Experimente auf RGB-Wärme- und RGB-Tiefen-Datensätzen zeigen die Überlegenheit von Sigma in Bezug auf Genauigkeit und Effizienz gegenüber dem Stand der Technik.
- Sigma ist der erste erfolgreiche Einsatz von State-Space-Modellen, insbesondere Mamba, in Aufgaben der multimodalen Wahrnehmung.
Statistiken
Die Verwendung von Mamba-basierten Fusionsmethoden reduziert die Komplexität im Vergleich zu Transformer-basierten Ansätzen um eine Größenordnung.
Sigma-Tiny hat 48,3 Millionen Parameter und 89,5 GFLOPs, Sigma-Small hat 69,8 Millionen Parameter und 138,9 GFLOPs, Sigma-Base hat 121,4 Millionen Parameter und 240,7 GFLOPs.
Zitate
"Multimodale semantische Segmentierung verbessert die Wahrnehmung und das Szenenverständnis von KI-Agenten erheblich, insbesondere unter widrigen Bedingungen wie Dunkelheit oder Überbelichtung."
"Im Gegensatz zu herkömmlichen Methoden, die auf CNNs mit begrenzten lokalen Rezeptionsfeldern oder Vision Transformers (ViTs) mit quadratischer Komplexität basieren, erreicht unser Modell globale Rezeptionsfelder mit linearer Komplexität."