Die Studie stellt ReMamber, eine neuartige Architektur für die Bildverweis-Segmentierung (Referring Image Segmentation, RIS), vor. RIS ist eine wichtige, aber herausfordernde Aufgabe im Bereich des multimodalen Verständnisses, bei der spezifische Objekte in einem Bild basierend auf Textbeschreibungen identifiziert und segmentiert werden müssen.
ReMamber integriert die Leistungsfähigkeit von Mamba, einer effizienten State-Space-Modell-Architektur, mit einem neuartigen Mamba Twister-Block. Dieser Block besteht aus mehreren Visual State Space (VSS)-Schichten und einer Twisting-Schicht. Die VSS-Schichten extrahieren zunächst visuelle Merkmale, während die Twisting-Schicht die Textinformationen in die visuelle Modalität einfügt.
Die Twisting-Schicht besteht aus drei Hauptkomponenten:
ReMamber übertrifft den Stand der Technik auf drei herausfordernden Benchmarks für die Bildverweis-Segmentierung. Darüber hinaus werden eingehende Analysen von ReMamber und andere Designs zur Vision-Language-Fusion mit Mamba durchgeführt, die wertvolle Perspektiven für zukünftige Forschung bieten.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yuhuan Yang,... a las arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17839.pdfConsultas más profundas