Die Studie stellt ReMamber, eine neuartige Architektur für die Bildverweis-Segmentierung (Referring Image Segmentation, RIS), vor. RIS ist eine wichtige, aber herausfordernde Aufgabe im Bereich des multimodalen Verständnisses, bei der spezifische Objekte in einem Bild basierend auf Textbeschreibungen identifiziert und segmentiert werden müssen.
ReMamber integriert die Leistungsfähigkeit von Mamba, einer effizienten State-Space-Modell-Architektur, mit einem neuartigen Mamba Twister-Block. Dieser Block besteht aus mehreren Visual State Space (VSS)-Schichten und einer Twisting-Schicht. Die VSS-Schichten extrahieren zunächst visuelle Merkmale, während die Twisting-Schicht die Textinformationen in die visuelle Modalität einfügt.
Die Twisting-Schicht besteht aus drei Hauptkomponenten:
ReMamber übertrifft den Stand der Technik auf drei herausfordernden Benchmarks für die Bildverweis-Segmentierung. Darüber hinaus werden eingehende Analysen von ReMamber und andere Designs zur Vision-Language-Fusion mit Mamba durchgeführt, die wertvolle Perspektiven für zukünftige Forschung bieten.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Yuhuan Yang,... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17839.pdfPerguntas Mais Profundas