Die Autoren präsentieren ein neuartiges Framework, die Bild-Text-Co-Zerlegung (CoDe), zur Lösung der Text-gesteuerten semantischen Segmentierung.
Zunächst wird ein Bildverstärker und ein Textverstärker entwickelt, um das Bild in Bildbereiche und den Text in Wortsegmente zu zerlegen. Anschließend wird ein Modul zur Bereichs-Wort-Ausrichtung eingeführt, das kontrastives Lernen verwendet, um die Übereinstimmung zwischen den Bildbereichen und Wortsegmenten zu erzwingen.
Darüber hinaus präsentieren die Autoren einen Prompt-Lernmechanismus, um die Merkmalsextraktion aus den hervorgehobenen Bildbereichen und Wortsegmenten zu verbessern und die Ausrichtung zwischen ihnen zu verstärken.
Umfassende experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode im Vergleich zu bestehenden Methoden für die Text-gesteuerte semantische Segmentierung auf sechs Benchmark-Datensätzen deutlich bessere Leistungen erbringt.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Ji-Jia Wu,An... om arxiv.org 04-08-2024
https://arxiv.org/pdf/2404.04231.pdfDiepere vragen