Основные понятия
Die Autoren präsentieren ein neuartiges Framework, die Bild-Text-Co-Zerlegung (CoDe), um die Ausrichtung zwischen Bildbereichen und Wortsegmenten für die Text-gesteuerte semantische Segmentierung zu erreichen. Durch die gemeinsame Zerlegung von Bild und Text in Bildbereiche und Wortsegmente sowie kontrastives Lernen zur Erzwingung der Ausrichtung zwischen diesen Segmenten können die Diskrepanzen zwischen Training und Test sowie zwischen Bild und Text überwunden werden.
Аннотация
Die Autoren präsentieren ein neuartiges Framework, die Bild-Text-Co-Zerlegung (CoDe), zur Lösung der Text-gesteuerten semantischen Segmentierung.
Zunächst wird ein Bildverstärker und ein Textverstärker entwickelt, um das Bild in Bildbereiche und den Text in Wortsegmente zu zerlegen. Anschließend wird ein Modul zur Bereichs-Wort-Ausrichtung eingeführt, das kontrastives Lernen verwendet, um die Übereinstimmung zwischen den Bildbereichen und Wortsegmenten zu erzwingen.
Darüber hinaus präsentieren die Autoren einen Prompt-Lernmechanismus, um die Merkmalsextraktion aus den hervorgehobenen Bildbereichen und Wortsegmenten zu verbessern und die Ausrichtung zwischen ihnen zu verstärken.
Umfassende experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode im Vergleich zu bestehenden Methoden für die Text-gesteuerte semantische Segmentierung auf sechs Benchmark-Datensätzen deutlich bessere Leistungen erbringt.
Статистика
Die Autoren verwenden die Conceptual Captions 3M (CC3M) und Conceptual 12M (CC12M) Datensätze mit insgesamt 15 Millionen Bild-Text-Paaren zum Training ihres Modells.
Für die Evaluierung nutzen sie sechs gängige semantische Segmentierungs-Benchmarks: PASCAL VOC, PASCAL Context, COCO-Object, COCO-Stuff, Cityscapes und ADE20K.
Цитаты
"Die Autoren präsentieren ein neuartiges Framework, die Bild-Text-Co-Zerlegung (CoDe), zur Lösung der Text-gesteuerten semantischen Segmentierung."
"Umfassende experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode im Vergleich zu bestehenden Methoden für die Text-gesteuerte semantische Segmentierung auf sechs Benchmark-Datensätzen deutlich bessere Leistungen erbringt."