Effiziente Verarbeitung und Analyse von Inhalten zur Gewinnung von Erkenntnissen durch Text-gesteuerte semantische Segmentierung
Die Autoren präsentieren ein neuartiges Framework, die Bild-Text-Co-Zerlegung (CoDe), um die Ausrichtung zwischen Bildbereichen und Wortsegmenten für die Text-gesteuerte semantische Segmentierung zu erreichen. Durch die gemeinsame Zerlegung von Bild und Text in Bildbereiche und Wortsegmente sowie kontrastives Lernen zur Erzwingung der Ausrichtung zwischen diesen Segmenten können die Diskrepanzen zwischen Training und Test sowie zwischen Bild und Text überwunden werden.