Die Studie präsentiert einen Ansatz zum Erlernen einer sprach-informierten visuellen Konzeptrepräsentation, indem große vortrainierte Sprach-Bild-Modelle ausgenutzt werden. Anstatt manuelle Annotationen zu verwenden, werden Konzeptenkoder trainiert, die visuelle Konzepte entlang verschiedener sprachlich definierter Konzeptachsen, wie Kategorie, Farbe und Material, aus Bildern extrahieren können.
Die Konzeptenkoder werden so trainiert, dass sie die extrahierten Konzeptembeddings nutzen können, um Bilder über ein vortrainiertes Text-zu-Bild-Modell zu rekonstruieren. Zusätzlich werden die Konzeptembeddings an diskrete Textanker aus einem vortrainierten Visuellen Frage-Antwort-Modell (VQA) gekoppelt, um eine bessere Disentanglung der verschiedenen Konzeptachsen zu erreichen.
Nach dem Training können die Konzeptenkoder disentanglierte Konzeptembeddings aus Testbildern extrahieren, die dann flexibel rekombiniert werden können, um Bilder mit neuartigen Konzeptkombinationen zu generieren. Durch ein leichtgewichtiges Finetuning-Verfahren können die Enkoder auch auf neuartige, ungesehene Konzepte generalisieren.
Die Experimente zeigen, dass der Ansatz eine bessere Disentanglung und Kompositionsfähigkeit erreicht als bestehende textbasierte Bildbearbeitungsmethoden.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Sharon Lee,Y... um arxiv.org 04-04-2024
https://arxiv.org/pdf/2312.03587.pdfTiefere Fragen