Die Studie präsentiert einen Ansatz zum Erlernen einer sprach-informierten visuellen Konzeptrepräsentation, indem große vortrainierte Sprach-Bild-Modelle ausgenutzt werden. Anstatt manuelle Annotationen zu verwenden, werden Konzeptenkoder trainiert, die visuelle Konzepte entlang verschiedener sprachlich definierter Konzeptachsen, wie Kategorie, Farbe und Material, aus Bildern extrahieren können.
Die Konzeptenkoder werden so trainiert, dass sie die extrahierten Konzeptembeddings nutzen können, um Bilder über ein vortrainiertes Text-zu-Bild-Modell zu rekonstruieren. Zusätzlich werden die Konzeptembeddings an diskrete Textanker aus einem vortrainierten Visuellen Frage-Antwort-Modell (VQA) gekoppelt, um eine bessere Disentanglung der verschiedenen Konzeptachsen zu erreichen.
Nach dem Training können die Konzeptenkoder disentanglierte Konzeptembeddings aus Testbildern extrahieren, die dann flexibel rekombiniert werden können, um Bilder mit neuartigen Konzeptkombinationen zu generieren. Durch ein leichtgewichtiges Finetuning-Verfahren können die Enkoder auch auf neuartige, ungesehene Konzepte generalisieren.
Die Experimente zeigen, dass der Ansatz eine bessere Disentanglung und Kompositionsfähigkeit erreicht als bestehende textbasierte Bildbearbeitungsmethoden.
翻譯成其他語言
從原文內容
arxiv.org
深入探究