Effiziente Extraktion und Rekombination von visuellen Konzepten durch Ausnutzung von Sprach-Bild-Modellen
Durch Destillation großer vortrainierter Sprach-Bild-Modelle können disentanglierte und kompositionelle visuelle Konzeptrepräsentationen erlernt werden, die eine flexible Rekombination von Konzepten ermöglichen.