Visuelle Semantik und Lautmalerei in Vision-and-Language-Modellen
Vision-and-Language-Modelle wie CLIP und Stable Diffusion zeigen starke Assoziationen zwischen bestimmten Sprachlauten und visuellen Eigenschaften, ähnlich wie der bekannte Kiki-Bouba-Effekt in der Psycholinguistik.