Multimodale Grundmodelle: Leistungsunterschiede zwischen Text- und Bildrepräsentationen
Multimodale Grundmodelle zeigen deutlich bessere Leistungen bei textbasierten Eingaben im Vergleich zu bildbasierten Eingaben, obwohl Menschen visuelle Darstellungen bevorzugen.