Verbesserung der Leistung von Sehsprache-Modellen durch visuelle Verankerung von Fragen
Durch das Hinzufügen visuell verankerter Details zu Fragen können die Leistungen von Sehsprache-Modellen in der nullschuss-Aufgabe verbessert werden, indem Unterbestimmtheit reduziert und die Interaktion zwischen Vision und Sprache besser genutzt wird.