Iteratives Lernen kann die Kompositionsstruktur in großen Vision-Sprache-Modellen verbessern, indem es Darstellungen erzeugt, die leicht zu lernen sind.