Robuste Feinabstimmung von Nullstellen-Modellen mit Hilfe von zufälliger Textanleitung
Eine neuartige Methode zur robusten Feinabstimmung von Nullstellen-Modellen, die die Sprach-
modellkomponente effektiv nutzt, um die Verbindung zwischen dem Bild- und Sprachmodell während des
Feinabstimmungsprozesses aufrechtzuerhalten.