Verbesserung von Multimodalen Großsprachmodellen durch Bootstrapping-Präferenzoptimierung
Durch Präferenzlernen mit selbstgenerierten negativen Beispielen können die Verzerrungen von Multimodalen Großsprachmodellen, die aus der Vortrainingsphase stammen, effektiv unterdrückt werden, was zu einer verbesserten Verankerung in visuellen Eingaben führt.