Vision-Sprach-Modelle als Belohnungsmodelle für Bildunterschriften
Durch die Verwendung von Vision-Sprach-Modellen als Belohnungsmodelle kann ein Bildunterschriften-Modell (BLIP2) verbessert werden, um detailliertere und umfassendere Beschreibungen zu generieren.