Die Autoren präsentieren eine unüberwachte Methode zur Verbesserung eines Bildunterschriften-Modells (BLIP2) durch Verstärkungslernen und Vision-Sprach-Modelle wie CLIP und BLIP2-ITM als Belohnungsmodelle. Das RL-optimierte Modell kann längere und umfassendere Beschreibungen generieren. Das Modell erreicht einen beeindruckenden CLIP Recall-Wert von 0,90 auf dem MS-COCO Karpathy-Testdatensatz.
Die Methode zielt darauf ab, ein bestehendes Bildunterschriften-Modell durch Verstärkungslernung zu verfeinern, um detailliertere Bildunterschriften zu erzeugen. Dafür wird ein Vision-Sprach-Modell als Belohnungsmodell verwendet, ohne dass zusätzliche menschlich gelabelte Daten benötigt werden.
Der Trainingsprozess umfasst drei Schritte: 1) Generierung einer Bildunterschrift und Berechnung der Belohnung, 2) Berechnung der vorhergesagten Belohnung und Aktualisierung der entsprechenden Modellparameter, 3) Aktualisierung der Wahrscheinlichkeiten der generierten Tokens basierend auf der Belohnung.
Die Autoren führen verschiedene Experimente durch, um die optimale Konfiguration zu finden, z.B. hinsichtlich der zu trainierenden Modellparameter, der Architektur des Belohnungskopfes und der Verwendung einer Referenzkomponente.
Die Ergebnisse zeigen, dass das vorgeschlagene VLRM-Modell deutlich detailliertere und umfassendere Bildunterschriften generiert als das Ausgangsmodell BLIP2. Auf dem MS-COCO Karpathy-Testdatensatz erreicht VLRM einen CLIP Recall-Wert von 0,90, was eine Steigerung von 38,8% gegenüber BLIP2 darstellt.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Maksim Dzabr... klokken arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01911.pdfDypere Spørsmål