Der Kern dieser Arbeit ist die Untersuchung des Problems der Belohnungsüberoptimierung bei der Text-zu-Bild-Generierung und die Einführung einer Methode, um dieses Problem zu mildern.
Die Autoren führen zunächst den TIA2-Benchmark ein, eine umfangreiche Sammlung von Textaufforderungen, Bildern und menschlichen Annotationen, um die Ausrichtung verschiedener state-of-the-art-Belohnungsmodelle zu bewerten. Die Ergebnisse zeigen, dass selbst Belohnungsmodelle, die auf umfangreichen Daten menschlicher Präferenzen trainiert wurden, oft nicht gut mit menschlicher Beurteilung übereinstimmen.
Um die Ausrichtung der Belohnungsmodelle zu verbessern, schlagen die Autoren TextNorm vor, eine einfache Methode, die die Belohnungen basierend auf einem Maß für die Modellkonfidenz kalibriert. Dazu werden semantisch kontrastierende Textaufforderungen verwendet, um die relativen Belohnungen als Konfidenzmaß zu nutzen und die Belohnungen entsprechend anzupassen.
Die Autoren zeigen sowohl quantitativ als auch qualitativ, dass TextNorm die Ausrichtung mit menschlicher Beurteilung deutlich verbessert und die Überoptimierung effektiv reduziert. Insgesamt demonstriert diese Arbeit die Bedeutung des Verständnisses und der Milderung von Überoptimierungsproblemen bei der Feinabstimmung von Text-zu-Bild-Modellen.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések