Verbesserung der Ausrichtung von Text-zu-Bild-Modellen durch konfidenzbasierte Belohnungsoptimierung
Feinabstimmung von Text-zu-Bild-Modellen mit Hilfe von Belohnungsfunktionen, die auf Daten menschlicher Rückmeldungen trainiert wurden, hat sich als wirksam erwiesen, um das Verhalten der Modelle an menschliche Absichten anzupassen. Übermäßige Optimierung mit solchen Belohnungsmodellen, die nur Ersatzziele darstellen, kann jedoch die Leistung der feinabgestimmten Modelle beeinträchtigen, ein Phänomen, das als Belohnungsüberoptimierung bekannt ist.