In dieser Arbeit wird ein Verfahren namens "Prior Constraints-based Reward Model" (PCRM) vorgestellt, um das Problem der unkontrollierten Skalierung der Belohnungspunktzahlen während des Verstärkungslernens zu lösen. PCRM integriert Vorabbeschränkungen, insbesondere das Längenverhältnis und die Kosinusähnlichkeit zwischen den Ausgaben jedes Vergleichspaares, während des Trainings des Belohnungsmodells, um die Optimierungsmagnitude zu regulieren und die Punktzahlabstände zu kontrollieren.
Die Autoren evaluieren PCRM umfassend, indem sie die Rangkorrelation mit menschlichen Präferenzen und die Effektivität bei der Ausrichtung großer Sprachmodelle über Verstärkungslernen untersuchen. Die Ergebnisse zeigen, dass PCRM die Ausrichtungsleistung deutlich verbessert, indem es die Skalierung der Belohnungspunktzahlen effektiv einschränkt. Darüber hinaus kann PCRM nahtlos in beliebige rangbasierte Ausrichtungsmethoden wie die direkte Präferenzoptimierung integriert werden und zu konsistenten Verbesserungen führen.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések