Core Concepts
Unser Ansatz führt zu einer deutlichen Verbesserung der Leistung und Robustheit des Reinforcement Lernens aus menschlichen Rückmeldungen, indem er die Unzulänglichkeiten von Belohnungsmodellen explizit berücksichtigt.
Abstract
Der Artikel beschreibt einen neuen Ansatz, um die Effektivität des Reinforcement Lernens aus menschlichen Rückmeldungen (RLHF) zu verbessern. Der Kernpunkt ist die Einführung von kontrastiven Belohnungen, die als Strafterm in den Optimierungsprozess integriert werden.
Der Prozess läuft in zwei Schritten ab:
- In einem ersten Offline-Schritt werden für eine Reihe von Eingabeprompts Baseline-Antworten mit einem vortrainierten Modell generiert. Diese Baseline-Antworten dienen dann zur Berechnung der kontrastiven Belohnungen.
- Im zweiten Schritt werden diese kontrastiven Belohnungen in den Proximal Policy Optimization (PPO) Prozess einbezogen. Dadurch wird das Modell dazu angehalten, sich nicht nur an den Belohnungen des Belohnungsmodells zu orientieren, sondern auch an den Baseline-Antworten zu verbessern.
Die Autoren zeigen analytisch, dass dieser Ansatz verschiedene Vorteile bietet: Er bestraft Unsicherheiten im Belohnungsmodell, verbessert die Robustheit des RLHF-Prozesses, gewichtet schwierige Prompts herunter und reduziert die Varianz im PPO-Schritt.
Die empirischen Ergebnisse zeigen, dass der Einsatz kontrastiver Belohnungen die Leistung des Modells im Vergleich zu etablierten Baselines deutlich verbessert, sowohl bei automatischen Evaluierungen durch GPT-Modelle als auch bei sorgfältig durchgeführten menschlichen Bewertungen.
Stats
Die Verwendung kontrastiver Belohnungen führt zu einer Verbesserung der Gewinnrate gegenüber dem SFT-Basismodell um ca. 50 Prozentpunkte.
Unser Ansatz übertrifft die Baselines DPO und PPO deutlich, mit einer Differenz von bis zu 30 Prozentpunkten in der Gewinnrate.
Die Leistung verbessert sich weiter, je mehr Offline-Samples für die Berechnung der kontrastiven Belohnungen verwendet werden.
Quotes
"Unser Ansatz explizit anerkennt die Unzulänglichkeiten des Belohnungsmodells und kalibriert den RLHF-Prozess unter Verwendung eines Strafterms, der durch eine kontrastive Belohnung definiert ist."
"Wir zeigen analytisch die Vorteile des kontrastiven Belohnungsterms in eleganten Einstellungen, einschließlich seiner Fähigkeit, unsichere Instanzen zu bestrafen, die Robustheit der RLHF-Pipeline angesichts der Unzulänglichkeiten des Belohnungsmodells zu verbessern, Proben, bei denen das Belohnungsmodell unsicher ist, herabzugewichten usw."