Centrala begrepp
Durch die Verwendung mehrerer Präferenzpaare pro Eingabeaufforderung und deren systematische Einführung in einem Curriculum-Lernverfahren kann die Leistung von Direkter Präferenzoptimierung (DPO) zur Ausrichtung von Großen Sprachmodellen auf menschliche Präferenzen deutlich verbessert werden.
Sammanfattning
Die Studie präsentiert einen neuen Ansatz namens Curry-DPO, der Curriculum-Lernen in den DPO-Rahmen integriert, um Große Sprachmodelle effektiver an menschliche Präferenzen anzupassen.
Kernpunkte:
- Standardmäßige DPO-Methoden verwenden nur ein einziges Präferenzpaar pro Eingabeaufforderung (eine gewählte und eine abgelehnte Antwort).
- Curry-DPO nutzt stattdessen mehrere Präferenzpaare pro Eingabeaufforderung, die systematisch von "leicht" zu "schwer" angeordnet werden, um ein Curriculum-Lernverfahren zu emulieren.
- Die Autoren zeigen, dass Curry-DPO die Leistung auf mehreren Benchmark-Tests deutlich verbessert, insbesondere auf MT-Bench, WizardLM und dem UltraFeedback-Testset.
- Curry-DPO erzielt den besten MTbench-Wert von 7,43 mit dem Zephyr-7B-Modell und die höchsten Gewinnquoten von 87,9% auf UltraFeedback und 87,1% auf WizardLM.
- Die Ergebnisse unterstreichen die Bedeutung von Curriculum-Lernen und iterativem Training für die effektive Ausrichtung von Großen Sprachmodellen an menschlichen Präferenzen.
Statistik
Die Differenz zwischen den Bewertungspunkten des gewählten und abgelehnten Responses beträgt bis zu 5 Punkte.
Curry-DPO erzielt einen MTbench-Wert von 7,43, was den Großteil der existierenden Großen Sprachmodelle mit ähnlicher Parametergröße übertrifft.
Curry-DPO erreicht Gewinnquoten von 87,9% auf UltraFeedback, 87,1% auf WizardLM und 90,7% auf Vicuna, was Verbesserungen von bis zu 7,5% gegenüber der Standard-DPO-Methode darstellt.
Citat
"Durch die Verwendung mehrerer Präferenzpaare pro Eingabeaufforderung in DPO könnte dies als eine Form der Datenerweiterung fungieren."
"Wir zeigen, dass es wichtig ist, diese Paare auf systematische Weise einzuführen, um bessere Ergebnisse zu erzielen."