Verbesserung der Ausrichtung von Großen Sprachmodellen durch Curriculum-Lernen und Rangfolge-Präferenzen
Durch die Verwendung mehrerer Präferenzpaare pro Eingabeaufforderung und deren systematische Einführung in einem Curriculum-Lernverfahren kann die Leistung von Direkter Präferenzoptimierung (DPO) zur Ausrichtung von Großen Sprachmodellen auf menschliche Präferenzen deutlich verbessert werden.