Durch die Verwendung mehrerer Präferenzpaare pro Eingabeaufforderung und deren systematische Einführung in einem Curriculum-Lernverfahren kann die Leistung von Direkter Präferenzoptimierung (DPO) zur Ausrichtung von Großen Sprachmodellen auf menschliche Präferenzen deutlich verbessert werden.


coremsg

verbesserung-der-ausrichtung-von-großen-sprachmodellen-durch-curriculum-lernen-und-rangfolge-präferenzen


Verbesserung der Ausrichtung von Großen Sprachmodellen durch Curriculum-Lernen und Rangfolge-Präferenzen