Eine neue Methode, die Verstärkungslernen mit kontrastivem Lernen kombiniert, um Sprachmodelle effektiv an menschliche Präferenzen anzupassen.
Die Unterscheidbarkeit von Präferenzen beeinflusst die Lerngeschwindigkeit und Genauigkeit von Sprachmodellen, die auf menschliche Präferenzen ausgerichtet werden.
Die Erhöhung der Anzahl der Antworten führt zu einer größeren Verbesserung der Leistung von Sprachmodellen bei der Ausrichtung auf menschliche Präferenzen als die Erhöhung der Anzahl der Eingabeaufforderungen, bei gleichem Gesamtumfang der Annotationen.