Eine neue Methode, die Verstärkungslernen mit kontrastivem Lernen kombiniert, um Sprachmodelle effektiv an menschliche Präferenzen anzupassen.


coremsg

gemischte-präferenzoptimierung-verstärkungslernen-mit-datenselektion-und-besserem-referenzmodell


Gemischte Präferenzoptimierung: Verstärkungslernen mit Datenselektion und besserem Referenzmodell


title_rewrite


Die Unterscheidbarkeit von Präferenzen beeinflusst die Lerngeschwindigkeit und Genauigkeit von Sprachmodellen, die auf menschliche Präferenzen ausgerichtet werden.


theoretische-analyse-der-lernynamiken-bei-der-ausrichtung-von-sprachmodellen-auf-menschliche-präferenzen


Theoretische Analyse der Lernynamiken bei der Ausrichtung von Sprachmodellen auf menschliche Präferenzen



Die Erhöhung der Anzahl der Antworten führt zu einer größeren Verbesserung der Leistung von Sprachmodellen bei der Ausrichtung auf menschliche Präferenzen als die Erhöhung der Anzahl der Eingabeaufforderungen, bei gleichem Gesamtumfang der Annotationen.


skalierung-der-datendiversität-für-das-fine-tuning-von-sprachmodellen-zur-ausrichtung-auf-den-menschen


Skalierung der Datendiversität für das Fine-Tuning von Sprachmodellen zur Ausrichtung auf den Menschen