Die Studie untersucht zwei Hauptansätze zur Ausrichtung von Großsprachmodellen (LLMs) an menschlichen Werten: Verstärkungslernen mit menschlichem Feedback (RLHF) und kontrastivlernbasierte Methoden wie Direct Preference Optimization (DPO).
Durch die Analyse der Stabilität und Robustheit von RLHF und DPO schlagen die Autoren MPO (Mixed Preference Optimization) vor, eine neuartige Methode, die die Schwächen beider Ansätze abmildert. MPO verwendet ein zweistufiges Trainingsprozedere: Zunächst wird ein DPO-Modell auf einem einfachen Datensatz trainiert, um schnell ein relativ optimales Politikmodell zu erhalten. Anschließend wird das Modell mit RLHF auf einem schwierigen Datensatz verfeinert, wobei das DPO-Modell als Referenzmodell dient.
Die Experimente auf zwei öffentlichen Alignmentdatensätzen zeigen die Effektivität von MPO im Vergleich zu DPO und RLHF, sowohl in Bezug auf automatische als auch menschliche Bewertungen.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Qi Gou,Cam-T... klokken arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19443.pdfDypere Spørsmål