Die Studie untersucht zwei Hauptansätze zur Ausrichtung von Großsprachmodellen (LLMs) an menschlichen Werten: Verstärkungslernen mit menschlichem Feedback (RLHF) und kontrastivlernbasierte Methoden wie Direct Preference Optimization (DPO).
Durch die Analyse der Stabilität und Robustheit von RLHF und DPO schlagen die Autoren MPO (Mixed Preference Optimization) vor, eine neuartige Methode, die die Schwächen beider Ansätze abmildert. MPO verwendet ein zweistufiges Trainingsprozedere: Zunächst wird ein DPO-Modell auf einem einfachen Datensatz trainiert, um schnell ein relativ optimales Politikmodell zu erhalten. Anschließend wird das Modell mit RLHF auf einem schwierigen Datensatz verfeinert, wobei das DPO-Modell als Referenzmodell dient.
Die Experimente auf zwei öffentlichen Alignmentdatensätzen zeigen die Effektivität von MPO im Vergleich zu DPO und RLHF, sowohl in Bezug auf automatische als auch menschliche Bewertungen.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor