Die Studie untersucht zwei Hauptansätze zur Ausrichtung von Großsprachmodellen (LLMs) an menschlichen Werten: Verstärkungslernen mit menschlichem Feedback (RLHF) und kontrastivlernbasierte Methoden wie Direct Preference Optimization (DPO).
Durch die Analyse der Stabilität und Robustheit von RLHF und DPO schlagen die Autoren MPO (Mixed Preference Optimization) vor, eine neuartige Methode, die die Schwächen beider Ansätze abmildert. MPO verwendet ein zweistufiges Trainingsprozedere: Zunächst wird ein DPO-Modell auf einem einfachen Datensatz trainiert, um schnell ein relativ optimales Politikmodell zu erhalten. Anschließend wird das Modell mit RLHF auf einem schwierigen Datensatz verfeinert, wobei das DPO-Modell als Referenzmodell dient.
Die Experimente auf zwei öffentlichen Alignmentdatensätzen zeigen die Effektivität von MPO im Vergleich zu DPO und RLHF, sowohl in Bezug auf automatische als auch menschliche Bewertungen.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Qi Gou,Cam-T... pada arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19443.pdfPertanyaan yang Lebih Dalam