Der Artikel untersucht die Rolle und den Einfluss von überwachtem Feintuning (SFT) in paarweisen Präferenzdatensätzen für die Ausrichtung von Sprachmodellen und schlägt einen einfachen und neuartigen monolithischen Ausrichtungsansatz, die Odds Ratio Präferenzoptimierung (ORPO), vor.
ORPO kombiniert das SFT-Verlustfunktion mit einem Odds Ratio-basierten Strafterm, um die Modelle daran zu hindern, unerwünschte Generierungsstile zu erlernen, ohne einen Referenzmodell oder eine separate Aufwärmphase zu benötigen.
Die Autoren zeigen empirisch und theoretisch, dass der Odds Ratio eine sinnvolle Wahl ist, um bevorzugte und abgelehnte Stile während des SFT über verschiedene Modellgrößen hinweg zu kontrastieren. ORPO übertrifft den Stand der Technik bei Instruktionsfolge-Benchmarks wie AlpacaEval und MT-Bench, indem es Phi-2 (2,7 Mrd.), Llama-2 (7 Mrd.) und Mistral (7 Mrd.) allein mit UltraFeedback feinabstimmt.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Jiwoo Hong,N... om arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07691.pdfDiepere vragen