Główne pojęcia
Eine einfache und innovative referenzmodellfreie monolithische Odds Ratio Präferenzoptimierungsalgorithmus (ORPO) eliminiert die Notwendigkeit einer zusätzlichen Präferenzausrichtungsphase und übertrifft den Stand der Technik bei Instruktionsfolge-Benchmarks.
Streszczenie
Der Artikel untersucht die Rolle und den Einfluss von überwachtem Feintuning (SFT) in paarweisen Präferenzdatensätzen für die Ausrichtung von Sprachmodellen und schlägt einen einfachen und neuartigen monolithischen Ausrichtungsansatz, die Odds Ratio Präferenzoptimierung (ORPO), vor.
ORPO kombiniert das SFT-Verlustfunktion mit einem Odds Ratio-basierten Strafterm, um die Modelle daran zu hindern, unerwünschte Generierungsstile zu erlernen, ohne einen Referenzmodell oder eine separate Aufwärmphase zu benötigen.
Die Autoren zeigen empirisch und theoretisch, dass der Odds Ratio eine sinnvolle Wahl ist, um bevorzugte und abgelehnte Stile während des SFT über verschiedene Modellgrößen hinweg zu kontrastieren. ORPO übertrifft den Stand der Technik bei Instruktionsfolge-Benchmarks wie AlpacaEval und MT-Bench, indem es Phi-2 (2,7 Mrd.), Llama-2 (7 Mrd.) und Mistral (7 Mrd.) allein mit UltraFeedback feinabstimmt.
Statystyki
Die Phi-2 (2,7 Mrd.) Modelle, die mit ORPO feinabgestimmt wurden, erreichten 71,80% und 6,35% in AlpacaEval1.0 und AlpacaEval2.0.
Die Llama-2 (7 Mrd.) Modelle, die mit ORPO feinabgestimmt wurden, erreichten 81,26% und 9,44% in AlpacaEval1.0 und AlpacaEval2.0.
Die Mistral-ORPO-α (7 Mrd.) und Mistral-ORPO-β (7 Mrd.) Modelle erreichten 11,33% und 12,20% in AlpacaEval2.0 sowie 7,23 und 7,32 in MT-Bench.
Cytaty
"Eine einfache und innovative referenzmodellfreie monolithische Odds Ratio Präferenzoptimierungsalgorithmus (ORPO) eliminiert die Notwendigkeit einer zusätzlichen Präferenzausrichtungsphase."
"ORPO übertrifft den Stand der Technik bei Instruktionsfolge-Benchmarks wie AlpacaEval und MT-Bench, indem es Phi-2 (2,7 Mrd.), Llama-2 (7 Mrd.) und Mistral (7 Mrd.) allein mit UltraFeedback feinabstimmt."