Der Artikel untersucht die Rolle und den Einfluss von überwachtem Feintuning (SFT) in paarweisen Präferenzdatensätzen für die Ausrichtung von Sprachmodellen und schlägt einen einfachen und neuartigen monolithischen Ausrichtungsansatz, die Odds Ratio Präferenzoptimierung (ORPO), vor.
ORPO kombiniert das SFT-Verlustfunktion mit einem Odds Ratio-basierten Strafterm, um die Modelle daran zu hindern, unerwünschte Generierungsstile zu erlernen, ohne einen Referenzmodell oder eine separate Aufwärmphase zu benötigen.
Die Autoren zeigen empirisch und theoretisch, dass der Odds Ratio eine sinnvolle Wahl ist, um bevorzugte und abgelehnte Stile während des SFT über verschiedene Modellgrößen hinweg zu kontrastieren. ORPO übertrifft den Stand der Technik bei Instruktionsfolge-Benchmarks wie AlpacaEval und MT-Bench, indem es Phi-2 (2,7 Mrd.), Llama-2 (7 Mrd.) und Mistral (7 Mrd.) allein mit UltraFeedback feinabstimmt.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jiwoo Hong,N... kl. arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07691.pdfDybere Forespørgsler