Theoretische Analyse und Verständnis der Grenzen von Direct Preference Optimization (DPO)
Die DPO-Verlustfunktion verringert die Wahrscheinlichkeit, menschlich unerwünschte Daten zu erzeugen, schneller, als sie die Wahrscheinlichkeit erhöht, bevorzugte Daten zu erzeugen. Dies erklärt theoretisch, warum DPO die Lernfähigkeit von LLMs zur Erzeugung menschlich bevorzugter Antworten beeinträchtigt und warum DPO empfindlich auf die Effektivität des überwachten Feintunings (SFT) ist.