Referenzfreie monolithische Präferenzoptimierung mit Odds Ratio
Eine einfache und innovative referenzmodellfreie monolithische Odds Ratio Präferenzoptimierungsalgorithmus (ORPO) eliminiert die Notwendigkeit einer zusätzlichen Präferenzausrichtungsphase und übertrifft den Stand der Technik bei Instruktionsfolge-Benchmarks.