Core Concepts
EURUS, eine Reihe von großen Sprachmodellen, die durch die Verwendung von ULTRAINTERACT, einem hochqualitativen Ausrichtungsdatensatz für komplexes Schlussfolgern, und neuartige Belohnungsmodellierungsziele Spitzenergebnisse auf herausfordernden Benchmarks erzielen.
Abstract
Der Artikel stellt EURUS, eine Reihe von großen Sprachmodellen (LLMs), vor, die für komplexes Schlussfolgern optimiert sind. EURUS-Modelle wurden durch Feinabstimmung von Mistral-7B und CodeLLaMA-70B entwickelt und erzielen Spitzenergebnisse auf einer Vielzahl von Benchmarks für Mathematik, Codegenerierung und logisches Schlussfolgern.
Der Schlüssel zum Erfolg von EURUS ist ULTRAINTERACT, ein neu erstellter, großer und hochqualitativer Ausrichtungsdatensatz, der speziell für komplexe Schlussfolgerungsaufgaben entwickelt wurde. ULTRAINTERACT enthält Präferenzbäume mit verschiedenen Planungsstrategien, Interaktionsverläufe über mehrere Runden und paarweise Daten, um das Präferenzlernen zu erleichtern.
Neben der Verwendung von ULTRAINTERACT für überwachtes Feintuning untersucht der Artikel auch verschiedene Präferenzlernalgorithmen wie DPO, KTO und NCA. Die Ergebnisse zeigen, dass KTO und NCA die Leistung in Mathematik und Mehrfachinteraktionen verbessern, während DPO die Leistung beeinträchtigt. Die Analyse deutet darauf hin, dass die absoluten Belohnungswerte eine wichtige Rolle für die Schlussfolgerungsfähigkeit spielen.
Basierend auf diesen Erkenntnissen entwickelt der Artikel EURUS-RM-7B, ein leistungsstarkes Belohnungsmodell, das eine bessere Korrelation mit menschlichen Bewertern aufweist als alle anderen Modelle, einschließlich GPT-4. EURUS-RM-7B zeigt besonders starke Leistung bei Schlussfolgerungsaufgaben.
Stats
Die Gesamtzahl der Anweisungen in ULTRAINTERACT beträgt 85.918, mit insgesamt 219.819 Aktionspaaren.
EURUS-70B erreicht eine Genauigkeit von 33,3% auf LeetCode und 32,6% auf TheoremQA, was eine deutliche Verbesserung gegenüber bestehenden Open-Source-Modellen darstellt.
EURUS-RM-7B übertrifft GPT-4 in bestimmten Aufgaben auf den Belohnungsmodellierungsbenchmarks AutoJ und MT-Bench.
Quotes
"EURUS, eine Reihe von großen Sprachmodellen, die durch die Verwendung von ULTRAINTERACT, einem hochqualitativen Ausrichtungsdatensatz für komplexes Schlussfolgern, und neuartige Belohnungsmodellierungsziele Spitzenergebnisse auf herausfordernden Benchmarks erzielen."
"Die Analyse deutet darauf hin, dass die absoluten Belohnungswerte eine wichtige Rolle für die Schlussfolgerungsfähigkeit spielen."
"EURUS-RM-7B übertrifft GPT-4 in bestimmten Aufgaben auf den Belohnungsmodellierungsbenchmarks AutoJ und MT-Bench."