toplogo
Sign In

Leistungsstarke Open-Source-LLMs für komplexes Schlussfolgern durch Präferenzlernen und Belohnungsmodellierung


Core Concepts
EURUS, eine Reihe von großen Sprachmodellen, die durch die Verwendung von ULTRAINTERACT, einem hochqualitativen Ausrichtungsdatensatz für komplexes Schlussfolgern, und neuartige Belohnungsmodellierungsziele Spitzenergebnisse auf herausfordernden Benchmarks erzielen.
Abstract
Der Artikel stellt EURUS, eine Reihe von großen Sprachmodellen (LLMs), vor, die für komplexes Schlussfolgern optimiert sind. EURUS-Modelle wurden durch Feinabstimmung von Mistral-7B und CodeLLaMA-70B entwickelt und erzielen Spitzenergebnisse auf einer Vielzahl von Benchmarks für Mathematik, Codegenerierung und logisches Schlussfolgern. Der Schlüssel zum Erfolg von EURUS ist ULTRAINTERACT, ein neu erstellter, großer und hochqualitativer Ausrichtungsdatensatz, der speziell für komplexe Schlussfolgerungsaufgaben entwickelt wurde. ULTRAINTERACT enthält Präferenzbäume mit verschiedenen Planungsstrategien, Interaktionsverläufe über mehrere Runden und paarweise Daten, um das Präferenzlernen zu erleichtern. Neben der Verwendung von ULTRAINTERACT für überwachtes Feintuning untersucht der Artikel auch verschiedene Präferenzlernalgorithmen wie DPO, KTO und NCA. Die Ergebnisse zeigen, dass KTO und NCA die Leistung in Mathematik und Mehrfachinteraktionen verbessern, während DPO die Leistung beeinträchtigt. Die Analyse deutet darauf hin, dass die absoluten Belohnungswerte eine wichtige Rolle für die Schlussfolgerungsfähigkeit spielen. Basierend auf diesen Erkenntnissen entwickelt der Artikel EURUS-RM-7B, ein leistungsstarkes Belohnungsmodell, das eine bessere Korrelation mit menschlichen Bewertern aufweist als alle anderen Modelle, einschließlich GPT-4. EURUS-RM-7B zeigt besonders starke Leistung bei Schlussfolgerungsaufgaben.
Stats
Die Gesamtzahl der Anweisungen in ULTRAINTERACT beträgt 85.918, mit insgesamt 219.819 Aktionspaaren. EURUS-70B erreicht eine Genauigkeit von 33,3% auf LeetCode und 32,6% auf TheoremQA, was eine deutliche Verbesserung gegenüber bestehenden Open-Source-Modellen darstellt. EURUS-RM-7B übertrifft GPT-4 in bestimmten Aufgaben auf den Belohnungsmodellierungsbenchmarks AutoJ und MT-Bench.
Quotes
"EURUS, eine Reihe von großen Sprachmodellen, die durch die Verwendung von ULTRAINTERACT, einem hochqualitativen Ausrichtungsdatensatz für komplexes Schlussfolgern, und neuartige Belohnungsmodellierungsziele Spitzenergebnisse auf herausfordernden Benchmarks erzielen." "Die Analyse deutet darauf hin, dass die absoluten Belohnungswerte eine wichtige Rolle für die Schlussfolgerungsfähigkeit spielen." "EURUS-RM-7B übertrifft GPT-4 in bestimmten Aufgaben auf den Belohnungsmodellierungsbenchmarks AutoJ und MT-Bench."

Key Insights Distilled From

by Lifan Yuan,G... at arxiv.org 04-03-2024

https://arxiv.org/pdf/2404.02078.pdf
Advancing LLM Reasoning Generalists with Preference Trees

Deeper Inquiries

Wie könnte man ULTRAINTERACT noch weiter verbessern, um die Leistung von Präferenzlernalgorithmen für komplexe Schlussfolgerungsaufgaben zu steigern?

Um ULTRAINTERACT weiter zu verbessern und die Leistung von Präferenzlernalgorithmen für komplexe Schlussfolgerungsaufgaben zu steigern, könnten folgende Maßnahmen ergriffen werden: Erweiterung der Datenqualität: Durch die Integration von mehr Vielfalt in den Instruktionen und Aktionen sowie die Erhöhung der Anzahl der Paare von korrekten und inkorrekten Aktionen könnte die Datenqualität verbessert werden. Dies würde den Modellen helfen, ein breiteres Verständnis für verschiedene Arten von Schlussfolgerungsaufgaben zu entwickeln. Integration von Feedback-Mechanismen: Die Einbeziehung von Feedback-Mechanismen in ULTRAINTERACT könnte den Modellen helfen, aus ihren Fehlern zu lernen und ihre Leistung kontinuierlich zu verbessern. Dies könnte durch die Integration von zusätzlichen Schritten zur Überprüfung und Anpassung der generierten Aktionen erfolgen. Berücksichtigung von Unsicherheit: Die Einbeziehung von Unsicherheitsmaßen in die Daten von ULTRAINTERACT könnte den Modellen helfen, ihre Entscheidungen besser zu kalibrieren und robustere Schlussfolgerungen zu ziehen. Dies könnte durch die Integration von Wahrscheinlichkeitsverteilungen oder Konfidenzintervallen in die Daten erfolgen.

Wie lassen sich die Erkenntnisse aus diesem Artikel auf andere Anwendungsgebiete von großen Sprachmodellen übertragen, in denen die absolute Bewertung wichtiger sein könnte als die relative Bewertung?

Die Erkenntnisse aus diesem Artikel können auf andere Anwendungsgebiete von großen Sprachmodellen übertragen werden, insbesondere in Bereichen, in denen die absolute Bewertung wichtiger ist als die relative Bewertung, wie beispielsweise in medizinischen Diagnosen oder rechtlichen Analysen. Hier sind einige Möglichkeiten, wie diese Erkenntnisse relevant sein könnten: Medizinische Diagnosen: In der medizinischen Diagnose ist es entscheidend, genaue und zuverlässige Ergebnisse zu erhalten. Durch die Anwendung von Belohnungsmodellierungsansätzen, die die absolute Genauigkeit der Diagnosen maximieren, können große Sprachmodelle dabei unterstützt werden, präzise medizinische Schlussfolgerungen zu ziehen. Rechtliche Analysen: In rechtlichen Analysen ist es wichtig, korrekte Schlussfolgerungen zu ziehen, die auf klaren Fakten und Gesetzen basieren. Durch die Integration von Präferenzlernalgorithmen, die die absolute Richtigkeit von Rechtsinterpretationen maximieren, können große Sprachmodelle dabei unterstützt werden, präzise rechtliche Schlussfolgerungen zu treffen. Finanzanalyse: In der Finanzanalyse ist die genaue Bewertung von Daten und die Ableitung präziser Prognosen von entscheidender Bedeutung. Durch die Anwendung von Präferenzlernalgorithmen, die auf absoluten Bewertungen basieren, können große Sprachmodelle dabei unterstützt werden, genauere Finanzanalysen durchzuführen und fundierte Entscheidungen zu treffen.
0