Core Concepts
LM2, ein modulares Sprachmodell-Ensemble, koordiniert einen Solver, einen Decomposer und einen Verifier, um komplexe Reasoning-Aufgaben effizient zu lösen.
Abstract
LM2 ist ein neuartiger Ansatz, der drei separate Sprachmodelle - einen Solver, einen Decomposer und einen Verifier - koordiniert, um komplexe Reasoning-Aufgaben zu lösen.
Der Decomposer identifiziert die Schlüsselkonzepte, die zum Lösen des Problems erforderlich sind, und generiert schrittweise Teilfragen entsprechend den Reasoning-Anforderungen. Der Solver-Sprachmodell generiert die Lösungen zu den Teilproblemen, die dann vom Verifier-Sprachmodell überprüft werden. Basierend auf dem Feedback des Verifiers wird der Reasoning-Kontext unter Verwendung der Teilprobleme und Lösungen konstruiert. Diese Modelle werden durch Reinforcement-Learning-basiertes Policy-Training koordiniert.
Umfangreiche Experimente zeigen die Überlegenheit von LM2 gegenüber bestehenden Methoden bei in- und out-of-domain Reasoning-Problemen, mit einer Verbesserung von 8,1% auf MATH, 7,71% auf JEEBench und 9,7% auf MedQA-Problemen.
Stats
Die Seiten eines Dreiecks mit einem Umfang von 60 Einheiten bilden eine arithmetische Folge.
Der gemeinsame Unterschied zwischen den Seitenlängen beträgt d.
Die Seitenlängen des Dreiecks sind a, b und c.
Quotes
"LM2 modularisiert die Dekomposition, Lösung und Verifikation in drei verschiedene Sprachmodelle."
"Im Gegensatz zu früheren Ansätzen generiert der Decomposer in LM2 jede Teilfrage in Abhängigkeit von den Antworten des Solvers auf vorherige Teilfragen sowie dem Feedback des Verifiers zu diesen Antworten."