Core Concepts
Große Sprachmodelle können komplexe Reasoning-Aufgaben lösen, indem sie eine Struktur aus Vorlage und Inhalt nutzen, die die Lernaufgabe vereinfacht.
Abstract
Der Artikel untersucht, wie vortrainierte Große Sprachmodelle (LLMs) in der Lage sind, komplexe Reasoning-Aufgaben zu lösen, obwohl ihre Trainingsmethode relativ einfach ist.
Der Schlüssel ist eine beobachtete Struktur in der Sprache, die der Autor als "Vorlage-Inhalt-Struktur" (T-C-Struktur) bezeichnet. Dabei besteht eine Antwortsequenz aus einem relativ festen "Vorlagen"-Teil, der die Schritte zum Lösen einer Aufgabe repräsentiert, und einem flexibleren "Inhalts"-Teil, der die spezifischen Details der Aufgabe enthält.
Diese Struktur reduziert den Lernraum für LLMs erheblich, von exponentiell auf linear. Dadurch können LLMs die Schritte zum Lösen einer Aufgabe aus wenigen Beispielen lernen und diese dann auf neue Aufgaben mit demselben Schema übertragen (Within-Task-Generalisierung).
Der Artikel erweitert dieses Konzept zu einer hierarchischen T-C-Struktur, bei der der Inhalt weiter in Untervorlagen und Unterinhalte unterteilt werden kann. Dies ermöglicht es LLMs, komplexe Aufgaben durch Komposition von Teilaufgaben zu lösen, was den Lernraum weiter auf logarithmisch reduziert.
Experimente zeigen, dass leistungsfähige LLMs tatsächlich diese T-C-Struktur in ihrer Ausgabe erkennen lassen und dass das explizite Erlernen dieser Struktur ihre Reasoning-Fähigkeiten verbessert.
Stats
Es gibt 35 Fragen in einem Test.
Für jede richtige Antwort gibt es 6 Punkte und für jede falsche Antwort werden 2 Punkte abgezogen.
Amar hat alle Fragen beantwortet und 178 Punkte erreicht.
Quotes
"Große Sprachmodelle können komplexe Reasoning-Aufgaben lösen, indem sie eine Struktur aus Vorlage und Inhalt nutzen, die die Lernaufgabe vereinfacht."
"Die Trennung in Vorlage und Inhalt ermöglicht es Sprachmodellen, die Schritte zum Lösen einer Aufgabe aus wenigen Beispielen zu lernen und diese dann auf neue Aufgaben mit demselben Schema zu übertragen."
"Die hierarchische T-C-Struktur ermöglicht es Sprachmodellen, komplexe Aufgaben durch Komposition von Teilaufgaben zu lösen, was den Lernraum weiter auf logarithmisch reduziert."