Core Concepts
Aktuelle große Sprachmodelle besitzen zwar grundlegende Fähigkeiten zum logischen Schlussfolgern, hinken aber im Bereich der logischen Kohärenz, Kompositionalität und Produktivität im Vergleich zum menschlichen Denken deutlich hinterher.
Abstract
Die Studie untersucht die Fähigkeiten großer Sprachmodelle zum logischen Schlussfolgern anhand des Abstraction and Reasoning Corpus (ARC) aus drei Perspektiven der Sprachtheorie des Denkens (Language of Thought Hypothesis, LoTH):
Logische Kohärenz: Durch den Einsatz verschiedener Prompting-Techniken wie Chain of Thought, Least to Most und Tree of Thought wurde festgestellt, dass große Sprachmodelle zwar grundlegende logische Fähigkeiten besitzen, aber im Vergleich zum menschlichen Denken deutliche Schwächen in Bezug auf logische Konsistenz aufweisen. Sie können logische Regeln nicht durchgängig und korrekt anwenden.
Kompositionalität: Große Sprachmodelle verstehen die Funktionalität einzelner Operationen (Domain-Specific Languages) gut, haben aber Schwierigkeiten, diese Operationen sinnvoll zu kombinieren, um komplexe ARC-Aufgaben zu lösen. Sie zeigen eine Tendenz, dieselben Operationen wiederholt anzuwenden, anstatt die richtige Kombination zu finden.
Produktivität: Bei der Generierung neuer Beispiele für ARC-Aufgaben basierend auf abstrakten Regeln zeigen große Sprachmodelle Schwächen. Sie können zwar die Beziehung zwischen Beispielen und Regeln erkennen, haben aber Probleme, daraus eigenständig neue, gültige Beispiele zu erzeugen.
Insgesamt verdeutlichen die Ergebnisse, dass aktuelle große Sprachmodelle im Vergleich zum menschlichen Denken noch erhebliche Defizite in Bezug auf logisches Schlussfolgern aufweisen. Die Studie bietet Ansatzpunkte, um die Entwicklung von Sprachmodellen mit menschenähnlichen Schlussfolgerungsfähigkeiten voranzubringen.
Stats
"Aktuelle große Sprachmodelle erreichen nur eine Genauigkeit von etwa 10% bei ARC-Aufgaben, während der Durchschnitt der Menschen bei etwa 80% liegt."
"Die besten KI-Modelle haben bisher nur eine Genauigkeit von maximal 31% bei ARC-Aufgaben erreicht."
Quotes
"Aktuelle Methoden zur Bewertung der Schlussfolgerungsfähigkeiten großer Sprachmodelle waren ergebnisorientiert, was eine Beurteilung des Schlussfolgerungsprozesses erschwert."
"ARC erfordert eine hohe Abstraktionsleistung und mehrere Schlussfolgerungsschritte, weshalb herkömmliche Deep-Learning-Techniken bisher keinen Erfolg hatten."