Die Studie untersucht die Fähigkeiten großer Sprachmodelle zum logischen Schlussfolgern anhand des Abstraction and Reasoning Corpus (ARC) aus drei Perspektiven der Sprachtheorie des Denkens (Language of Thought Hypothesis, LoTH):
Logische Kohärenz: Durch den Einsatz verschiedener Prompting-Techniken wie Chain of Thought, Least to Most und Tree of Thought wurde festgestellt, dass große Sprachmodelle zwar grundlegende logische Fähigkeiten besitzen, aber im Vergleich zum menschlichen Denken deutliche Schwächen in Bezug auf logische Konsistenz aufweisen. Sie können logische Regeln nicht durchgängig und korrekt anwenden.
Kompositionalität: Große Sprachmodelle verstehen die Funktionalität einzelner Operationen (Domain-Specific Languages) gut, haben aber Schwierigkeiten, diese Operationen sinnvoll zu kombinieren, um komplexe ARC-Aufgaben zu lösen. Sie zeigen eine Tendenz, dieselben Operationen wiederholt anzuwenden, anstatt die richtige Kombination zu finden.
Produktivität: Bei der Generierung neuer Beispiele für ARC-Aufgaben basierend auf abstrakten Regeln zeigen große Sprachmodelle Schwächen. Sie können zwar die Beziehung zwischen Beispielen und Regeln erkennen, haben aber Probleme, daraus eigenständig neue, gültige Beispiele zu erzeugen.
Insgesamt verdeutlichen die Ergebnisse, dass aktuelle große Sprachmodelle im Vergleich zum menschlichen Denken noch erhebliche Defizite in Bezug auf logisches Schlussfolgern aufweisen. Die Studie bietet Ansatzpunkte, um die Entwicklung von Sprachmodellen mit menschenähnlichen Schlussfolgerungsfähigkeiten voranzubringen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문