Core Concepts
Große Sprachmodelle können implizit räumliche Strukturen erfassen, zeigen aber Verbesserungspotenzial.
Abstract
Das Paper untersucht die Fähigkeit von Sprachmodellen, räumliche Strukturen zu verstehen, mit Fokus auf GPT-3.5-turbo, GPT-4 und Llama2-Modelle. Es werden verschiedene räumliche Strukturen wie Quadrate, Hexagone und Dreiecke untersucht. Fehleranalysen zeigen, dass Modelle sowohl räumliche als auch nicht-räumliche Faktoren berücksichtigen. Menschliche Teilnehmer übertreffen die Modelle in der räumlichen Aufgabenbewältigung.
Stats
In umfangreichen Fehleranalysen finden wir, dass die Fehler der LLMs sowohl räumliche als auch nicht-räumliche Faktoren widerspiegeln.
GPT-4 zeigt eine Genauigkeit von 0,29 im Vergleich zur menschlichen Genauigkeit von 0,67.
Quotes
"LLMs scheinen bestimmte Aspekte räumlicher Strukturen implizit zu erfassen, aber es besteht Verbesserungsbedarf."