Core Concepts
GPT-4, ein führendes multimodales Sprachmodell, zeigt eine unzureichende Repräsentation verschiedener geografischer Merkmalstypen sowohl auf globaler als auch auf lokaler Ebene.
Abstract
Die Studie untersucht die geografische Diversität von GPT-4, einem führenden multimodalen Sprachmodell, anhand eines natürlichsprachlichen Geo-Ratespiels. Dafür wird GPT-4 gebeten, in Textabstrakten aus DBpedia die erwähnten geografischen Merkmale zu benennen.
Die Ergebnisse zeigen, dass GPT-4 möglicherweise nicht ausreichend geografisches Wissen über verschiedene Merkmalstypen wie Täler, Buchten, Meere und Welterbestätten auf globaler Ebene enkodiert hat. Auf lokaler Ebene, am Beispiel von Welterbestätten, beobachten die Autoren nicht nur diese Unzulänglichkeit, sondern auch regionale Disparitäten in der Geo-Rateleistung von GPT-4. Interessanterweise werden diese regionalen Unterschiede geringer, je größer der geografische Maßstab ist. Darüber hinaus zeigt sich, dass die multimodale Variante von GPT-4 sogar noch weniger geografisches Wissen zu enkodieren scheint als die unimodale Version.
Die Autoren diskutieren mögliche Gründe für die schwache Leistung von GPT-4 in diesem Experiment, wie Datenkompression, Widersprüche in den Trainingsdaten und die Tendenz von Sprachmodellen, andere genannte Entitäten als Antwort zu wiederholen. Als vielversprechenden Ansatz zur Verbesserung der Leistung schlagen sie den Einsatz von retrieval-basierter Generierung unter Verwendung von DBpedia als externer Wissensbasis vor.
Zukünftige Arbeiten sollen eine umfassendere und granularere Analyse geografischer Merkmale auf Basis verschiedener Wissenskorpora und verbesserter Prüftechniken ermöglichen. Dabei könnten auch Aufgaben wie Geoparsing oder visuelle Geo-Ratespiele neue Impulse geben.
Stats
Für die dbo:WorldHeritageSite-Merkmale korrekt erkannt:
gpt-4-1106-preview: 38%
gpt-4-vision-preview: 31%
Für die dbo:Valley-Merkmale korrekt erkannt:
gpt-4-1106-preview: 20%
gpt-4-vision-preview: 27%
Für die dbo:Bay-Merkmale korrekt erkannt:
gpt-4-1106-preview: 55%
gpt-4-vision-preview: 47,5%
Für die dbo:Sea-Merkmale korrekt erkannt:
gpt-4-1106-preview: 51%
gpt-4-vision-preview: 46%
Quotes
Keine relevanten wörtlichen Zitate identifiziert.