Eine interaktive Benchmark zur Bewertung der lateralen Denkfähigkeit von Großen Sprachmodellen anhand unvollständiger Informationen aus Lateral-Thinking-Rätseln
Große Sprachmodelle zeigen erhebliche Schwierigkeiten beim lateralen Denken während interaktiver Aufgaben. Selbst das leistungsfähigste Modell, GPT-4, hat Probleme, zufriedenstellende Ergebnisse zu erzielen, und für die meisten Open-Source-Modelle ist die bloße Bewältigung dieser Aufgabe sehr schwierig.