Die Studie präsentiert einen neuartigen interaktiven Benchmark namens LatEval, der die Fähigkeit zum lateralen Denken von Großen Sprachmodellen bewertet. Der Benchmark basiert auf dem Konzept der Lateral-Thinking-Rätsel, bei denen ein Spieler (das zu bewertende Modell) Fragen an einen Gastgeber (ein leistungsfähiges Sprachmodell wie GPT-4) stellt, um schrittweise die Wahrheit zu entdecken.
Der Benchmark umfasst über 2.000 Proben in Englisch und Chinesisch, die sorgfältig gefiltert und annotiert wurden. Die Bewertung erfolgt anhand von vier Metriken: Fragenrelevanz, Fragendiversität, Antwortkonformität und durchschnittliche Fragenzahl.
Die Ergebnisse zeigen, dass die meisten Sprachmodelle nur eine sehr geringe Fähigkeit zum lateralen Denken während der Interaktion aufweisen. Selbst das leistungsfähigste Modell, GPT-4, hat Schwierigkeiten, gute Ergebnisse zu erzielen, und für die meisten Open-Source-Modelle ist die Bewältigung dieser Aufgabe sehr schwierig. Dies unterstreicht die Herausforderung des LatEval-Benchmarks und seine Fähigkeit, die Leistung von Sprachmodellen zu unterscheiden.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Shulin Huang... kl. arxiv.org 03-19-2024
https://arxiv.org/pdf/2308.10855.pdfDybere Forespørgsler