Die Studie untersucht die Entscheidungsfindungsfähigkeiten von Großen Sprachmodellen (LLMs) durch die Linse der Spieltheorie. Es wird ein Framework namens γ-Bench vorgestellt, das acht klassische Mehrspieler-Spiele umfasst, die in drei Kategorien eingeteilt sind: Kooperative Spiele, Verratsspiele und Sequenzielle Spiele.
In Experimenten mit dem gpt-3.5-turbo-0125-Modell zeigen sich folgende Erkenntnisse:
Kooperative Spiele: Das Modell trifft zunächst suboptimale Entscheidungen, kann aber im Laufe der Zeit aus historischen Daten lernen und seine Leistung verbessern. Es zeigt die Fähigkeit zu spontaner Kooperation, um das Gemeinwohl über reine Eigeninteressen zu stellen.
Verratsspiele: Das Modell neigt dazu, das Gemeinwohl zugunsten des Eigeninteresses zu opfern, zeigt aber auch Anzeichen von Lernfähigkeit über mehrere Runden hinweg.
Sequenzielle Spiele: Das Modell zeigt Einschränkungen bei Spielen mit komplizierteren Regeln und sequenziellen Entscheidungsprozessen.
Insgesamt erzielt das gpt-3.5-turbo-0125-Modell einen Gesamtscore von 68,8 auf dem γ-Bench-Framework. Weitere Experimente zeigen, dass die Leistung durch Strategien wie Chain-of-Thought-Prompting und Rollenverteilung verbessert werden kann.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Jen-tse Huan... a las arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11807.pdfConsultas más profundas