Die Studie untersucht die Entscheidungsfindungsfähigkeiten von Großen Sprachmodellen (LLMs) durch die Linse der Spieltheorie. Es wird ein Framework namens γ-Bench vorgestellt, das acht klassische Mehrspieler-Spiele umfasst, die in drei Kategorien eingeteilt sind: Kooperative Spiele, Verratsspiele und Sequenzielle Spiele.
In Experimenten mit dem gpt-3.5-turbo-0125-Modell zeigen sich folgende Erkenntnisse:
Kooperative Spiele: Das Modell trifft zunächst suboptimale Entscheidungen, kann aber im Laufe der Zeit aus historischen Daten lernen und seine Leistung verbessern. Es zeigt die Fähigkeit zu spontaner Kooperation, um das Gemeinwohl über reine Eigeninteressen zu stellen.
Verratsspiele: Das Modell neigt dazu, das Gemeinwohl zugunsten des Eigeninteresses zu opfern, zeigt aber auch Anzeichen von Lernfähigkeit über mehrere Runden hinweg.
Sequenzielle Spiele: Das Modell zeigt Einschränkungen bei Spielen mit komplizierteren Regeln und sequenziellen Entscheidungsprozessen.
Insgesamt erzielt das gpt-3.5-turbo-0125-Modell einen Gesamtscore von 68,8 auf dem γ-Bench-Framework. Weitere Experimente zeigen, dass die Leistung durch Strategien wie Chain-of-Thought-Prompting und Rollenverteilung verbessert werden kann.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jen-tse Huan... kl. arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11807.pdfDybere Forespørgsler