核心概念
Große Sprachmodelle zeigen zufriedenstellende Robustheit, aber begrenzte Übertragbarkeit in komplexen Entscheidungssituationen. Ihre Leistung kann jedoch durch Ansätze wie Chain-of-Thought verbessert werden.
摘要
Die Studie untersucht die Entscheidungsfindungsfähigkeiten von Großen Sprachmodellen (LLMs) durch die Linse der Spieltheorie. Es wird ein Framework namens γ-Bench vorgestellt, das acht klassische Mehrspieler-Spiele umfasst, die in drei Kategorien eingeteilt sind: Kooperative Spiele, Verratsspiele und Sequenzielle Spiele.
In Experimenten mit dem gpt-3.5-turbo-0125-Modell zeigen sich folgende Erkenntnisse:
-
Kooperative Spiele: Das Modell trifft zunächst suboptimale Entscheidungen, kann aber im Laufe der Zeit aus historischen Daten lernen und seine Leistung verbessern. Es zeigt die Fähigkeit zu spontaner Kooperation, um das Gemeinwohl über reine Eigeninteressen zu stellen.
-
Verratsspiele: Das Modell neigt dazu, das Gemeinwohl zugunsten des Eigeninteresses zu opfern, zeigt aber auch Anzeichen von Lernfähigkeit über mehrere Runden hinweg.
-
Sequenzielle Spiele: Das Modell zeigt Einschränkungen bei Spielen mit komplizierteren Regeln und sequenziellen Entscheidungsprozessen.
Insgesamt erzielt das gpt-3.5-turbo-0125-Modell einen Gesamtscore von 68,8 auf dem γ-Bench-Framework. Weitere Experimente zeigen, dass die Leistung durch Strategien wie Chain-of-Thought-Prompting und Rollenverteilung verbessert werden kann.
統計資料
Der durchschnittlich gewählte Wert in Runde 1 des Spiels "Guess 2/3 of the Average" beträgt 50.
Im Spiel "El Farol Bar" stabilisiert sich die Wahrscheinlichkeit, in die Bar zu gehen, bei etwa 50%.
Im Spiel "Divide the Dollar" schlagen die Spieler häufig Verteilungen vor, die den Nash-Gleichgewicht-Betrag übersteigen.
Im Spiel "Public Goods Game" tragen die Spieler im Durchschnitt etwa die Hälfte ihrer Tokens bei.
Im Spiel "Diner's Dilemma" wählen die Spieler überwiegend das günstigere Gericht.
Im Spiel "Sealed-Bid Auction" bieten die Spieler häufig weniger als ihren tatsächlichen Wert.
Im Spiel "Battle Royale" zielen die Spieler selten auf den Spieler mit der höchsten Trefferquote.
Im Spiel "Pirate Game" schlagen die Spieler oft keine optimalen Verteilungen vor und stimmen auch nicht immer korrekt ab.
引述
"Trotz einer Investitionsrendite von -80% zeigen die Agenten ein Muster des abwechselnden Trittbrettfahrens und Beitragens aller ihrer Tokens."
"Entgegen den NE-Vorhersagen für dieses Spiel bevorzugen die Agenten überwiegend das günstige Gericht, was das gesamte Sozialwohl maximiert."
"Im Gegensatz zu unseren Erwartungen zielen die Agenten nur selten auf den Spieler mit der höchsten Trefferquote."