Core Concepts
Künstliche Intelligenz in Form von Sprachmodellen kann menschliche Entscheidungsfindung im Kriegsspiel simulieren, zeigt jedoch qualitative Unterschiede.
Abstract
In diesem Artikel wird die Verwendung von großen Sprachmodellen (LLMs) in Wargames untersucht, um das Verhalten von Menschen und simulierten LLMs in einer US-China-Krisensituation zu vergleichen. Es wird festgestellt, dass LLMs und Menschen in ihren Reaktionen übereinstimmen, aber qualitative Unterschiede aufweisen. Die LLMs zeigen Tendenzen zu aggressiverem Verhalten und weisen systematische Abweichungen von menschlichen Spielern auf. Es wird betont, dass LLMs nicht in der Lage sind, Hintergrundattribute und persönliche Präferenzen von Spielern zu berücksichtigen.
Struktur:
Einleitung zu LLMs und Kriegsspielen
Vergleich von LLMs und menschlichen Spielern
Unterschiede zwischen LLMs
Test der Anweisungsbefolgung von LLMs
Qualität der LLM-simulierten Dialoge
Auswirkungen der Dialoglänge auf LLMs
Berücksichtigung von Spielermerkmalen
Stats
"Die LLMs zeigen Tendenzen zu aggressiverem Verhalten."
"GPT-3.5 stimmt in 13 von 21 möglichen Aktionen mit menschlichen Spielern überein."
"GPT-4 bevorzugt defensivere militärische Positionen."
Quotes
"Wir müssen die LLMs verstehen und Vorurteile minimieren, da sie erheblich von menschlicher Entscheidungsfindung abweichen können."