要約
本研究は、3つの大規模言語モデル(Llama2、Llama3、GPT3.5)の協力的行動を、囚人のジレンマゲームを通して調査したものである。
実験では、これらのモデルを様々な敵対性レベルの相手と対戦させ、100ラウンドにわたるゲームを行った。
メタプロンプティング手法を導入し、モデルのゲームルール理解とゲーム履歴の解釈能力を評価した。
行動分析の結果、3つのモデルはいずれも人間よりも協力的な傾向を示した。特にLlama2とGPT3.5は、相手の裏切り率が30%以下の場合に非常に寛容で報復的ではない行動を取った。一方、Llama3は人間に近い戦略的で搾取的な行動を示した。
この系統的なアプローチは、大規模言語モデルの社会的バイアスを調査するための有用なツールとなる可能性がある。
統計
単一ラウンドでプレイヤーAが得られる最低/最高の得点は?
プレイヤーXがp行動を、プレイヤーYがq行動をとった場合のXの得点は?
現在のラウンド数は?
プレイヤーXがラウンドiでとった行動は?
プレイヤーXがラウンドiで獲得した得点は?
プレイヤーXがこれまでに選択したp行動の回数は?
プレイヤーXの現在の合計得点は?