Grunnleggende konsepter
大規模言語モデルは、環境理解と相手の信念や意図を考慮する理論of Mindの能力が協調ゲームでの成功に重要であることが示された。
Sammendrag
本研究では、大規模言語モデル(LLM)の協調能力を評価・分析するための新しいベンチマークを紹介する。このベンチマークには2つのタスクが含まれている:
エージェント協調:LLMがゲームの参加者として実際に行動し、協調能力を発揮する。4つの純粋協調ゲームを使用し、LLMの総合的な能力を評価する。
協調QA:LLMに協調ゲームのエッジケースに関する198の多肢選択問題に答えさせることで、環境理解、理論of Mind推論、共同計画の3つの認知的側面を個別に分析する。
実験の結果、LLMは環境理解能力が高く、単純な協調ゲームでは強いパフォーマンスを示した。しかし、相手の信念や意図を考慮する理論of Mind推論と共同計画の能力は限定的であることが明らかになった。この2つの能力が協調ゲームでの成功に重要であることが示唆された。
Statistikk
私は onion を持っています。Bobは何も持っていません。
o0まで0ユニット離れています。