本研究では、大規模言語モデルが人間のような戦略的な好みを学習しているかを評価しました。
まず、明示的な戦略の価値が与えられた場合に、言語モデルが価値ベースの好みを示すかを調べました。その結果、Solar や Mistral などの一部の言語モデルは、人間と同様の安定した価値ベースの好みを示すことがわかりました。一方で、小規模なモデルは表面的なヒューリスティックに基づいて好みを示す傾向がありました。
次に、これらの価値ベースの好みを持つ言語モデルを、囚人のジレンマやトラベラーのジレンマなどの戦略的シナリオに投入しました。その結果、Solar と Mistral は人間のような好みの傾向を示し、賭け金の大きさや罰金の大きさの影響にも敏感であることがわかりました。一方で、他のモデルはそうした人間的な好みを示さなかったり、脆弱性が高かったりしました。
以上の結果から、大規模言語モデルの中には人間のような安定した戦略的好みを学習しているものがあり、人間との協調的なタスクに活用できる可能性が示唆されました。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jesse Robert... kl. arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08710.pdfDybere Forespørgsler