本研究では、言語エージェントの社会的知能を客観的に評価するためのベンチマーク「Social Tasks in Sandbox Simulation (STSS)」を提案している。
STSS ベンチマークは以下の特徴を持つ:
5つのタイプの社会的タスクを設計し、シミュレーション内での行動レベルの目標達成度を指標として評価する。タスクには公共イベントの開催、予約の設定、仲間の招待、オンラインアクティビティ、助けの要請などが含まれる。
言語レベルの補完的なベンチマークも構築し、会話シナリオを用いて評価を行う。これにより、経済的に効率的な初期評価が可能となる。
言語モデルだけでなく、言語エージェントの設計アーキテクチャの重要性も検証するため、ターゲット指向の計画モジュールを提案し、その効果を評価する。
実験の結果、STSS ベンチマークは現状の最先端の言語モデルにとって依然として挑戦的であり、言語レベルと行動レベルの評価に差異があることが示された。また、適切なエージェントアーキテクチャの設計が社会的知能の向上に重要であることが明らかになった。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chenxu Wang,... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05337.pdfDeeper Inquiries