言語エージェントの社会的知能を客観的に評価するためのベンチマーク「Social Tasks in Sandbox Simulation (STSS)」を提案する。シミュレーション内での行動レベルの目標達成度を指標とし、言語レベルの補完的なベンチマークも併せて構築する。