Kernekoncepter
言語モデルのToM能力を評価するための新しいCOMMON-TOMデータセットが導入されました。
Resumé
最近、言語モデル(LMs)の心の理論(ToM)能力を評価することに注目が集まっています。多くの既存のベンチマークは合成データに依存しており、これは結果として実験を人間の行動と一致させるリスクがあります。本稿では、自然発生的な会話に基づいた初めてのToMデータセットであるCOMMON-TOMを紹介し、LMsがToMを示すことに苦労していることを示します。また、信念の単純で明確な表現を統合することで、COMMON-TOM上でのLMsパフォーマンスが向上することを示します。これらの貢献は以下です:(1)合成データを使用してLMsのToM能力について議論することは決定的ではないと主張すること;(2)自然発生的な会話に基づいたToMベンチマーク用コーパスを公開すること;(3)LLMsが当社のベンチマークで苦戦し、単純な明示的アーキテクチャがより良いパフォーマンスを発揮することを示すこと。
Statistik
COMMON-TOMは自然発生的な英語会話に基づく質問応答ベンチマークです。
ToM-bAbiやToMiなど他のベンチマークも作成されています。
GPT-4はゼロショット実験で最高のパフォーマンスを発揮しました。
ReCoGシステムは他のすべてのシステムよりも優れた性能を示しました。
Citater
"Successful human conversation is possible only because participants model each others’ cognitive states (i.e., ToM) and plan utterances based on their intended audience."
"We introduce the first ToM dataset based on naturally occurring spoken dialogs, COMMON-TOM, and show that LMs struggle to demonstrate ToM."
"Our main contributions are: (1) arguing that using synthesized data in arguing about the ToM ability of LMs is not conclusive; (2) releasing a corpus for benchmarking ToM based on naturally occurring spoken conversations; (3) showing that LLMs struggle with our benchmark and a simple explicit architecture performs better."