แนวคิดหลัก
언어 모델의 ToM 능력을 평가하기 위한 COMMON-TOM 데이터셋 소개와 결과
สถิติ
많은 기존 벤치마크가 합성 데이터에 의존하고 있어 결과가 인간 행동과 일치하지 않을 위험이 있음.
COMMON-TOM은 자연적 대화를 기반으로 한 첫 번째 ToM 데이터셋을 소개하고 LLMs가 ToM을 보여주기 어려워하는 것을 보여줌.
LLMs가 COMMON-TOM에서 어려움을 겪고 간단하고 명시적인 표현을 통해 성능 향상을 보임.
คำพูด
"Evaluating the theory of mind (ToM) capabilities of language models (LMs) has recently received much attention."
"We introduce the first ToM dataset based on naturally occurring spoken dialogs, COMMON-TOM, and show that LMs struggle to demonstrate ToM."
"Our main contributions are: arguing that using synthesized data in arguing about the ToM ability of LMs is not conclusive."