핵심 개념
LLM의 사회적 지능은 학술적 지능과 다르며, 개선이 필요하다.
초록
최근 LLM의 학술적 지능은 발전했지만 사회적 지능은 불분명하다.
사회적 지능을 평가하기 위해 SESI 테스트를 개발하고 13가지 LLM 에이전트에 대해 평가를 실시했다.
LLM의 사회적 지능은 여전히 개선의 여지가 많으며, 주된 오류 원인은 표면적인 친화성이다.
LLM의 사회적 지능은 학술적 지능과 상관성이 낮으며, 사회적 지능은 LLM에게 학술적 지능과 구분되는 것으로 나타났다.
LLM은 사회적 지능을 이해하지 못하며, 사회적 상황에 영향을 받는다.
SESI 벤치마크는 LLM의 사회적 지능을 평가하기 위한 동적이고 포괄적인 벤치마크이다.
통계
최고 성능 모델인 gpt-3.5-turbo-0613은 55.2%의 성능을 달성했다.
SESI 점수와 학술적 지능 사이의 피어슨 상관 계수는 학술적 지능만큼 높지 않다.
인용구
"LLM의 사회적 지능은 학술적 지능과 다르며, 독립적인 조사가 필요하다."
"LLM은 사회적 지능을 이해하지 못하며, 사회적 상황에 영향을 받는다."