이 연구는 대형 언어 모델(LLM)과 사람들의 시각적 유추 해결 능력을 비교했다. 연구진은 ARC(Abstraction Reasoning Corpus) 기반의 간단한 시각적 유추 문제 세트를 만들어 어린이와 성인, 그리고 다양한 LLM에게 제시했다.
결과에 따르면 어린이와 성인은 대부분의 LLM보다 이 과제를 더 잘 해결했다. 오류 분석을 통해 LLM과 어린 아동에게서 유사한 "대체" 전략이 나타났는데, 이는 유추의 일부를 단순히 복사하는 것이다. 또한 두 가지 다른 오류 유형이 발견되었는데, 하나는 핵심 개념(예: 안쪽-바깥쪽)을 파악한 것 같지만 적용에 실수가 있는 경우이고, 다른 하나는 유추 입력 행렬의 단순한 조합에 기반한 경우이다.
전반적으로 "개념" 오류는 사람들에게서 더 많이 나타났고, "행렬" 오류는 LLM에게서 더 많이 나타났다. 이 연구는 LLM의 추론 능력과 오류 분석, 그리고 인간 발달과의 비교를 통해 LLM이 시각적 유추를 어떻게 해결하는지에 대한 새로운 통찰을 제공한다.
To Another Language
from source content
arxiv.org
Глибші Запити