이 연구는 언어 모델의 추론 능력을 평가하기 위해 "반사실적" 과제 변형을 제안했다. 기존 과제의 기본 조건에서 벗어난 변형 과제를 통해 모델의 일반화 능력을 측정하고자 했다.
11개의 다양한 과제(산술, 프로그래밍, 논리 추론, 공간 추론, 그리기, 음악, 체스 등)에 대해 실험을 진행했다. 실험 결과, 언어 모델은 대부분의 반사실적 과제에서 기본 과제 대비 성능이 크게 저하되었다. 이는 모델이 과제 해결을 위해 기본 조건에 특화된 비일반화 가능한 방법을 사용하고 있음을 시사한다.
추가 분석을 통해 다음과 같은 발견이 있었다:
이러한 결과는 현재 언어 모델의 추론 능력이 제한적이며, 과제 해결을 위해 기본 조건에 과도하게 의존하고 있음을 시사한다. 언어 모델의 일반화 능력을 향상시키기 위해서는 이러한 한계를 극복할 필요가 있다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések