핵심 개념
언어 모델은 특정 과제에 대한 기본 조건에 과도하게 의존하며, 추상적이고 일반화 가능한 추론 능력이 제한적이다.
초록
이 연구는 언어 모델의 추론 능력을 평가하기 위해 "반사실적" 과제 변형을 제안했다. 기존 과제의 기본 조건에서 벗어난 변형 과제를 통해 모델의 일반화 능력을 측정하고자 했다.
11개의 다양한 과제(산술, 프로그래밍, 논리 추론, 공간 추론, 그리기, 음악, 체스 등)에 대해 실험을 진행했다. 실험 결과, 언어 모델은 대부분의 반사실적 과제에서 기본 과제 대비 성능이 크게 저하되었다. 이는 모델이 과제 해결을 위해 기본 조건에 특화된 비일반화 가능한 방법을 사용하고 있음을 시사한다.
추가 분석을 통해 다음과 같은 발견이 있었다:
- 반사실적 조건의 "일반성"이 높을수록 모델 성능이 더 좋음
- 기본 과제 성능과 반사실적 과제 성능 간 강한 상관관계 존재
- 단계별 추론 프롬프팅이 항상 도움이 되지는 않음
- 데모 예시 추가로도 기본-반사실적 성능 격차를 완전히 해소하기 어려움
이러한 결과는 현재 언어 모델의 추론 능력이 제한적이며, 과제 해결을 위해 기본 조건에 과도하게 의존하고 있음을 시사한다. 언어 모델의 일반화 능력을 향상시키기 위해서는 이러한 한계를 극복할 필요가 있다.
통계
기본 과제 대비 반사실적 과제에서 GPT-4의 성능이 최대 90%p 하락했다.
GPT-4의 기본 과제 성능은 최대 100%였지만, 반사실적 과제에서는 최저 10%까지 떨어졌다.
PaLM-2의 경우 반사실적 과제에서 성능이 기본 과제 대비 최대 60%p 하락했다.
인용구
"언어 모델은 특정 과제에 대한 기본 조건에 과도하게 의존하며, 추상적이고 일반화 가능한 추론 능력이 제한적이다."
"이러한 결과는 현재 언어 모델의 추론 능력이 제한적이며, 과제 해결을 위해 기본 조건에 과도하게 의존하고 있음을 시사한다."