Core Concepts
대규모 언어 모델은 반사실적 과제에서도 유추 추론 능력을 보여주며, 이는 단순히 학습 데이터와의 유사성에 기반한 것이 아님을 시사한다.
Abstract
이 연구는 대규모 언어 모델이 다양한 문자열 유추 문제를 제로샷 방식으로 해결할 수 있다는 증거를 제시했다. 이는 언어 모델에 유추 추론 능력이 발현되고 있음을 보여준다.
최근 연구에서는 알파벳 순서가 임의로 변경된 반사실적 과제에서 언어 모델의 성능이 저하되는 것으로 나타났다. 이에 대해 저자들은 다음과 같은 대안적 해석을 제시한다:
이러한 과제는 문자열 내 위치를 정확히 세는 능력을 요구하는데, 언어 모델이 이에 어려움을 겪는 것일 수 있다. 실제로 언어 모델은 세기 능력이 제한적인 것으로 알려져 있다.
저자들은 코드 실행 기능이 추가된 GPT-4 모델을 평가했는데, 이 모델은 반사실적 과제에서 인간 수준의 성능을 보였다. 이는 언어 모델의 유추 추론 능력 자체가 제한적이지 않음을 시사한다.
언어 모델의 성능 저하는 세기와 같은 특정 하위 과정의 어려움에 기인할 수 있으며, 이는 유추 추론 능력 자체와는 구분되어야 한다. 인간 역시 특정 영역에서의 전문성에 따라 유추 추론 능력이 크게 달라지는 것을 고려할 때, 언어 모델의 성능 평가 시 이러한 보조 과제 요구사항의 영향을 배제해야 한다.
결과적으로 이 연구는 대규모 언어 모델에 발현되는 유추 추론 능력이 단순히 학습 데이터와의 유사성에 기반한 것이 아니며, 내부 메커니즘에 대한 추가 연구가 필요함을 시사한다.
Stats
알파벳 순서가 임의로 변경된 문자열 유추 과제에서 GPT-4 모델은 코드 실행 기능이 추가되면 인간 수준의 성능을 보였다.
GPT-4 모델의 오답 중 40%는 유효한 대안 규칙에 기반한 것으로, 이는 인간 참여자의 오답 비율과 유사하다.
Quotes
"이러한 결과는 이 특정 문제를 해결하지 못하는 것이 일반적인 유추 추론 능력의 부족이 아니라, 세기와 같은 특정 하위 과정의 어려움에 기인할 수 있음을 시사한다."
"인간 참여자 역시 자신의 전문성에 따라 특정 영역에서 유추 추론 능력이 크게 달라지는 것을 고려할 때, 언어 모델의 성능 평가 시 이러한 보조 과제 요구사항의 영향을 배제해야 한다."