Core Concepts
영어에서 품사 전환(파생 변환)은 매우 일반적이지만, 언어 모델이 이러한 유형의 일반화를 얼마나 잘 포착하는지에 대해서는 거의 연구된 바가 없다. 이 연구는 다섯 개의 대규모 언어 모델이 비전형적 품사 사용에 대해 어떤 성능을 보이는지 평가한다.
Abstract
이 연구는 영어의 품사 전환(파생 변환) 현상을 처음으로 계산적으로 모델링하고자 한다. 연구진은 자연어 추론 패러다임 내에서 품사 전환 능력을 테스트하는 과제를 설계했다. 두 개의 독점 모델(GPT-3.5, GPT-4)과 세 개의 오픈 소스 모델(Mistral 7B, Falcon 40B, Llama 2 70B)을 대상으로 실험을 진행했다.
실험 결과, GPT-4가 전반적으로 가장 우수한 성능을 보였다. 그러나 모델 크기만으로는 성능 차이를 설명할 수 없었다. 오히려 일반적인 자연어 추론 과제에서의 성능이 품사 전환 과제 수행에 더 큰 영향을 미치는 것으로 나타났다.
연구진은 이 실험 방법론을 더 확장하여 다양한 모델을 체계적으로 평가하고자 한다. 또한 모델이 학습한 단어와 문맥을 정확히 파악할 수 있는 최신 오픈 모델을 활용하여, 모델이 기존 어휘를 새로운 문맥에 일반화하는지 또는 단순히 학습 데이터를 반복하는지를 명확히 밝히고자 한다.
Stats
영어에서는 품사 전환(파생 변환)이 매우 일반적이며, 심지어 "I like to verb words"와 같이 대중문화에서도 언급될 정도이다.
연구진은 3,069개의 프롬프트를 만들어 다섯 개의 언어 모델에 제시했다.
GPT-4는 대부분의 범주에서 거의 완벽한 성능을 보였지만, 자동사 프레임에서는 Mistral 7B보다 성능이 낮았다.
GPT-3.5는 GPT-4보다 일관적으로 성능이 낮았지만, 오픈 소스 모델들보다는 우수했다.
Falcon 40B는 전형적 조건에서 다른 오픈 소스 모델들보다 나은 성능을 보였지만, 질량명사 프레임에서는 대부분 비순차적인 응답을 생성했다.
Mistral 7B는 전반적으로 약한 성능을 보였지만, 비전형적 조건에서 null 응답을 제외하면 다른 오픈 소스 모델들보다 더 큰 유연성을 보였다.