핵심 개념
인컨텍스트 학습 능력이 GPT와 같은 인과 언어 모델의 전유물이라는 통념과 달리, 마스크 언어 모델(MLM)인 DeBERTa 또한 추가적인 훈련 없이 인컨텍스트 학습 능력을 보여주며, 특정 작업에서는 GPT-3보다 뛰어난 성능을 보인다.
서지 정보
Samuel, D. (2024). BERTs are Generative In-Context Learners. Advances in Neural Information Processing Systems, 38.
연구 목적
본 연구는 마스크 언어 모델(MLM)이 인컨텍스트 학습 능력을 가질 수 있는지, 그리고 있다면 그 능력이 어느 정도 수준인지 탐구하는 것을 목표로 한다.
방법론
본 연구에서는 공개적으로 사용 가능한 대규모 마스크 언어 모델인 DeBERTa를 활용하여 인컨텍스트 학습 능력을 평가한다. 특히, 추가적인 훈련이나 모델 구조 변경 없이 간단한 추론 기법을 통해 DeBERTa를 생성적 모델로 변환하여 GPT-3와 동일한 평가 벤치마크에서 성능을 비교 분석한다. 텍스트 생성 작업에서는 마스크 토큰을 반복적으로 예측하고 추가하는 방식을 사용하고, 순위 매기기 작업에서는 수정된 PLL(pseudo-log-likelihood) 점수를 사용하여 텍스트 시퀀스의 우도를 기반으로 순위를 매긴다.
주요 결과
DeBERTa는 추가적인 훈련 없이도 인컨텍스트 학습 능력을 보여주었으며, 이는 인컨텍스트 학습 능력이 인과 언어 모델만의 고유한 특징이 아님을 시사한다.
DeBERTa는 언어 이해, 텍스트 완성, 상식 추론과 같은 작업에서 GPT-3와 비슷하거나 더 나은 성능을 보였다.
반면 기계 번역이나 폐쇄형 질문 답변과 같은 작업에서는 GPT-3에 비해 성능이 떨어지는 모습을 보였다.
DeBERTa는 모델 크기가 커짐에 따라 GPT 모델과 유사한 로그 선형 방식으로 성능이 향상되는 것을 확인했다.
결론
본 연구는 MLM 또한 인컨텍스트 학습 능력을 가질 수 있음을 실증적으로 보여주었으며, 이는 MLM이 단순히 텍스트 인코딩에만 국한되는 것이 아니라 텍스트 생성 및 완성도 가능한 다재다능한 모델임을 시사한다. 또한, MLM과 인과 언어 모델의 장점을 결합한 하이브리드 모델 개발을 통해 더욱 강력하고 효율적인 언어 모델을 개발할 수 있을 것으로 예상된다.
의의
본 연구는 인컨텍스트 학습 능력에 대한 기존의 통념에 도전하고, MLM의 잠재력을 재조명함으로써 향후 언어 모델 연구의 방향성을 제시한다. 특히 MLM과 인과 언어 모델의 장점을 결합한 새로운 모델 아키텍처 및 훈련 방법론 개발에 중요한 시사점을 제공한다.
한계점 및 향후 연구 방향
DeBERTa는 GPT-3보다 상대적으로 작고 깨끗한 텍스트 코퍼스에서 훈련되었기 때문에, 더 크고 다양한 데이터셋을 활용한 훈련을 통해 성능 향상을 기대할 수 있다.
본 연구에서는 DeBERTa에 초점을 맞추었지만, 다른 MLM 아키텍처에서도 유사한 인컨텍스트 학습 능력이 나타나는지 확인하기 위한 추가 연구가 필요하다.
MLM과 인과 언어 모델의 장점을 결합한 하이브리드 모델 개발을 통해 각 모델의 단점을 보완하고 장점을 극대화하는 연구가 필요하다.
통계
DeBERTa는 15억 개의 매개변수를 가진 가장 큰 공개적으로 사용 가능한 영어 마스크 언어 모델이다.
DeBERTa는 GPT-3보다 훨씬 작은 훈련 코퍼스(78GB)를 사용했지만, GPT-3보다 세 배 이상 많은 토큰(1조 개)으로 훈련되었다.
DeBERTa는 최대 512개 토큰의 상대적으로 짧은 최대 시퀀스 길이로 훈련되었지만, 로그 버킷이 있는 상대적 위치 임베딩을 사용하기 때문에 훈련 중에 본 것보다 훨씬 더 긴 시퀀스를 쉽게 처리할 수 있다.
15억 개의 매개변수를 가진 DeBERTa의 평균 성능은 가장 큰 1,750억 개의 GPT-3(68.4 대 68.9, 1-shot)의 보고된 성능에 근접한다.
DeBERTa의 평균 few-shot 성능은 미세 조정된 BERT-large보다 약간 낫다.