Kernekoncepter
작은 규모의 생성 언어 모델도 언어 복잡도를 낮추면 제로샷 학습 능력을 발휘할 수 있다.
Resumé
이 연구는 작은 규모의 생성 언어 모델에서도 제로샷 학습 능력이 나타날 수 있는지 탐구했다. 연구진은 36개의 언어 모델을 1백만 개에서 1억 6천5백만 개의 매개변수 범위에서 학습시켰다. 이 모델들은 단순화된 사전 학습 데이터를 사용했다.
연구 결과, 단순화된 데이터로 학습한 작은 모델들이 제로샷 학습 성능에서 훨씬 더 좋은 결과를 보였다. 이는 모델 크기보다는 학습 데이터의 복잡도가 제로샷 학습 능력 발현에 더 중요한 요인임을 시사한다.
또한 단순화된 데이터로 학습한 작은 모델들은 계산량, 데이터 크기, 모델 크기와 평가 손실 간에 거듭제곱 관계를 보였다. 이는 작은 모델에서도 이러한 관계가 성립함을 보여준다.
Statistik
단순화된 데이터로 학습한 165M 모델의 제로샷 평균 성능은 0.64로, 10억 개 매개변수의 Pythia 1B 모델의 0.61보다 높았다.
단순화된 데이터로 학습한 100M 모델의 제로샷 평균 성능은 0.59로, 1.3억 개 매개변수의 OPT 125M 모델의 0.56보다 높았다.
Citater
"작은 모델도 언어 복잡도를 낮추면 제로샷 학습 능력을 발휘할 수 있다."
"모델 크기보다는 학습 데이터의 복잡도가 제로샷 학습 능력 발현에 더 중요한 요인이다."