이 연구는 작은 규모의 생성 언어 모델에서도 제로샷 학습 능력이 나타날 수 있는지 탐구했다. 연구진은 36개의 언어 모델을 1백만 개에서 1억 6천5백만 개의 매개변수 범위에서 학습시켰다. 이 모델들은 단순화된 사전 학습 데이터를 사용했다.
연구 결과, 단순화된 데이터로 학습한 작은 모델들이 제로샷 학습 성능에서 훨씬 더 좋은 결과를 보였다. 이는 모델 크기보다는 학습 데이터의 복잡도가 제로샷 학습 능력 발현에 더 중요한 요인임을 시사한다.
또한 단순화된 데이터로 학습한 작은 모델들은 계산량, 데이터 크기, 모델 크기와 평가 손실 간에 거듭제곱 관계를 보였다. 이는 작은 모델에서도 이러한 관계가 성립함을 보여준다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania