이 연구는 작은 규모의 생성 언어 모델에서도 제로샷 학습 능력이 나타날 수 있는지 탐구했다. 연구진은 36개의 언어 모델을 1백만 개에서 1억 6천5백만 개의 매개변수 범위에서 학습시켰다. 이 모델들은 단순화된 사전 학습 데이터를 사용했다.
연구 결과, 단순화된 데이터로 학습한 작은 모델들이 제로샷 학습 성능에서 훨씬 더 좋은 결과를 보였다. 이는 모델 크기보다는 학습 데이터의 복잡도가 제로샷 학습 능력 발현에 더 중요한 요인임을 시사한다.
또한 단순화된 데이터로 학습한 작은 모델들은 계산량, 데이터 크기, 모델 크기와 평가 손실 간에 거듭제곱 관계를 보였다. 이는 작은 모델에서도 이러한 관계가 성립함을 보여준다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询