이 논문은 Kaplan과 Chinchilla 연구에서 보고된 대규모 언어 모델의 규모 확장 법칙 간 차이를 해소하고자 한다.
Kaplan 연구에서는 모델 파라미터 수(N)와 학습 토큰 수(D)의 최적 조합이 계산 예산(C)에 따라 N_optimal ∝ C^0.73, D_optimal ∝ C^0.27로 나타났다. 반면 Chinchilla 연구에서는 N_optimal ∝ C^0.50, D_optimal ∝ C^0.50로 보고되었다.
이 차이의 주된 원인은 Kaplan이 임베딩 파라미터를 제외한 비임베딩 파라미터만을 고려했으며, 상대적으로 작은 규모의 모델을 사용했기 때문인 것으로 분석되었다.
저자들은 Chinchilla 연구의 데이터와 모델을 활용하여, 비임베딩 파라미터와 계산 예산의 관계를 분석했다. 이를 통해 Kaplan 연구와 유사한 규모 확장 계수인 N_optimal ∝ C^0.74~0.78을 도출할 수 있었다.
또한 계산 예산과 최적 손실 간 관계에 대해서도 유사한 분석을 수행하여, Kaplan 연구의 결과를 설명할 수 있었다.
이 연구 결과는 향후 규모 확장 연구에서 총 파라미터와 계산 예산을 사용하고, 손실-계산 관계에 오프셋을 포함하는 것이 중요함을 시사한다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies