Core Concepts
소규모 언어 모델(SLM)의 성능을 향상시키기 위해 체계적인 하이퍼파라미터 최적화, 효과적인 학습 방법론, 아키텍처 설계 및 고품질 데이터를 활용하여 SLM의 역량을 크게 향상시켰다.
Abstract
이 논문은 소규모 언어 모델(SLM)의 성능 향상을 위한 다양한 기술을 소개한다.
안정화 단계:
하이퍼파라미터 최적화를 위한 모델 풍동 실험 수행
배치 크기 최적화 실험을 통해 배치 크기와 손실 간의 관계 파악
학습률 안정화를 위해 Tensor Program 기법 적용
학습률 스케줄러 개발:
Warmup-Stable-Decay(WSD) 학습률 스케줄러 제안
WSD 스케줄러를 통해 모델 성능이 크게 향상되며, 지속적인 학습이 가능해짐
WSD 스케줄러를 활용하여 데이터-모델 스케일링 법칙 효과적으로 탐구
MiniCPM 모델 소개:
1.2B와 2.4B 비임베딩 파라미터 버전의 MiniCPM 모델 제시
이들 모델은 각각의 규모에서 최고 성능을 보이며, 7B-13B 대형 모델 수준의 성능 달성
MiniCPM 모델군(MiniCPM-DPO, MiniCPM-MoE, MiniCPM-128K) 추가 소개
Stats
모델 크기가 10배 증가해도 최적 학습률은 0.01 근처로 유지된다.
배치 크기와 손실의 관계는 bs = 1.21×109 / L6.24 로 나타난다.
데이터 크기와 모델 크기의 최적 비율은 192:1로, 이는 기존 연구보다 훨씬 높은 수준이다.
Quotes
"소규모 언어 모델(SLM)의 개발은 자원 효율적인 솔루션을 제공하는 한편, 확장 가능한 전략으로 훈련된다면 향후 대형 모델 개발에도 지침이 될 수 있다."
"WSD 스케줄러를 통해 모델 크기와 데이터 크기 간의 최적 비율이 기존 연구보다 훨씬 높은 192:1로 나타났다."