무제한 데이터 학습 환경에서 주어진 컴퓨팅 예산 내에서 손실을 최소화하는 최적의 모델 크기와 이에 영향을 미치는 요인을 분석합니다.
데이터 공분산 행렬의 멱 법칙 스펙트럼이 다양한 학습 체계에서 신경망 스케일링 법칙에 미치는 영향을 분석하고, 특히 일반화 오류의 멱 법칙 스케일링 현상을 이론적으로 설명합니다.
신경망 모델의 크기, 학습 시간, 데이터 양에 따른 성능 향상은 일반적으로 잘 정의된 멱함수 관계로 나타낼 수 있다. 이 연구에서는 이러한 신경망 스케일링 법칙을 이해하고 개선하기 위한 이론적 모델을 제안한다. 특히 과제의 난이도에 따라 특징 학습이 스케일링 법칙 지수를 향상시킬 수 있음을 보여준다.
신경망 성능이 학습 시간, 데이터셋 크기, 모델 크기에 따라 예측 가능하게 향상되는 현상인 신경망 스케일링 법칙을 설명하는 동적 모델을 제시한다.