이 연구는 언어 모델의 성능과 사전 학습 손실 함수의 관계를 분석한다. 주요 내용은 다음과 같다:
다양한 크기의 언어 모델을 사전 학습하고, 12개의 다양한 과제에 대한 성능을 측정했다. 그 결과 모델 크기나 학습 데이터 양보다는 사전 학습 손실 함수가 언어 모델의 성능을 더 잘 예측할 수 있음을 확인했다.
일부 과제에서는 사전 학습 손실이 특정 임계값 이하로 낮아질 때 성능이 급격히 향상되는 '잠재력 발현' 현상이 관찰되었다. 이는 모델 크기나 학습 데이터 양만으로는 예측할 수 없는 능력의 발현을 의미한다.
이러한 '잠재력 발현' 현상은 연속적인 평가 지표를 사용해도 여전히 관찰되었다. 따라서 이는 단순히 평가 지표의 비선형성 때문이 아니라 모델 학습 과정에서 나타나는 근본적인 변화로 볼 수 있다.
이를 바탕으로 언어 모델의 '잠재력 발현'을 사전 학습 손실 함수 관점에서 새롭게 정의했다. 즉, 특정 임계값 이하의 손실에서만 나타나는 능력을 '잠재력 발현'으로 정의할 수 있다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania