Centrala begrepp
합성 데이터로만 학습하면 언어 모델의 성능이 점점 악화되어 결국 붕괴에 이르지만, 실제 데이터와 합성 데이터를 적절히 혼합하여 학습하면 붕괴를 방지할 수 있다.
Sammanfattning
이 논문은 언어 모델의 성능 악화 현상인 "모델 붕괴"를 이해하기 위한 통계적 모델을 제시한다.
- 완전 합성 데이터 학습 시나리오:
- 이전 세대 모델에서 생성한 합성 데이터만으로 학습
- 모델 붕괴는 피할 수 없으며, 붕괴 속도는 세대 수와 합성 데이터 크기에 따라 달라짐
- 부분 합성 데이터 학습 시나리오:
- 실제 데이터와 이전 세대 모델의 합성 데이터를 혼합하여 학습
- 합성 데이터의 양을 적절히 제한하면 모델 붕괴를 방지할 수 있음
- 합성 데이터 크기와 실제 데이터 크기의 비율이 중요
논문은 이론적 분석과 실험을 통해 이러한 결과를 뒷받침한다. 특히 완전 합성 데이터 학습 시 모델 분포가 디락 분포로 수렴하는 "완전 붕괴"를 보여주고, 부분 합성 데이터 학습 시 실제 데이터와의 분포 차이를 정량화한다.
Statistik
합성 데이터만으로 학습할 경우 모델 분포 σm이 1에 수렴한다.
실제 데이터와 합성 데이터를 혼합하여 학습할 경우, 실제 데이터 크기 N과 합성 데이터 크기 n의 비율에 따라 모델 분포 σm이 결정된다.
Citat
"합성 데이터로만 학습하면 모델 붕괴는 피할 수 없다."
"실제 데이터와 합성 데이터를 혼합하여 학습할 때, 합성 데이터의 양을 적절히 제한하면 모델 붕괴를 방지할 수 있다."