Core Concepts
생성 데이터로 학습하면 모델이 원래 데이터 분포의 중요한 정보를 점점 잃게 되는 현상이 발생한다.
Abstract
이 논문은 생성 데이터로 학습하면 모델이 원래 데이터 분포의 중요한 정보를 점점 잃게 되는 현상, 즉 '모델 붕괴'에 대해 다룬다.
먼저 모델 붕괴의 두 가지 주요 원인을 설명한다. 첫째는 통계적 근사 오차로, 유한한 샘플 수로 인해 발생하는 오차이다. 둘째는 함수 근사 오차로, 모델의 표현력이 부족해 발생하는 오차이다. 이 두 오차가 세대를 거치며 누적되어 모델 붕괴가 발생한다.
이를 증명하기 위해 이산 분포와 단일 차원 가우시안 분포에 대한 수학적 모델을 제시한다. 이를 통해 모델 붕괴가 필연적으로 발생함을 보인다. 또한 가우시안 혼합 모델(GMM)과 변분 오토인코더(VAE)에 대한 실험 결과를 제시하여 모델 붕괴 현상을 확인한다.
마지막으로 언어 모델에 대한 실험을 통해 미세 조정 과정에서도 모델 붕괴가 발생함을 보인다. 이는 생성 데이터로 학습하면 모델이 원래 데이터 분포를 잘못 인식하게 되는 문제가 있음을 시사한다.
Stats
모델 붕괴로 인해 원래 데이터 분포의 꼬리 부분이 점점 사라지게 된다.
모델 붕괴가 진행될수록 모델의 분산이 점점 작아지며 단일 점 추정치에 수렴하게 된다.
Quotes
"모델 붕괴는 생성 모델의 세대 간 학습 과정에서 발생하는 퇴행적 현상으로, 생성 데이터가 다음 세대 모델의 학습 데이터를 오염시켜 현실을 잘못 인식하게 만드는 것을 말한다."
"모델 붕괴는 통계적 근사 오차와 함수 근사 오차의 두 가지 주요 원인으로 인해 발생하며, 이 두 오차가 세대를 거치며 누적되어 나타난다."