核心概念
생성 모델을 자체 생성 데이터로 반복 재학습하는 경우, 실제 데이터와 충분한 비율로 혼합하여 재학습하면 안정적인 성능을 유지할 수 있다.
要約
이 논문은 생성 모델을 자체 생성 데이터로 반복 재학습하는 경우의 안정성을 이론적으로 분석하고 실험적으로 검증한다.
- 이론적 분석:
- 최대 우도 기반 생성 모델의 반복 재학습 과정을 수학적으로 모델링
- 초기 생성 모델이 실제 데이터 분포를 잘 근사하고, 실제 데이터의 비율이 충분히 크다면 반복 재학습이 안정적임을 증명 (정리 1, 2)
- 실제 데이터 비율이 낮으면 생성 모델이 붕괴될 수 있음을 보임 (명제 1)
- 실험 결과:
- CIFAR10, FFHQ 데이터셋에서 다양한 생성 모델(OTCFM, DDPM, EDM)을 이용해 실험
- 실제 데이터와 충분히 혼합하여 재학습하면 성능이 안정적으로 유지되지만, 자체 생성 데이터만으로 재학습하면 성능이 붕괴됨
統計
생성 모델을 자체 데이터로만 반복 재학습하면 분산이 선형적으로 0으로 수렴한다. (명제 1)
실제 데이터와 충분히 혼합하여 재학습하면 생성 모델 파라미터가 최적 모델 근처에 안정적으로 수렴한다. (정리 1, 2)
引用
"Deep generative models have made tremendous progress in modeling complex data, often exhibiting generation quality that surpasses a typical human's ability to discern the authenticity of samples."
"Due to these models' striking performance and ease of availability, the web will inevitably be increasingly populated with synthetic content."