Core Concepts
확산 모델의 학습 동역학에서 발생하는 다양한 불균형을 체계적으로 해결하여 이미지 생성 성능을 크게 향상시켰다.
Abstract
이 논문은 확산 모델의 학습 동역학에서 발생하는 문제점들을 체계적으로 분석하고 해결하는 방법을 제안한다.
먼저 활성화 함수, 가중치, 업데이트 크기 등의 불균형을 관찰하고, 이를 해결하기 위해 다음과 같은 방법을 제안했다:
가중치 정규화를 통해 활성화 함수 크기를 일정하게 유지
가중치 벡터 정규화와 학습률 감소 스케줄링으로 가중치와 업데이트 크기 균형화
그룹 정규화 레이어 제거 및 픽셀 정규화 도입
이러한 개선을 통해 ImageNet-512 데이터셋에서 이전 최고 기록을 크게 개선한 FID 1.81을 달성했다. 또한 모델 복잡도 대비 성능이 크게 향상되었다.
추가로, 학습 중 저장된 가중치 스냅샷을 활용하여 사후적으로 지수 이동 평균(EMA) 프로파일을 최적화하는 방법을 제안했다. 이를 통해 EMA 하이퍼파라미터 튜닝 비용을 크게 줄일 수 있었다.
Stats
제안한 방법으로 ImageNet-512 데이터셋에서 이전 최고 기록 FID 2.41을 1.81로 개선했다.
모델 복잡도 대비 성능이 크게 향상되어, 기존 최고 모델 대비 5배 작은 모델로 동등한 성능을 달성했다.
Quotes
"확산 모델의 학습 동역학은 여전히 도전적인 문제이며, 작은 실수가 연쇄적으로 누적되어 최종 이미지 품질에 큰 영향을 미칠 수 있다."
"네트워크는 다양한 노이즈 수준, 가우시안 노이즈 실현, 그리고 입력 조건에 걸쳐 평균 깨끗한 이미지를 정확하게 추정해야 한다. 이는 무작위화된 훈련 신호로 인해 어려운 과제이다."