核心概念
잠재 적대적 확산 증류(LADD)는 픽셀 기반 증류의 한계를 극복하고 고해상도 다중 종횡비 이미지 합성을 가능하게 하는 새로운 증류 접근법이다.
要約
이 논문은 고해상도 이미지 합성을 위한 새로운 증류 접근법인 잠재 적대적 확산 증류(LADD)를 소개한다. 기존의 픽셀 기반 증류 방식인 ADD와 달리, LADD는 사전 학습된 잠재 확산 모델의 생성 특징을 활용한다. 이를 통해 학습이 단순화되고 성능이 향상되어 고해상도 다중 종횡비 이미지 합성이 가능해진다.
LADD는 먼저 사전 학습된 잠재 확산 모델을 활용하여 합성 데이터를 생성한다. 그리고 이 합성 데이터의 잠재 특징을 활용하여 적대적 손실 함수를 구성한다. 이 과정에서 노이즈 수준에 따른 차별적 피드백을 제공하여 전역적 형태와 지역적 텍스처 특징을 균형있게 학습할 수 있다.
LADD를 Stable Diffusion 3 모델에 적용하여 SD3-Turbo를 개발했다. SD3-Turbo는 기존 모델과 동등한 성능을 4단계의 샘플링으로 달성하며, 고해상도 다중 종횡비 이미지 합성을 지원한다. 또한 LADD의 확장성을 체계적으로 분석하고, 이미지 편집 및 복원 등 다양한 응용 분야에서의 효과를 입증했다.
統計
확산 모델은 노이즈에서 데이터로 점진적으로 탈노이즈하는 과정을 학습한다.
확산 모델은 많은 네트워크 평가가 필요해 추론 속도가 느리다는 단점이 있다.
증류 기법은 확산 모델의 추론 속도를 높이는 방법이다.
최근 적대적 증류 기법인 ADD가 단일 단계 합성에서 우수한 성능을 보였지만, 해상도 제한과 복잡한 최적화 등의 한계가 있다.
引用
"Diffusion models are the main driver of progress in image and video synthesis, but suffer from slow inference speed."
"Distillation methods, like the recently introduced adversarial diffusion distillation (ADD) aim to shift the model from many-shot to single-step inference, albeit at the cost of expensive and difficult optimization due to its reliance on a fixed pretrained DINOv2 discriminator."
"In contrast to pixel-based ADD, LADD utilizes generative features from pretrained latent diffusion models. This approach simplifies training and enhances performance, enabling high-resolution multi-aspect ratio image synthesis."