이 논문은 단일 단계 텍스트-이미지 모델을 활용하여 다양한 이미지 변환 작업을 수행하는 일반적인 방법을 제안한다. 기존 조건부 확산 모델은 반복적인 디노이징 과정으로 인해 추론 속도가 느리고, 모델 미세 조정을 위해 쌍을 이루는 데이터에 의존한다는 한계가 있다.
이를 해결하기 위해 저자들은 적대적 학습 목적을 통해 단일 단계 확산 모델을 새로운 작업과 도메인에 적응시키는 일반적인 방법을 소개한다. 구체적으로 기존 잠재 확산 모델의 다양한 모듈을 단일 엔드-투-엔드 생성기 네트워크로 통합하여 입력 이미지 구조를 보존하면서도 과적합을 줄인다.
비쌍 설정에서 제안한 모델 CycleGAN-Turbo는 기존 GAN 기반 및 확산 기반 방법보다 우수한 성능을 보인다. 쌍 설정에서는 pix2pix-Turbo가 최근 ControlNet과 유사한 수준의 성능을 보이면서도 단일 단계 추론을 달성한다. 이를 통해 단일 단계 확산 모델이 다양한 GAN 학습 목적을 위한 강력한 백본으로 활용될 수 있음을 시사한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Gaurav Parma... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.12036.pdfDeeper Inquiries