본 논문은 확산 모델 기반 텍스트-이미지 생성 모델의 효율성 향상을 다룬다. 기존 확산 모델은 다단계 샘플링 과정으로 인해 느린 속도가 문제였는데, 저자들은 Rectified Flow 기법을 활용하여 이를 해결하였다.
Rectified Flow는 확률 흐름의 궤적을 직선화하고 노이즈와 이미지의 결합을 개선하여 증류 과정을 용이하게 한다. 저자들은 이를 활용하여 Stable Diffusion 모델을 원스텝 모델인 InstaFlow로 변환하였다.
InstaFlow-0.9B는 MS COCO 2017 데이터셋에서 FID 23.4를 달성하며, 기존 최고 성능이었던 Progressive Distillation 모델을 크게 앞섰다. 또한 InstaFlow-1.7B는 MS COCO 2014 데이터셋에서 FID 11.83을 기록하며, StyleGAN-T 모델을 능가하는 성능을 보였다. 이는 순수 지도 학습만으로 달성한 결과로, 기존 GAN 기반 모델 대비 훨씬 적은 학습 비용이 소요되었다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Xingchao Liu... a las arxiv.org 03-26-2024
https://arxiv.org/pdf/2309.06380.pdfConsultas más profundas