核心概念
확산 모델은 텍스트-이미지 생성에서 뛰어난 품질과 창의성을 보여주지만, 다단계 샘플링 과정으로 인해 느린 속도가 문제였다. 본 연구에서는 Rectified Flow 기법을 활용하여 Stable Diffusion 모델을 원스텝 모델인 InstaFlow로 변환하였고, 이를 통해 기존 대비 월등한 속도와 성능을 달성하였다.
摘要
본 논문은 확산 모델 기반 텍스트-이미지 생성 모델의 효율성 향상을 다룬다. 기존 확산 모델은 다단계 샘플링 과정으로 인해 느린 속도가 문제였는데, 저자들은 Rectified Flow 기법을 활용하여 이를 해결하였다.
Rectified Flow는 확률 흐름의 궤적을 직선화하고 노이즈와 이미지의 결합을 개선하여 증류 과정을 용이하게 한다. 저자들은 이를 활용하여 Stable Diffusion 모델을 원스텝 모델인 InstaFlow로 변환하였다.
InstaFlow-0.9B는 MS COCO 2017 데이터셋에서 FID 23.4를 달성하며, 기존 최고 성능이었던 Progressive Distillation 모델을 크게 앞섰다. 또한 InstaFlow-1.7B는 MS COCO 2014 데이터셋에서 FID 11.83을 기록하며, StyleGAN-T 모델을 능가하는 성능을 보였다. 이는 순수 지도 학습만으로 달성한 결과로, 기존 GAN 기반 모델 대비 훨씬 적은 학습 비용이 소요되었다.
統計資料
본 연구에서 제안한 InstaFlow-0.9B 모델은 MS COCO 2017 데이터셋에서 FID 23.4를 달성하였다.
InstaFlow-1.7B 모델은 MS COCO 2014 데이터셋에서 FID 11.83을 기록하였다.
InstaFlow 모델들은 0.09~0.12초 내에 이미지를 생성할 수 있다.
引述
"확산 모델은 텍스트-이미지 생성에서 뛰어난 품질과 창의성을 보여주지만, 다단계 샘플링 과정으로 인해 느린 속도가 문제였다."
"Rectified Flow는 확률 흐름의 궤적을 직선화하고 노이즈와 이미지의 결합을 개선하여 증류 과정을 용이하게 한다."
"InstaFlow-0.9B는 MS COCO 2017 데이터셋에서 FID 23.4를 달성하며, 기존 최고 성능이었던 Progressive Distillation 모델을 크게 앞섰다."