본 논문은 텍스트 기반 이미지 생성(T2I) 모델 중 픽셀 수준 모델에 대한 새로운 역전 기법을 제안한다. 기존의 DDIM 역전 기법은 DeepFloyd-IF와 같은 픽셀 수준 T2I 모델에 적용하기 어려운데, 이는 super-resolution 단계에서 노이즈 이미지를 조건으로 사용하기 때문이다.
이를 해결하기 위해 저자들은 반복적 역전(IterInv) 기법을 제안한다. IterInv는 각 단계에서 노이즈 이미지를 최적화하여 원본 이미지를 정확하게 재구성한다. 실험 결과, IterInv는 기존 DDIM 역전 기법에 비해 월등한 재구성 성능을 보였다. 또한 IterInv와 DiffEdit 편집 기법을 결합하여 픽셀 수준 T2I 모델에서의 텍스트 기반 이미지 편집을 실현하였다.
본 연구는 픽셀 수준 T2I 모델에 대한 새로운 역전 및 편집 기법을 제시하여 향후 관련 연구에 기여할 것으로 기대된다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Chuanming Ta... om arxiv.org 04-23-2024
https://arxiv.org/pdf/2310.19540.pdfDiepere vragen