核心概念
DDPM 모델의 잡음 공간을 편집에 적합하도록 재구성하여, 실제 이미지에 대한 다양한 편집 작업을 가능하게 하는 방법을 제안한다.
摘要
이 논문은 DDPM(Denoising Diffusion Probabilistic Model) 모델의 잡음 공간을 편집에 적합하도록 재구성하는 방법을 제안한다. DDPM 모델은 이미지 생성에 널리 사용되지만, 원래의 잡음 공간은 편집에 적합하지 않다.
저자들은 새로운 잡음 공간을 구축하여 다음과 같은 장점을 얻었다:
입력 이미지의 구조를 잘 인코딩하여, 잡음 공간을 고정한 채 텍스트 프롬프트만 변경해도 이미지 구조가 잘 유지됨
잡음 벡터의 분산이 크고 시간 단계 간 음의 상관관계를 가지므로, 간단한 변형만으로도 의미 있는 이미지 조작이 가능
역전 과정이 최적화 없이 매우 빠르게 수행되며, 다양한 편집 결과를 생성할 수 있음
저자들은 이 새로운 잡음 공간을 활용하여 텍스트 기반 이미지 편집 작업을 수행하고, 기존 방법들과 비교하여 우수한 성능을 보였다. 또한 기존 방법들과 통합하여 사용함으로써 이미지 구조와 텍스트 프롬프트 간 균형을 개선할 수 있었다.
統計資料
이미지 편집에 소요되는 시간은 DDIM 역전 기반 방법들보다 훨씬 빠르다.
텍스트 프롬프트에 대한 CLIP 점수와 입력 이미지와의 LPIPS 점수 간 균형이 잘 잡혀있다.