핵심 개념
본 연구는 실사 이미지를 확산 모델의 도메인으로 역전시키는 새로운 방법을 제안한다. 제안하는 ReNoise 기법은 역전 과정에서 반복적인 노이징을 활용하여 재구성 정확도를 높이고 편집 가능성을 유지한다.
초록
이 논문은 실사 이미지를 확산 모델의 도메인으로 역전시키는 새로운 방법인 ReNoise를 소개한다.
-
확산 과정은 가우시안 노이즈에서 시작하여 데이터 분포로 점진적으로 탈노이징되는 일련의 단계로 구성된다. 각 단계에서 모델은 현재 노이즈 수준에서 이전 노이즈 수준으로 이동하는 방향을 예측한다.
-
역전 문제는 주어진 실사 이미지에 대해 이 예측 방향을 역으로 추정하여 최종 가우시안 노이즈를 찾는 것이다. 이는 어려운 문제로, 특히 최근 몇 단계만으로 고품질 이미지를 생성하는 모델의 경우 더욱 그렇다.
-
ReNoise 기법은 각 역전 단계에서 반복적인 노이징을 수행하여 각 단계의 예측을 개선한다. 이를 통해 더 큰 폭의 역전 단계를 수행할 수 있으며, 동일한 연산량에서도 더 나은 재구성 정확도를 달성할 수 있다.
-
또한 편집 가능성을 높이기 위해 노이즈 예측 과정을 추가로 최적화한다.
-
다양한 확산 모델과 샘플러에 대한 실험을 통해 ReNoise 기법의 효과를 검증하였다.
통계
확산 과정은 가우시안 노이즈에서 시작하여 데이터 분포로 점진적으로 탈노이징되는 일련의 단계로 구성된다.
각 단계에서 모델은 현재 노이즈 수준에서 이전 노이즈 수준으로 이동하는 방향을 예측한다.
역전 문제는 주어진 실사 이미지에 대해 이 예측 방향을 역으로 추정하여 최종 가우시안 노이즈를 찾는 것이다.
인용구
"Recent advancements in text-guided diffusion models have unlocked powerful image manipulation capabilities. However, applying these methods to real images necessitates the inversion of the images into the domain of the pretrained diffusion model."
"Achieving faithful inversion remains a challenge, particularly for more recent models trained to generate images with a small number of denoising steps."