핵심 개념
대규모 확산 모델의 생성 능력을 활용하여 학습 없이 콘텐츠 이미지의 스타일을 타겟 스타일 이미지로 효과적으로 전이할 수 있는 방법을 제안한다.
초록
이 논문은 대규모 확산 모델의 생성 능력을 활용하여 학습 없이 콘텐츠 이미지의 스타일을 타겟 스타일 이미지로 효과적으로 전이할 수 있는 방법을 제안한다.
-
주요 아이디어는 확산 모델의 자기 주의 층(self-attention layer)의 특징을 조작하는 것이다. 구체적으로 콘텐츠 이미지의 키(key)와 값(value)을 스타일 이미지의 것으로 대체하여 스타일을 전이한다.
-
이 접근법은 1) 콘텐츠 보존, 2) 지역 텍스처 유사성 기반 스타일 전이 등의 장점을 제공한다.
-
또한 쿼리 보존, 주의 온도 조절, 초기 잠재 AdaIN 등의 추가 기법을 제안하여 콘텐츠 손상 문제와 부조화로운 색상 문제를 해결한다.
-
실험 결과, 제안 방법이 기존 스타일 전이 방법들을 크게 능가하는 성능을 보인다.
통계
콘텐츠 이미지와 스타일 이미지의 채널별 평균과 표준편차를 조합하여 초기 잡음 이미지를 생성하는 것이 색상 전이에 효과적이다.
자기 주의 층의 주의 맵 표준편차를 조절하는 것이 콘텐츠 보존과 스타일 전이 성능 향상에 도움이 된다.
인용구
"Similar to CA, we substitute the key and value of SA and observe that the generated images are still visually plausible and naturally incorporate the elements of the substituted image into the original image."
"Thanks to the powerful feature representation of large-scale DM, each patch of the query reveals higher similarity to keys which has similar texture and semantics."