이 논문은 대규모 확산 모델의 생성 능력을 활용하여 학습 없이 콘텐츠 이미지의 스타일을 타겟 스타일 이미지로 효과적으로 전이할 수 있는 방법을 제안한다.
주요 아이디어는 확산 모델의 자기 주의 층(self-attention layer)의 특징을 조작하는 것이다. 구체적으로 콘텐츠 이미지의 키(key)와 값(value)을 스타일 이미지의 것으로 대체하여 스타일을 전이한다.
이 접근법은 1) 콘텐츠 보존, 2) 지역 텍스처 유사성 기반 스타일 전이 등의 장점을 제공한다.
또한 쿼리 보존, 주의 온도 조절, 초기 잠재 AdaIN 등의 추가 기법을 제안하여 콘텐츠 손상 문제와 부조화로운 색상 문제를 해결한다.
실험 결과, 제안 방법이 기존 스타일 전이 방법들을 크게 능가하는 성능을 보인다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiwoo Chung,... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2312.09008.pdfDeeper Inquiries