이 논문은 이미지 스타일 변환에 관한 연구로, 단일 입력 이미지에서 스타일과 콘텐츠를 암시적으로 분리하는 B-LoRA 방법을 제안한다.
먼저 SDXL 아키텍처 분석을 통해 특정 변환기 블록들이 이미지의 콘텐츠와 스타일을 각각 지배한다는 것을 발견했다. 이를 바탕으로 두 개의 B-LoRA (Low-Rank Adaptation) 가중치만을 최적화하여 입력 이미지의 스타일과 콘텐츠를 분리했다.
이렇게 학습된 B-LoRA 가중치는 독립적으로 활용될 수 있어, 다양한 이미지 스타일 변환 작업에 적용할 수 있다. 구체적으로 이미지 스타일 전이, 텍스트 기반 이미지 스타일 변환, 일관된 스타일 생성 등을 수행할 수 있다.
제안 방법은 기존 접근법에 비해 효율적이고 유연하며, 스타일과 콘텐츠의 균형을 잘 유지하는 것으로 나타났다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Yarden Frenk... في arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14572.pdfاستفسارات أعمق