이 논문은 맞춤형 이미지 생성 방법을 제안한다. 기존의 맞춤형 이미지 생성 방법은 미세 조정(fine-tuning)이 필요하거나 텍스트 임베딩 매핑 학습이 필요해 시간이 오래 걸리고 텍스트-이미지 일관성과 아이덴티티 일관성의 균형을 잡기 어려웠다.
저자들은 이미지-이미지 변환 기법에서 영감을 얻어 주의 집중 주입(attention injection)을 통해 맞춤형 이미지를 생성하는 새로운 방법을 제안했다. 구체적으로 마스크 자기 주의 집중 주입(masked self-attention injection)과 교차 주의 집중 직접 세부 주입(cross-attention direct detail injection)을 활용하여 참조 이미지의 특성을 생성 이미지에 효과적으로 반영할 수 있다.
이 방법은 기존 텍스트 기반 이미지 생성 모델의 성능을 유지하면서도 참조 이미지의 특성을 잘 반영할 수 있다. 또한 미세 조정이나 최적화 과정이 필요 없어 매우 빠른 속도로 맞춤형 이미지를 생성할 수 있다. 실험 결과, 제안 방법이 텍스트-이미지 일관성, 생성 품질, 아이덴티티 일관성 측면에서 우수한 성능을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yuxuan Zhang... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11284.pdfDeeper Inquiries