이 논문은 맞춤형 이미지 생성 방법을 제안한다. 기존의 맞춤형 이미지 생성 방법은 미세 조정(fine-tuning)이 필요하거나 텍스트 임베딩 매핑 학습이 필요해 시간이 오래 걸리고 텍스트-이미지 일관성과 아이덴티티 일관성의 균형을 잡기 어려웠다.
저자들은 이미지-이미지 변환 기법에서 영감을 얻어 주의 집중 주입(attention injection)을 통해 맞춤형 이미지를 생성하는 새로운 방법을 제안했다. 구체적으로 마스크 자기 주의 집중 주입(masked self-attention injection)과 교차 주의 집중 직접 세부 주입(cross-attention direct detail injection)을 활용하여 참조 이미지의 특성을 생성 이미지에 효과적으로 반영할 수 있다.
이 방법은 기존 텍스트 기반 이미지 생성 모델의 성능을 유지하면서도 참조 이미지의 특성을 잘 반영할 수 있다. 또한 미세 조정이나 최적화 과정이 필요 없어 매우 빠른 속도로 맞춤형 이미지를 생성할 수 있다. 실험 결과, 제안 방법이 텍스트-이미지 일관성, 생성 품질, 아이덴티티 일관성 측면에서 우수한 성능을 보였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yuxuan Zhang... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11284.pdfYêu cầu sâu hơn