이 논문은 텍스트 기반 이미지 생성 모델의 맞춤화 기술을 다룹니다. 기존 방법들은 다중 맞춤형 개념을 다룰 때 속성 누출과 레이아웃 혼란 문제에 직면했습니다. 이를 해결하기 위해 저자들은 Concept Conductor라는 새로운 프레임워크를 제안했습니다.
Concept Conductor의 주요 구성요소는 다음과 같습니다:
다중 경로 샘플링(Multipath Sampling): 각 맞춤형 모델의 독립적인 노이즈 예측 과정을 유지하여 속성 누출을 방지합니다.
레이아웃 정렬(Layout Alignment): 참조 이미지의 레이아웃 정보를 활용하여 생성 이미지의 구조를 안정적으로 제어합니다.
개념 주입(Concept Injection): 모양 인식 마스크와 특징 융합을 통해 각 맞춤형 개념의 시각적 세부 사항을 완전히 반영합니다.
실험 결과, Concept Conductor는 기존 방법들에 비해 개념 충실도와 텍스트 정렬 측면에서 큰 성능 향상을 보였습니다. 특히 유사한 개념을 다룰 때에도 안정적인 성능을 유지했습니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zebin Yao, F... lúc arxiv.org 09-10-2024
https://arxiv.org/pdf/2408.03632.pdfYêu cầu sâu hơn