이 논문에서는 의미론적 이미지 합성(SIS) 프레임워크 기반의 새로운 잠재 확산 모델 아키텍처를 제안한다. 이 모델은 실제 참조 이미지를 재현하고 조작할 수 있으며 다양한 결과를 생성할 수 있다.
제안된 시스템은 SPADE 정규화와 교차 주의 층을 사용하여 형상과 스타일 정보를 결합하며, 이를 통해 인간 얼굴의 각 의미론적 부분에 대한 정확한 제어가 가능하다. 이는 이전 방법에서는 불가능했다.
실험 결과, 제안된 모델은 현재 최첨단 기술을 정성적 및 정량적으로 능가한다는 것을 보여준다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Alex Ergasti... في arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12743.pdfاستفسارات أعمق