핵심 개념
제안된 모델은 의미론적 마스크와 참조 이미지의 스타일을 결합하여 다양하고 정확한 얼굴 이미지를 생성할 수 있다.
초록
이 논문에서는 의미론적 이미지 합성(SIS) 프레임워크 기반의 새로운 잠재 확산 모델 아키텍처를 제안한다. 이 모델은 실제 참조 이미지를 재현하고 조작할 수 있으며 다양한 결과를 생성할 수 있다.
제안된 시스템은 SPADE 정규화와 교차 주의 층을 사용하여 형상과 스타일 정보를 결합하며, 이를 통해 인간 얼굴의 각 의미론적 부분에 대한 정확한 제어가 가능하다. 이는 이전 방법에서는 불가능했다.
실험 결과, 제안된 모델은 현재 최첨단 기술을 정성적 및 정량적으로 능가한다는 것을 보여준다.
통계
제안된 모델은 기존 최첨단 모델들에 비해 FID 점수가 우수하다.
제안된 모델은 mIOU와 픽셀 정확도 측면에서 약간 낮은 성능을 보이지만, 여전히 2위를 차지한다.
제안된 모델은 SSIM 측면에서 가장 우수한 성능을 보인다.
인용구
"제안된 시스템은 SPADE 정규화와 교차 주의 층을 사용하여 형상과 스타일 정보를 결합하며, 이를 통해 인간 얼굴의 각 의미론적 부분에 대한 정확한 제어가 가능하다."
"실험 결과, 제안된 모델은 현재 최첨단 기술을 정성적 및 정량적으로 능가한다는 것을 보여준다."