이 논문은 개인화된 얼굴 생성을 위한 새로운 다중 모달 프레임워크를 소개한다. 이 프레임워크는 사용자의 자화상 사진, 배경 설명 텍스트, 표현 관련 텍스트를 입력받아 사용자의 아이덴티티를 유지하면서도 다양한 표현을 나타낼 수 있는 얼굴 이미지를 생성한다.
핵심 기술은 동시 얼굴 스와핑 및 리엔액트먼트(SFSR)를 수행할 수 있는 새로운 확산 모델이다. 이를 위해 아이덴티티와 표현 인코더의 균형, 향상된 중간점 샘플링, 배경 조건화 등의 혁신적인 설계를 제안한다.
실험 결과, 제안된 프레임워크는 기존 텍스트-이미지, 얼굴 스와핑, 얼굴 리엔액트먼트 방법들에 비해 우수한 제어 가능성과 이미지 품질을 보여준다. 특히 135개의 세부적인 표현 라벨을 사용하여 기존 방법들을 크게 뛰어넘는 표현 제어 성능을 달성한다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究