이 논문은 개인화된 얼굴 생성을 위한 새로운 다중 모달 프레임워크를 소개한다. 이 프레임워크는 사용자의 자화상 사진, 배경 설명 텍스트, 표현 관련 텍스트를 입력받아 사용자의 아이덴티티를 유지하면서도 다양한 표현을 나타낼 수 있는 얼굴 이미지를 생성한다.
핵심 기술은 동시 얼굴 스와핑 및 리엔액트먼트(SFSR)를 수행할 수 있는 새로운 확산 모델이다. 이를 위해 아이덴티티와 표현 인코더의 균형, 향상된 중간점 샘플링, 배경 조건화 등의 혁신적인 설계를 제안한다.
실험 결과, 제안된 프레임워크는 기존 텍스트-이미지, 얼굴 스와핑, 얼굴 리엔액트먼트 방법들에 비해 우수한 제어 가능성과 이미지 품질을 보여준다. 특히 135개의 세부적인 표현 라벨을 사용하여 기존 방법들을 크게 뛰어넘는 표현 제어 성능을 달성한다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Renshuai Liu... alle arxiv.org 04-09-2024
https://arxiv.org/pdf/2401.01207.pdfDomande più approfondite