이 논문에서는 DiffusionAct라는 새로운 얼굴 재연기 프레임워크를 제안한다. DiffusionAct는 사전 학습된 확산 오토인코더(DiffAE)를 활용하여 소스 얼굴의 정체성과 외모를 유지하면서 타겟 얼굴 자세(머리 자세와 표정)를 정확하게 전달한다.
구체적으로, 제안된 방법은 DiffAE의 의미 인코더를 "재연기 인코더"로 학습하여 타겟 얼굴 랜드마크를 입력받아 재연기 코드를 예측한다. 이 재연기 코드는 사전 학습된 DDIM 생성기를 통해 재연기된 얼굴 이미지를 생성한다.
실험 결과, 제안된 DiffusionAct 방법은 기존 GAN 기반, StyleGAN2 기반, 확산 기반 방법들과 비교하여 더 사실적이고 아티팩트가 없는 이미지를 생성하며, 타겟 얼굴 자세를 정확하게 전달하고 소스 얼굴의 정체성과 외모를 충실하게 재현할 수 있음을 보여준다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문