이 연구는 자연어 기반 시선 제어 얼굴 생성 작업을 소개한다. 기존 접근법은 직접적인 수치 값을 입력하여 시선 정보를 제어하였지만, 이는 사용자에게 친숙하지 않을 수 있다. 따라서 본 연구에서는 자연어 설명을 입력으로 하여 시선 정보를 제어할 수 있는 방법을 제안한다.
연구진은 먼저 90,000개 이상의 자연어 시선 설명으로 구성된 ToG 데이터셋을 구축하였다. 이 데이터셋은 대규모이며 다양한 시선 행동을 포함한다. 이후 두 단계로 구성된 얼굴 생성 모델을 제안하였다. 첫 번째 단계에서는 텍스트 설명으로부터 머리 자세와 시선 방향을 예측하고, 이를 3D 얼굴 모델을 활용하여 스케치로 변환한다. 두 번째 단계에서는 스케치 기반 조건부 확산 모델을 통해 얼굴 이미지를 생성한다. 이러한 접근법을 통해 기존 방식과 달리 시선 정보 레이블이 필요 없이 시선 제어 얼굴 이미지를 생성할 수 있다.
실험 결과, 제안 모델은 기존 방식에 비해 더 나은 시선 정보 정확도와 이미지 품질을 보여주었다. 이는 본 연구의 효과적인 시선 제어 얼굴 생성 능력을 입증한다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Hengfei Wang... às arxiv.org 04-29-2024
https://arxiv.org/pdf/2404.17486.pdfPerguntas Mais Profundas