Alapfogalmak
본 연구는 자연어 설명을 입력으로 하여 시선 정보를 제어할 수 있는 얼굴 이미지를 생성하는 방법을 제안한다.
Kivonat
이 연구는 자연어 기반 시선 제어 얼굴 생성 작업을 소개한다. 기존 접근법은 직접적인 수치 값을 입력하여 시선 정보를 제어하였지만, 이는 사용자에게 친숙하지 않을 수 있다. 따라서 본 연구에서는 자연어 설명을 입력으로 하여 시선 정보를 제어할 수 있는 방법을 제안한다.
연구진은 먼저 90,000개 이상의 자연어 시선 설명으로 구성된 ToG 데이터셋을 구축하였다. 이 데이터셋은 대규모이며 다양한 시선 행동을 포함한다. 이후 두 단계로 구성된 얼굴 생성 모델을 제안하였다. 첫 번째 단계에서는 텍스트 설명으로부터 머리 자세와 시선 방향을 예측하고, 이를 3D 얼굴 모델을 활용하여 스케치로 변환한다. 두 번째 단계에서는 스케치 기반 조건부 확산 모델을 통해 얼굴 이미지를 생성한다. 이러한 접근법을 통해 기존 방식과 달리 시선 정보 레이블이 필요 없이 시선 제어 얼굴 이미지를 생성할 수 있다.
실험 결과, 제안 모델은 기존 방식에 비해 더 나은 시선 정보 정확도와 이미지 품질을 보여주었다. 이는 본 연구의 효과적인 시선 제어 얼굴 생성 능력을 입증한다.
Statisztikák
"The person's head turns left, gaze shifts left and slightly up"
"The person kept the head and the gaze straight ahead"
"The person tilted the head right, directing the gaze sharply downwards"
Idézetek
"The person's head turns significantly left, remaining level, while the gaze shifts sharply left and slightly upwards, indicating keen interest or examination."
"The person maintained a direct, steady posture, with the head and the gaze fixed straightforward, indicating intense focus."
"The person directed the head significantly to the right and downward, while the gaze extended far right, with a minimal decline."