本研究では、自然言語による視線制御顔生成の新しいタスクを提案する。まず、90,000を超える視線記述を含む「Text of Gaze (ToG)」データセットを構築した。大規模言語モデルを活用し、視線の向きと頭部の向きを表す多様な自然言語記述を生成した。
次に、2段階の顔生成モデルを提案した。第1段階では、テキスト記述から視線と頭部の向きを推定する。3Dフェイスモデルを用いて、推定した視線と頭部の向きに基づいてスケッチを生成する。第2段階では、スケッチを条件として顔画像を生成する。
提案手法は、従来の数値による視線入力を必要とせず、自然言語による直感的な視線制御を実現する。実験の結果、提案手法は既存手法と比べて高品質な視線制御顔画像を生成できることが示された。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Hengfei Wang... um arxiv.org 04-29-2024
https://arxiv.org/pdf/2404.17486.pdfTiefere Fragen