本論文では、視線推定の精度向上のために、言語ガイダンスを活用する新しい手法GazeCLIPを提案している。
具体的には以下の通り:
視線推定では従来、単一の顔画像から視線方向を推定する手法が主流だったが、言語情報を活用することで精度を大幅に向上できることを示す。
事前学習済みのCLIPモデルを活用し、顔画像と適切な言語プロンプトを組み合わせることで、視線方向の粗い推定を行う。
さらに、顔画像と言語プロンプトの特徴を融合する注意機構を導入することで、精細な視線推定を実現する。
3つの著名なベンチマークデータセットで実験を行い、従来手法と比べて平均で0.5度の精度向上(9.3%の改善)を達成した。
言語知識の有効性や特徴融合手法の影響など、提案手法の各モジュールの効果を検証する詳細な実験も行っている。
以上のように、本研究は視線推定分野において、言語ガイダンスを活用した新しい手法を提案し、大幅な精度向上を実現したものである。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Jun Wang,Hao... às arxiv.org 04-29-2024
https://arxiv.org/pdf/2401.00260.pdfPerguntas Mais Profundas