核心概念
複数人のシーン内での視線追跡と社会的視線予測を同時に行うための新しいフレームワークが提案されています。
要約
これは、人間のコミュニケーション行動、意図、および社会的相互作用に洞察を提供する基本的なタスクである視線追跡と社会的視線予測に焦点を当てています。
過去のアプローチはこれらのタスクを別々に扱ってきましたが、この論文ではそれらの制限を克服するために新しいフレームワークが導入されています。
モデルはVSGazeデータセットでトレーニングされ、マルチパーソン・ゲイズフォローイングと社会的視線予測の両方で最先端の結果を達成しています。
Results on VSGaze:
Ours-noSoc(社会的視線損失なし)は既存手法よりも効率性が高く、同等以上のパフォーマンスを示しています。
社会的視線損失(OursおよびOurs-PP)はゲイズフォローイングパフォーマンスと社会的視線予測を向上させます。
ゲイズフォローイング損失なし(Ours-noGF)ではすべての社会的視線タスクでパフォーマンスが低下します。
統計
著者:Anshul Gupta, Samy Tafasca, Arya Farkhondeh, Pierre Vuillecard, Jean-Marc Odobez
技術:Transformer-based architecture, ViT tokenizer, Gaze Processor, Interaction Module, Prediction Module
引用
"Our model can effectively learn from a mix of video-based datasets with different statistics to perform gaze following and social gaze prediction without sacrificing performance on any of them."
"The trained model can then be further fine-tuned on individual datasets to improve performance towards a specific scenario or task."