本研究では、人間が画像を見ながら音声指示を聞いて対象物を探す「増分的オブジェクト参照」タスクを対象とした。このタスクでは、人間の視線が音声指示の単語ごとにどのように変化するかを予測することが重要である。
研究では、RefCOCO-Gaze という大規模な視線データセットを構築し、Attention in Referral Transformer (ART) というモデルを提案した。ARTは、視覚情報と言語情報を統合して、単語ごとの視線の変化を予測することができる。
実験の結果、ARTは既存の手法に比べて視線予測の精度が高く、人間の注意の変化を捉えることができることが示された。特に、待機、走査、検証といった人間の注意の戦略的な変化をうまくモデル化できていることが確認された。
このような視線予測技術は、音声指示に基づくVR/AR操作などの時間的に厳しい人間-コンピュータ相互作用アプリケーションに活用できると期待される。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések