Core Concepts
Augmented Realityの新しい機能のためのオーディオとビジュアルの融合モデルを紹介する。
Abstract
日常活動中の視線行動は、視覚的手がかりと音声信号によって駆動される。
Egocentric gaze anticipationは、未来の注目点を予測する重要なステップである。
オーディオ信号は、egocentric gaze forecastingにおいて重要な補助的手がかりとして機能する。
提案されたCSTSモデルは、空間と時間次元でオーディオとビジュアルの相関を捉える。
モデルはEgo4DおよびAriaデータセットで優れた性能を示し、先行研究を上回る。
Stats
オーディオは2つのデータセットでパフォーマンスを+2.5%および+2.4%向上させました。
モデルは従来の最先端手法よりも少なくとも+1.9%および+1.6%優れています。
Quotes
"Egocentric gaze anticipation serves as a key building block for the emerging capability of Augmented Reality."
"Our model also outperforms the prior state-of-the-art methods by at least +1.9% and +1.6%."