toplogo
Sign In

未来を見るために聴く:オーディオビジュアル


Core Concepts
Augmented Realityの新しい機能のためのオーディオとビジュアルの融合モデルを紹介する。
Abstract
日常活動中の視線行動は、視覚的手がかりと音声信号によって駆動される。 Egocentric gaze anticipationは、未来の注目点を予測する重要なステップである。 オーディオ信号は、egocentric gaze forecastingにおいて重要な補助的手がかりとして機能する。 提案されたCSTSモデルは、空間と時間次元でオーディオとビジュアルの相関を捉える。 モデルはEgo4DおよびAriaデータセットで優れた性能を示し、先行研究を上回る。
Stats
オーディオは2つのデータセットでパフォーマンスを+2.5%および+2.4%向上させました。 モデルは従来の最先端手法よりも少なくとも+1.9%および+1.6%優れています。
Quotes
"Egocentric gaze anticipation serves as a key building block for the emerging capability of Augmented Reality." "Our model also outperforms the prior state-of-the-art methods by at least +1.9% and +1.6%."

Key Insights Distilled From

by Bolin Lai,Fi... at arxiv.org 03-25-2024

https://arxiv.org/pdf/2305.03907.pdf
Listen to Look into the Future

Deeper Inquiries

どうして音声信号が視線予測に役立つのですか?

音声信号は、日常活動中の視線行動に影響を与える重要な補助的手掛かりとなります。例えば、会話や物音などの聴覚情報は、カメラを着用した人の注目や視線移動に大きな影響を与える可能性があります。このようなオーディオ信号とビジュアル情報間の相関性は神経科学的研究でも示されており、特定の音源から発せられた音が視線移動を引き起こすことが知られています。そのため、ビデオフレームと対応するオーディオスペクトログラムを利用して、将来の注目点や視線先を予測する際には、音声信号も重要な刺激源として考慮されるべきです。
0