核心概念
提案手法は、ビデオ入力から視線情報を活用してグラフを構築し、そのグラフニューラルネットワークを用いて人間の意図を認識し、その意図を達成するための残りのアクションを予測する。
要約
本研究では、ビデオ理解の新しい課題に取り組む。具体的には、部分的なビデオ入力から人間の意図を認識し、その意図を達成するための残りのアクションを予測する。
提案手法は以下の手順で構成される:
- ビデオ入力とヒトの視線情報を用いて、視覚-意味グラフを構築する。グラフのノードは視線注目領域の特徴量で表現され、エッジは注目オブジェクトの関係性を表す。
- グラフニューラルネットワークを用いて、グラフ表現から人間の意図を認識する。
- 意図認識結果を条件として、残りのアクションを予測するLSTMモデルを学習する。
実験では、VirtualHomeデータセットを用いて提案手法の有効性を示した。視線情報を活用することで、意図認識精度が7%向上し、最終的なタスク完了率も27%向上した。これは、視線情報が人間の行動理解に重要な手がかりを提供することを示している。
統計
人間の視線は、ビデオ理解タスクにおいて重要な情報を提供する。
視線を活用することで、意図認識精度が7%向上した。
最終的なタスク完了率は27%向上した。
引用
"人間は自身の視線を使って重要な情報に集中しながら、意図を知覚し解釈する。計算アルゴリズムに人間の視線を組み込むことで、ビデオ理解タスクのモデル性能を大幅に向上させることができる。"