本研究は、動画基盤モデルを特徴抽出器として活用し、動的注意喚起予測のための新しいエンコーダ-デコーダアーキテクチャを提案している。エンコーダには、時空間的特徴を保持するUnMasked Teacher (UMT)を使用し、デコーダには3つの異なる中間ブランチを導入している。
1つ目のブランチは、長距離の時空間関係を抽出するためのスパース時間変換器を活用する。2つ目のブランチは、時間次元を徐々に減らしながら局所的な時空間特徴を抽出する。3つ目のブランチは、時間次元を削除し、空間的関係に焦点を当てる。
これらのブランチから得られた特徴は最終的に融合され、動的注意喚起マップを生成する。
提案手法は、DHF1K、Hollywood-2、UCF-Sportsの各ベンチマークデータセットで評価され、既存の最先端手法を上回る性能を示している。特に、DHF1Kデータセットでは、全ての評価指標で最高スコアを記録している。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor