核心概念
動画基盤モデルを活用し、空間的および時間的特徴を効果的に統合することで、動的注意喚起の予測精度を向上させる。
要約
本研究は、動画基盤モデルを特徴抽出器として活用し、動的注意喚起予測のための新しいエンコーダ-デコーダアーキテクチャを提案している。エンコーダには、時空間的特徴を保持するUnMasked Teacher (UMT)を使用し、デコーダには3つの異なる中間ブランチを導入している。
1つ目のブランチは、長距離の時空間関係を抽出するためのスパース時間変換器を活用する。2つ目のブランチは、時間次元を徐々に減らしながら局所的な時空間特徴を抽出する。3つ目のブランチは、時間次元を削除し、空間的関係に焦点を当てる。
これらのブランチから得られた特徴は最終的に融合され、動的注意喚起マップを生成する。
提案手法は、DHF1K、Hollywood-2、UCF-Sportsの各ベンチマークデータセットで評価され、既存の最先端手法を上回る性能を示している。特に、DHF1Kデータセットでは、全ての評価指標で最高スコアを記録している。
統計
動的注意喚起予測の性能評価には、以下の指標が使用されている:
Shuffled AUC (S-AUC)
AUC-Judd (AUC-J)
Normalized Scanpath Saliency (NSS)
Linear Correlation Coefficient (CC)
Similarity Metric (SIM)