本研究は、動画基盤モデルを特徴抽出器として活用し、動的注意喚起予測のための新しいエンコーダ-デコーダアーキテクチャを提案している。エンコーダには、時空間的特徴を保持するUnMasked Teacher (UMT)を使用し、デコーダには3つの異なる中間ブランチを導入している。
1つ目のブランチは、長距離の時空間関係を抽出するためのスパース時間変換器を活用する。2つ目のブランチは、時間次元を徐々に減らしながら局所的な時空間特徴を抽出する。3つ目のブランチは、時間次元を削除し、空間的関係に焦点を当てる。
これらのブランチから得られた特徴は最終的に融合され、動的注意喚起マップを生成する。
提案手法は、DHF1K、Hollywood-2、UCF-Sportsの各ベンチマークデータセットで評価され、既存の最先端手法を上回る性能を示している。特に、DHF1Kデータセットでは、全ての評価指標で最高スコアを記録している。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Morteza Mora... ที่ arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03097.pdfสอบถามเพิ่มเติม