本研究は、時間的アクション検出(Temporal Action Detection: TAD)の性能向上を目的としている。TADは、無trimmed動画内でアクションの位置と分類を特定する課題であり、アクションの重複や持続時間の変動が課題となっている。
提案手法は以下の2つの主要な貢献を行う:
局所ブランチ: 異なるウィンドウサイズの並列畳み込みを用いて、細かい時間特徴と粗い時間特徴を捉える。ゲートメカニズムを導入し、最も関連性の高い特徴を選択する。
文脈ブランチ: 畳み込みの境界フレームをキー・バリューとして使用し、中央フレームとの関係をクロスアテンションで分析する。これにより時間的依存関係を捉え、文脈理解を向上させる。
実験では、THUMOS14とEPIC-KITCHEN 100の2つのデータセットで提案手法の有効性を確認した。ゲートメカニズムと文脈ブランチの導入により、ベースラインおよび既存手法を上回る性能を示した。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor