時間的アクション検出(TAD)のためのDETRベースのアプローチでは、注意の崩壊が性能低下の原因となっている。本研究では、予測からのフィードバックを利用することで注意の崩壊を緩和し、DETR系のTADモデルの性能を大幅に向上させる。
時間的アクション検出は現実世界のビデオアプリケーションにとって重要であるが、データ不足により深刻な問題に直面している。本研究では、長期前学習(LTP)という新しい前学習戦略を提案し、トランスフォーマーベースの手法の性能を大幅に向上させている。
時間的アクション検出の性能を向上させるために、ゲートメカニズムと文脈情報を特徴抽出プロセスに組み込む。