核心概念
提案するDualDETRモデルは、インスタンスレベルとバウンダリーレベルの双方のクエリを用いて、時間的アクション検出の精度と境界位置の正確性を向上させる。
要約
本論文は、時間的アクション検出(Temporal Action Detection: TAD)のための新しい双方向クエリベースのフレームワークDualDETRを提案している。従来のクエリベースのTADアプローチは主にインスタンスレベルの検出に焦点を当てていたが、これでは時間的境界の正確な検出が困難であった。
DualDETRでは、インスタンスレベルのクエリとバウンダリーレベルのクエリの2つのグループを用いる。インスタンスレベルのクエリはアクションの重要なセマンティックフレームをキャプチャし、バウンダリーレベルのクエリはアクション境界の詳細に焦点を当てる。2つのレベルのクエリは、提案の整合性を高めるために相互に補完的な refinementを行う。
さらに、2つのレベルのクエリを効果的にデコーディングするために、2つのブランチ構造を導入する。各ブランチはそれぞれのレベルに特化したセマンティクスを捉えることができる。また、クエリの整列と共同初期化の手法を提案し、双方のクエリが補完的に提案を改善できるようにする。
実験の結果、DualDETRは従来手法を大きく上回る検出精度を達成し、特に境界位置の正確性に優れることが示された。また、セグメンテーションベースの手法と比べても遜色ない性能を発揮した。
統計
時間的アクション検出の目的は、無トリミングビデオ内のアクション境界と対応するカテゴリを特定すること。
マルチラベルTADでは、ビデオ内に時間的に重複する複数のアクションが存在する。
提案手法DualDETRは、インスタンスレベルとバウンダリーレベルの双方のクエリを用いて、アクション検出の精度と境界位置の正確性を向上させる。