Core Concepts
時間整列座標表現を採用することで、手作業のコンポーネントを排除しつつ、時間的アクション検出の性能を大幅に向上させる。
Abstract
本論文では、時間整列座標表現を統合した完全エンドツーエンドの時間的アクション検出トランスフォーマー「TE-TAD」を提案する。従来の時間的アクション検出手法は、正規化された座標表現に依存しており、これが長尺の動画に対する性能低下の主要因となっていた。
TE-TADでは、座標表現を実際のタイムラインの値に基づいて再定式化することで、長尺の動画に対しても安定した検出性能を実現している。さらに、アダプティブなクエリ選択機構を導入し、動画の長さに応じてクエリ数を動的に調整することで、様々な長さの動画に柔軟に対応できるようにしている。
これらの工夫により、TE-TADは従来の手作業コンポーネントを一切必要とせずに、時間的アクション検出の性能を大幅に向上させることができた。実験結果では、THUMOS14、ActivityNet v1.3、EpicKitchensなどの主要ベンチマークデータセットにおいて、従来手法を大きく上回る性能を示している。
Stats
動画の長さが長くなるにつれ、既存の手法の性能が大幅に低下する
正規化された座標表現を用いると、わずかなノイズ注入でも大きな性能低下が生じる
Quotes
"従来の手法は、正規化された座標表現に依存しており、これが長尺の動画に対する性能低下の主要因となっていた。"
"TE-TADでは、座標表現を実際のタイムラインの値に基づいて再定式化することで、長尺の動画に対しても安定した検出性能を実現している。"