Core Concepts
大規模なビデオバックボーンと入力データを使用することで、時間アクション検出の性能を大幅に向上させることができる。提案手法のAdaTADは、メモリ効率の高い時間情報アダプターを導入し、従来の特徴ベースアプローチを大幅に上回る性能を達成した。
Abstract
本研究は、時間アクション検出(TAD)の性能向上に取り組んでいる。従来のTADアプローチは、特徴抽出と検出器の2段階処理を行っていたが、エンドツーエンドの学習を行うことで性能を向上できることが示されている。
しかし、エンドツーエンド学習には膨大なメモリ消費が伴うため、これまでは小規模なモデルや入力データしか扱えていなかった。
本研究では、メモリ効率の高い時間情報アダプター(TIA)を提案し、これを用いることで大規模なビデオバックボーンと長時間の入力データを扱えるようにした。具体的には、10億パラメータのビデオバックボーンと1536フレームの入力データを使用することで、従来の特徴ベースアプローチを大幅に上回る性能を達成した。
TIAは、従来のアダプターに時間方向の深層畳み込み層を追加することで、時系列情報を効果的に活用できるようになっている。また、TIAをバックボーン外部に配置する手法(AdaTAD†)を提案し、さらなるメモリ削減を実現している。
本手法は、4つの代表的なTADデータセットで最先端の性能を達成しており、特に THUMOS14 では75.4%のmAPを記録し、従来の特徴ベースアプローチを大きく上回っている。これは、エンドツーエンドTADアプローチの有効性を示す重要な成果である。
Stats
提案手法AdaTADは、THUMOS14データセットで75.4%のmAPを達成した。
これは従来の特徴ベースアプローチの最高記録71.5%を大幅に上回る。
ActivityNet-1.3データセットでは41.9%のmAPを達成した。
EPIC-Kitchens 100データセットでは29.3%のmAPを達成した。
Quotes
"本研究は、エンドツーエンドTADアプローチの有効性を示す重要な成果である。"
"提案手法AdaTADは、THUMOS14データセットで75.4%のmAPを達成し、従来の特徴ベースアプローチを大幅に上回っている。"