Core Concepts
長尺動画と多数のクエリに対して、遅延融合と動画中心のサンプリングを採用することで、高精度かつ効率的な文章グラウンディングを実現する。
Abstract
本論文は、動画グラウンディングモデルの計算コストの観点から、特に融合手法に着目して分析を行っている。
分析の結果、遅延融合が動画の長さやクエリ数の増加に伴うスケーラビリティを高めることを示した。
この知見に基づき、SnAGと呼ばれる単純なモデルを提案している。SnAGは以下の特徴を持つ:
遅延融合を採用し、動画エンコーダとテキストエンコーダを分離することで、動画処理コストを複数のクエリで共有できる。
動画中心のサンプリングを用いることで、効率的な学習を実現する。
シンプルな設計ながら、長尺動画ベンチマークで最先端の精度を達成し、短尺動画ベンチマークでも高い競争力を示す。
具体的な結果は以下の通り:
Ego4D-NLQデータセットでは、SnAGが最新手法を大きく上回る精度を達成した。
MADデータセットでも、SnAGが最新手法を大幅に上回る精度を示した。
TACoSデータセットでは、SnAGが従来手法を大きく上回る精度を達成した。
Charades-STAデータセットでも、SnAGが最新手法を上回る精度を示した。
ActivityNet-Captionsデータセットでも、SnAGが高い競争力を示した。
以上のように、SnAGは長尺動画の文章グラウンディングにおいて優れた性能を発揮し、短尺動画でも高い競争力を示している。
シンプルな設計ながら、効率的な学習と推論を実現することが特徴である。
Stats
長尺動画ベンチマークのMADデータセットでは、SnAGが45.3クエリ/秒の推論速度を達成し、CONE手法より43%高精度かつ1.5倍高速である。