核心概念
CLIP自体が優れた空間-時間モデリング能力を持っているため、効率的な転移学習フレームワークを提案する。提案手法は、CLIPエンコーダの最後の数層に軽量なサイドブロックを再帰的に接続し、空間的特徴の適応的プーリングと時間相関の段階的な洗練を行う。
摘要
本論文は、動画時間位置合わせ(VTG)のための効率的な転移学習フレームワークを提案する。VTGは、自然言語クエリに基づいて動画クリップを位置合わせする細粒度の動画理解問題である。
提案手法の主な特徴は以下の通り:
-
CLIP自体が優れた空間-時間モデリング能力を持っていることに着目し、CLIPエンコーダの最後の数層に軽量なサイドブロック(R2 Block)を再帰的に接続する。R2 Blockは、クエリ依存の空間的プーリングと時間相関の段階的な洗練を行う。
-
視覚エンコーダと言語エンコーダの粒度を調整するために、ビデオレベルと層レベルの対照学習損失を導入する。これにより、マルチグラニュラリティの情報を効果的に活用できる。
-
パラメータ数とメモリ使用量が少ないため、効率的な転移学習が可能。
提案手法は、6つの公開ベンチマークデータセットにおける3つのVTGタスク(モーメントリトリーバル、ハイライト検出、ビデオサマリゼーション)で最先端の性能を達成した。特に、追加のバックボーンネットワークを必要とせずに、既存手法を大きく上回る結果を示した。
統計資料
動画時間位置合わせタスクでは、提案手法がQVHighlights テストデータセットでmAP 47.59を達成し、既存手法を3ポイント以上上回った。
Ego4D-NLQ、Charades-STA、TACoSデータセットでも、提案手法は高品質なモーメントリトリーバル(R1@0.7)で優れた性能を示した。
ハイライト検出タスクではYouTube Highlightsデータセットで76.1のmAPを達成し、最先端の結果を出した。
ビデオサマリゼーションタスクではTVSumデータセットで85.2のTop-5 mAPを達成し、最高性能を示した。
引述
"CLIP自体が優れた空間-時間モデリング能力を持っているため、効率的な転移学習フレームワークを提案する。"
"提案手法は、CLIPエンコーダの最後の数層に軽量なサイドブロックを再帰的に接続し、空間的特徴の適応的プーリングと時間相関の段階的な洗練を行う。"
"ビデオレベルと層レベルの対照学習損失を導入することで、マルチグラニュラリティの情報を効果的に活用できる。"