本論文は、動画時間位置合わせ(VTG)のための効率的な転移学習フレームワークを提案する。VTGは、自然言語クエリに基づいて動画クリップを位置合わせする細粒度の動画理解問題である。
提案手法の主な特徴は以下の通り:
CLIP自体が優れた空間-時間モデリング能力を持っていることに着目し、CLIPエンコーダの最後の数層に軽量なサイドブロック(R2 Block)を再帰的に接続する。R2 Blockは、クエリ依存の空間的プーリングと時間相関の段階的な洗練を行う。
視覚エンコーダと言語エンコーダの粒度を調整するために、ビデオレベルと層レベルの対照学習損失を導入する。これにより、マルチグラニュラリティの情報を効果的に活用できる。
パラメータ数とメモリ使用量が少ないため、効率的な転移学習が可能。
提案手法は、6つの公開ベンチマークデータセットにおける3つのVTGタスク(モーメントリトリーバル、ハイライト検出、ビデオサマリゼーション)で最先端の性能を達成した。特に、追加のバックボーンネットワークを必要とせずに、既存手法を大きく上回る結果を示した。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Ye Liu,Jixua... في arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00801.pdfاستفسارات أعمق