Tarsierは、CLIP-ViTエンコーダとLLMを組み合わせた単純なアーキテクチャを持ちながら、大規模な多タスク事前学習と詳細な動画説明データを使った微調整によって、既存の動画説明モデルを大きく上回る性能を達成している。
本論文では、時間的アクション検出(TAD)とモーメント検索(MR)の2つのタスクを同時に処理する統一的なフレームワーク「UniMD」を提案する。UniMDは、テキストエンコーダとビジョンエンコーダを用いて共通の特徴空間を構築し、クエリ依存型の分類ヘッドと回帰ヘッドを用いて統一的な出力を生成する。さらに、事前学習とコトレーニングの2つのタスク融合学習手法を探索し、両タスクの相互利益を高めることを示す。
長尺ビデオは複雑な行動や撮影移動を含むため、従来のビデオ理解モデルでは詳細な理解が困難であった。本研究では、ビデオを短期セグメントに分割し、各セグメントの局所特徴と全体の意味的特徴を統合することで、長尺ビデオの詳細な理解を可能にする。
本研究は、単一のモデルで時間的アクション位置合わせ、サウンドイベント検出、視聴覚イベント位置合わせの3つのタスクを同時に学習する統一的なフレームワークを提案する。これにより、ビデオ内容の包括的な理解が可能になる。
ビデオトランスフォーマーの内部表現を解釈可能な高レベルの概念に分解し、それらの重要性を定量化する。
ビデオ質問回答タスクにおいて、効率的なフレームサンプリング手法を提案する。従来のヒューリスティックなサンプリング手法や学習ベースのサンプリング手法の課題を分析し、それらを改善するための2つの新しい手法を提案する。
ビデオ理解には時間的な情報が重要であるが、従来のビジョン・ランゲージモデル(VLM)は主に静止画像を対象としており、ビデオ領域への適応が課題となっている。本研究では、ビデオ条件付きのテキスト表現を提案し、ビデオ情報とテキスト情報の相互作用を強化することで、ビデオ理解タスクの性能向上を実現する。
OmniViDは、ビデオ理解タスクを言語モデリングタスクとして扱い、時間トークンとボックストークンを導入することで、様々なビデオタスクを単一のエンコーダ・デコーダアーキテクチャで扱うことができる。
長尺動画を処理するためのテキスト条件付きリサンプラーモジュールの効果的な設計とトレーニング方法に焦点を当てる。
LLMを使用した選択確率に基づく効率的な推論戦略と、ビデオ特有の情報を自然言語を介して統合するMVUフレームワークが複雑なビデオ理解タスクで最先端のパフォーマンスを実現します。