核心概念
OmniViDは、ビデオ理解タスクを言語モデリングタスクとして扱い、時間トークンとボックストークンを導入することで、様々なビデオタスクを単一のエンコーダ・デコーダアーキテクチャで扱うことができる。
要約
本論文は、ビデオ理解タスクを統一的に扱うフレームワーク「OmniViD」を提案している。従来のビデオ理解モデルは、タスクごとに特殊化された設計が必要であったが、OmniViDでは、言語モデルの語彙に時間トークンとボックストークンを追加することで、様々なタスクを単一の生成フレームワークで扱うことができる。
具体的には以下の通り:
- 行動認識、クリップキャプショニング、ビデオ質問応答、密集ビデオキャプショニング、視覚オブジェクト追跡の5つのタスクを統一的に扱う
- 時間トークンとボックストークンを導入し、これらのタスクの出力を統一的な語彙で表現できるようにする
- エンコーダ・デコーダ型のアーキテクチャを採用し、マルチクエリフォーマーを用いて効率的な特徴抽出を行う
- 7つのベンチマークで最先端の、あるいは競争力のある結果を達成
以上のように、OmniViDは、ビデオ理解タスクを統一的に扱うための新しいアプローチを提案し、優れた性能を示している。
統計
動画の長さは数秒から数分に及ぶ
Kinetics-400データセットには306,000個の短い動画クリップが含まれ、400のアクション カテゴリがある
Something-Something V2データセットには220,000個の動画が含まれ、174のカテゴリがある
MSRVTT データセットには10,000個の動画が含まれる
MSVD データセットには2,000個の動画が含まれる
ActivityNetデータセットには20,000個の動画が含まれる
TrackingNetデータセットには30,000個の動画が含まれる
LaSOTデータセットには1,400個の動画が含まれる