核心概念
ビデオからの特徴予測は、事前学習された画像エンコーダ、テキスト、ネガティブサンプル、再構成、その他の監督情報を使用せずに、汎用的な視覚表現を学習するための有効な単独目的である。
要約
本論文は、ビデオからの特徴予測を単独の目的として探求しており、V-JEPA と呼ばれる一連のビジョンモデルを紹介する。これらのモデルは、2百万本のビデオデータセットから事前学習され、画像およびビデオタスクで優れた性能を発揮する。
主な結果は以下の通り:
- 特徴予測は、モデルのパラメータを適応させることなく、動作ベースおよび外観ベースのタスクの両方で優れた性能を発揮する汎用的な視覚表現を学習できる。
- 特徴予測に基づくモデルは、ピクセル予測アプローチよりも効率的であり、ラベル効率も高い。
- 大規模なデータセットを使用した事前学習が重要であり、ビデオデータの多様性を高めることが今後の課題である。
統計
最大のV-JEPA モデルは、Kinetics-400で81.9%、Something-Something-v2で72.2%、ImageNet1Kで77.9%の精度を達成した。
特徴予測アプローチは、ピクセル予測アプローチよりも、Kinetics-400で+7.1%、Something-Something-v2で+3.3%の精度向上を示した。
ラベル数を10倍減らすと、V-JEPA の精度はKinetics-400で12%低下、Something-Something-v2で13.9%低下したのに対し、他のモデルはそれ以上の精度低下を示した。
引用
"特徴予測は、事前学習された画像エンコーダ、テキスト、ネガティブサンプル、再構築、その他の監督情報を使用せずに、汎用的な視覚表現を学習するための有効な単独目的である。"
"V-JEPA モデルは、動作ベースおよび外観ベースのタスクの両方で優れた性能を発揮する汎用的な視覚表現を学習できる。"
"特徴予測に基づくモデルは、ピクセル予測アプローチよりも効率的であり、ラベル効率も高い。"