核心概念
長距離ビデオ理解のためのビデオマスク型自動エンコーダ(MAE)のスケーラビリティの課題を克服するために、本論文では、適応デコーダマスキング戦略と組み合わせた新しいMAGVITベースのトークン化戦略を提案する。このアプローチにより、128フレームという長いビデオシーケンスの事前トレーニングが可能になり、従来の短いビデオMAEと比較して優れたエンコーディングが実現する。
要約
ビデオマスク型自動エンコーダの128フレームへの拡張:研究論文要約
書誌情報: Nitesh B. Gundavarapu, Luke Friedman, Raghav Goyal, Chaitra Hegde, Eirikur Agustsson, Sagar Waghmare, Mikhail Sirotenko, Ming-Hsuan Yang, Tobias Weyand, Boqing Gong, Leonid Sigal. Extending Video Masked Autoencoders to 128 frames. NeurIPS, 2024.
研究目的: 本論文は、ビデオマスク型自動エンコーダ(MAE)を拡張し、従来の16~32フレームの制限を超えて、128フレームという長いビデオシーケンスを処理できるようにすることを目的とする。
手法: 著者らは、以下の2つの主要な要素を含む新しいアプローチを提案している。
- 適応デコーダマスキング戦略: デコーダのメモリ要件とスケーラビリティへの影響に対処するため、ビデオコンテンツの重要性に基づいてデコーダマスクを生成する。これにより、最も重要なトークンのみが復元対象として選択され、メモリ効率が向上する。
- MAGVITベースのトークン化戦略: 3D-CNNベースのビデオトークナイザであるMAGVITと、大規模なコードブックに容易に拡張できるVQのシンプルな代替手段である有限スカラー量子化(FSQ)を組み合わせた、新しいトークン化戦略を導入する。この戦略は、トークンの重要性を学習すると同時に、トークン化自体も共同で学習する。
主な結果: 著者らは、提案する適応デコーダマスキング戦略が、従来のランダムおよび均一マスキング戦略よりも優れていることを実証している。さらに、128フレームの長いビデオで事前トレーニングを行うことで、32フレームの短いビデオMAEと比較して、下流のファインチューニングタスクにおいて一貫して優れたパフォーマンスが得られることを示している。
結論: 本論文で提案された長距離ビデオMAE(LVMAE)アプローチは、標準的なViTエンコーダと単一のテンポラルフレームのみを使用し、事前トレーニング中に言語の教師データやラベルを使用せずに、EPIC-Kitchens-100やDiving48などの従来のアクション分類ベンチマークにおいて最先端のパフォーマンスを実現した。
意義: 本研究は、長いビデオシーケンスを効果的に処理できる、より堅牢で効率的なビデオMAEの開発に大きく貢献している。これは、複雑なイベントやニュアンスを理解するAIの能力を高め、アクセシビリティ、コンテンツ作成、レコメンデーション、モデレーションなどの分野に革命を起こす可能性を秘めている。
制限事項と今後の研究: 本研究では、比較的小規模なデータセットとモデルサイズに限定されている。大規模な事前トレーニング、画像とビデオのデータセットの共同トレーニング、より大容量のモデルなどの探求は、今後の課題として残されている。さらに、本論文で扱われている128フレームは、従来の16~32フレームから大幅に増加しているものの、さらに長いビデオを処理するためには、さらなる改善が期待される。効率的なデコーダ(およびエンコーダ)の使用や、長いローカルコンテキストとメモリの組み合わせは、MAEをスケーリングするための代替手段となり得る。
統計
著者らは、デコーダのマスキング率を変化させた場合のViT-B MAEアーキテクチャのメモリと計算の特性を調査し、128フレームのビデオの長さについて報告している。
エンコーダのマスキング率を90%に固定した場合、エンコーダの層数は3倍であるにもかかわらず、トークン数と2次スケーリングが原因で、長いビデオではデコーダがメモリ使用量を支配するようになる。
著者らは、長いビデオの事前トレーニング体制によって課せられる計算とメモリの制約を満たすためには、デコーダのマスキング率をエンコーダのマスキング率に近づける必要があることを発見した。
32フレームの短いビデオで、RGBピクセルとFSQ-MagViTトークンの両方を使用して、提案された適応マスキングと他のいくつかのデコーダマスキング戦略を比較した結果が示されている。
著者らは、15%のデコーダトークンバジェットを使用した場合、提案する適応スキームが、100%のトークンバジェットですべてのトークンをデコードするVanilla VideoMAEとの差を埋め、さらにはそれを上回ることを発見した。
さらに、コンテンツにとらわれないランダムおよび均一スキームに加えて、提案する戦略は、コンテンツを考慮したアプローチ(FlowおよびEVEREST)よりも優れており、その有効性が示されている。
最後に、上記の傾向は、ピクセルとトークンの両方の再構成目標に当てはまる。
著者らは、16フレームのクリップでKinetics600データを使用して、適応トークン選択モジュールをトレーニングした。
著者らは、標準的なMAEの事前トレーニングに従い、トークン選択モジュールによって選択された上位k個のトークン(および少数のランダムに選択されたトークン)を再構成し、RGBピクセルの代わりにトークナイザからの潜在埋め込みを再構成するという2つの変更を加えた。
著者らは、トークン選択の学習とMAE自体を意図的に分離し、勾配がトークン選択を簡単にマスクできないトークンを選択するように偏らせないようにした。
著者らは、EPIC-Kitchens-100とDiving48の従来のビデオアクション分類ベンチマークでLVMAEを実験した。
EPIC-Kitchens-100には、平均3.7秒の約9万個のビデオクリップ(25 FPS)が含まれており、少なくとも5秒(=125フレーム)のビデオは約15%である。
Diving48には、平均158フレームのビデオが含まれており、24~822フレームとさまざまで、48の細かいダイビングカテゴリに分類される。
著者らは、128フレームと適応マスキング戦略を使用して、ラベル付けされていないKinetics710データでモデルを事前トレーニングした。
EPIC-Kitchens Top-1 Verb分類において、提案するモデルは、標準的なViTアーキテクチャと単一のクロップのみを使用して、現在の最先端技術を+2.5ポイント上回った。
EPIC-Kitchens Noun分類では、提案するモデルは、6000万個のラベル付けされたビデオクリップと特殊なマルチビューアーキテクチャで事前トレーニングされたMTV-B、教師ありKinetics710で事前トレーニングされたTAdaFormer、およびEgo4Dという大規模な一人称視点データで事前トレーニングされた最近公開されたAvionに遅れをとっている。
Diving48データセットでは、提案するモデルは、複雑なダイビングシーケンスを含むデータセットにおいて、絶対的な最先端技術を3.9ポイント上回った。
現在の最先端技術であるMC-ViTは、2700万組のビデオとテキストのペアを効果的に使用しているのに対し、提案するモデルは約100万本のラベル付けされていないビデオとわずか1万5000本のラベル付けされたビデオを使用している。
著者らは、32フレームのモデルを事前トレーニングし、ViT-Bバックボーンを使用してEPIC-Kitchens-100データセットのパフォーマンスを報告することで、デコーダのマスキング戦略を評価した。
著者らは、少数のランダムなトークンを再構成すると、パフォーマンスが向上することを発見した。
著者らは、フレーム数を16から32、64と徐々に増やしていった場合の影響を報告している。
フレーム数を16から32、64と増やしていくと、精度が大幅に向上することがわかった。
64フレームから128フレームに移行した場合、わずかな改善にとどまった。
著者らは、MAEの事前トレーニングのターゲットの選択を評価した。
標準的なRGBターゲットからMAGVITターゲットに移行すると、名詞-動詞のTop-1精度は3.3%向上した。
MAGVITターゲットからAdaptive FSQ-MagViTターゲットに移行すると、わずかに低下した。
適応デコーダマスキング戦略とAdaptive FSQ-MagViTターゲットを使用すると、パフォーマンスが回復した。
著者らは、128フレームのFSQ-MagViTをターゲットとして使用し、提案する適応デコーダマスキング戦略を他の戦略と比較した。
提案する適応マスキングは、EPIC-Kitchens-100とDiving48の両方のデータセットにおいて、フレーム数を32から128に増やした場合に最適であることがわかった。
著者らは、EPIC-Kitchens-100 Verbsベンチマークを使用して、さまざまな長さのビデオにおけるモデルのパフォーマンスを、現在の最先端技術であるAvionと比較した。
著者らは、モデルのLargeバージョンを使用した。
著者らは、ビデオの長さが長くなるにつれて、最先端技術を上回るパフォーマンスの向上が持続的に見られ、これはモデルが長いシーケンスに対応できることを示している。
引用
「しかし、より長いビデオシーケンスの場合、デコード段階ですべてのマスクされたトークンを再構成すると、Transformerの計算量が2次関数的に増加するため、すぐにメモリ不足(OOM)が発生します(中程度のビデオ解像度と現在のコンシューマ向けハードウェアでは64フレーム未満の場合にのみ実行可能)。」
「その結果、既存のMAEベースのビデオ理解アプローチのほとんどは、一度に少数のフレーム(16 [15] / 32 [14])のみをエンコードする表現の学習に焦点を当てています。これは、より長い時間範囲にわたるアクションやイベントを理解する能力を制限します。」
「この作業では、エンコード段階とデコード段階の両方でマスキングを実行する[14]に基づいて構築します。特に、メモリ使用量とスケーラビリティへの影響を考慮して、デコーダのマスキングに焦点を当て、MAE設定におけるビデオのコンテンツ依存の適応マスキング戦略を提案します(図1を参照)。」
「私たちの主な貢献は次のとおりです。(1)コンテンツ依存の適応マスキング戦略を設計し、低トークンバジェットが与えられた場合、従来の均一およびモーションベースのマスキング戦略よりも優れていることを示します。(2)低トークンバジェットから得られたメモリ節約により、長いビデオ(128フレーム)で事前トレーニングを行うことができ、MAEの事前トレーニングのコンテキストにおいて、長いビデオが実際にどれだけの利点をもたらすかという疑問を投げかけることができます。長いビデオMAE(128フレーム)モデルは、下流のファインチューニングのパフォーマンスを使用して測定した場合、短いビデオMAE(32フレーム)よりも一貫して優れていることがわかりました。これは、短いビデオMAEがより長いコンテキストでファインチューニングされた場合(たとえば、32フレームの事前トレーニング済みMAEを128フレームでファインチューニングした場合)も含みます。(3)これらの調査結果を活用して、言語の教師データや事前トレーニング中のラベルに依存せずに、標準的なViTエンコーダと単一のテンポラルフレームのみを使用して、長距離モーションの理解が必要であることが知られている従来のアクション分類ベンチマーク(EPIC-Kitchens-100 [18]およびDiving48 [19])において、長距離ビデオMAE(LVMAE)アプローチで最先端のパフォーマンスを実現しました。」