核心概念
提案手法X-MICは、凍結された視覚言語モデルの表現空間に直接エゴセントリックビデオ固有の知識を注入することで、微細なクロスデータセット認識性能を大幅に向上させる。
要約
本研究では、エゴセントリックアクション認識における視覚言語モデルの汎化性能を向上させるための新しい手法X-MICを提案する。
- 従来の視覚言語モデルは、ウェブ上の画像-テキストペアを用いて事前学習されているため、エゴセントリックビデオデータに対する性能が低い。
- X-MICは、凍結された視覚言語モデルの表現空間に直接エゴセントリックビデオ固有の知識を注入することで、微細なクロスデータセット認識性能を大幅に向上させる。
- 具体的には、ビデオアダプタを用いて、凍結された言語エンコーダの表現とエゴセントリックビデオの表現を直接アラインメントさせる。
- さらに、手領域に注目する空間-時間注意機構を導入することで、手と物体の相互作用を効果的にモデル化する。
- 提案手法は、Epic-Kitchens、Ego4D、EGTEAデータセットにおいて、従来手法と比較して優れた汎化性能を示す。
統計
エゴセントリックビデオデータセットEpic-Kitchensには合計約70時間の動画が含まれる。
Ego4Dデータセットには合計約215時間の動画が含まれる。
EGTEAデータセットには合計約6時間の動画が含まれる。
引用
"Lately, there has been growing interest in adapting vision-language models (VLMs) to image and third-person video classification due to their success in zero-shot recognition."
"However, the adaptation of these models to egocentric videos has been largely unexplored."
"To address this gap, we propose a simple yet effective cross-modal adaptation framework, which we call X-MIC."