本研究では、ビデオを単一の画像グリッドに変換する新しい手法「IG-VLM」を提案している。ビデオは時間情報と空間情報が複合的に含まれるため、ビデオ理解には両者の適切な管理が重要である。従来のアプローチでは、ビデオデータを用いて学習可能なインターフェースを構築したり、ビデオをテキストの説明に変換したりするなど、複雑な手順が必要だった。
一方、IG-VLMでは、ビデオから複数のフレームを抽出し、それらを格子状に配置した単一の画像グリッドを生成する。この画像グリッドを高性能なビジョン言語モデルに入力することで、ビデオ理解タスクを効率的に解決できる。IG-VLMは、ビデオデータの学習を必要とせず、複雑な多段階のアプローチも不要である。
実験の結果、IG-VLMは10種類のゼロショットビデオ質問応答ベンチマークのうち9つで最高性能を達成した。特に、長尺のビデオに対する理解力が高いことが示された。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies