本研究では、長尺ビデオの効率的な理解を目的とした新しいビデオ大規模言語モデル「LongVLM」を提案する。
まず、入力ビデオを一定の長さの短期セグメントに分割する。各セグメントについて、視覚特徴を階層的なトークン統合モジュールを用いて圧縮し、局所特徴を抽出する。これらの局所特徴をシーケンシャルに連結することで、長尺ビデオの時間的構造を保持する。
さらに、全体の意味的特徴を抽出するため、各フレームの[CLS]トークンを時間方向に平均プーリングする。この全体特徴と局所特徴を連結し、言語モデルに入力することで、長尺ビデオの詳細な理解を実現する。
実験では、ビデオ対話ベンチマークや零shot ビデオ質問応答タスクで、従来手法を大きく上回る性能を示した。特に、詳細情報の正確性や一貫性の向上が確認された。これは、局所特徴と全体特徴の統合が長尺ビデオの詳細理解に有効であることを示している。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Yuetian Weng... ב- arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03384.pdfשאלות מעמיקות