מושגי ליבה
ビデオ内の冗長なコンテンツを処理する際に、従来のビデオLLMが抱える制限を、プロンプトガイドプーリングを用いることで克服し、短編・長編ビデオ両方の理解度向上と効率的な処理を実現する。
תקציר
PPLLaVA: プロンプトガイダンスによる多様なビデオシーケンス理解
本論文は、プロンプトガイドプーリングLLaVA(PPLLaVA)と呼ばれる新しいビデオ大規模言語モデル(Video LLM)を提案する。PPLLaVAは、従来のVideo LLMが抱える、短編ビデオと長編ビデオの両方を効果的に理解できないという課題を解決する。
従来のVideo LLMは、長時間のビデオを処理できないか、長編ビデオ用にカスタマイズされた手法が短編ビデオや画像に効果的でないことが多かった。これは、ビデオに含まれる冗長なコンテンツが原因である。
PPLLaVAは、トークン圧縮と命令を意識した視覚特徴集約の両方を同時に行う新しいプーリング戦略を採用することで、この問題に対処する。
PPLLaVAの3つの主要コンポーネント
CLIPベースの視覚とプロンプトのアライメント: ユーザーの指示に関連する視覚情報を抽出する。
プロンプトガイドプーリング: 畳み込みスタイルのプーリングを使用して、視覚シーケンスを任意のスケールに圧縮する。
クリップコンテキストの拡張: 視覚対話で一般的な長いプロンプト用に設計されている。