Concepts de base
動画の連続フレームにある冗長性を活用し、最も重要な視覚トークンを保持しながら、総トークン数を大幅に削減することで、マルチモーダルLLMの実用的な導入を可能にする。
Résumé
本研究では、自動運転システムにおけるマルチモーダルLLMの実用的な導入を目的として、「動画トークンスパース化(VTS)」と呼ばれる新しいアプローチを提案している。
VTSは、連続する動画フレーム間の冗長性を活用し、最も重要な視覚トークンを保持しながら、総トークン数を大幅に削減することで、計算コストと メモリ消費を大幅に削減することができる。具体的には以下の手順で行われる:
- 軽量CNNベースの提案モデルを使用して、各フレームの重要度を評価し、最も重要なキーフレームを特定する。
- キーフレームと非キーフレームの間のトークンの類似性と重要度を考慮して、非キーフレームからの不要なトークンを選択的に削除する。
- 選択されたトークンをキーフレームのトークンと組み合わせ、LLMに入力する。
この手法により、DRAMA and LingoQAベンチマークにおいて、最大33%の推論スループット向上と28%のメモリ使用量削減を達成しつつ、性能を維持することができた。
Stats
動画の連続フレームを入力として使用することで、時間的な文脈を考慮できる。
提案モデルを使用して、各フレームの重要度を評価し、最も重要なキーフレームを特定できる。
非キーフレームからの不要なトークンを選択的に削除することで、総トークン数を大幅に削減できる。
Citations
"動画の連続フレームにある冗長性を活用し、最も重要な視覚トークンを保持しながら、総トークン数を大幅に削減することで、マルチモーダルLLMの実用的な導入を可能にする。"
"VTSは、DRAMA and LingoQAベンチマークにおいて、最大33%の推論スループット向上と28%のメモリ使用量削減を達成しつつ、性能を維持することができた。"